白鲸出海—让中国互联网服务世界
{{user_info.user_name}}
您当前是白鲸会员
开通VIP,享受更多服务
会员到期时间:{{user_info.expire_date*1000 | formatDatebyDay}}
合作查看次数: {{users_vip_equities.view_cooperation || 0}}次
合作发布次数: {{users_vip_equities.release_cooperation || 0}}次
公司查看次数: {{users_vip_equities.view_company || 0}}次
榜单下载次数: {{users_vip_equities.download_rank || 0}}次
报告下载次数: {{users_vip_equities.download_book || 0}}次
鲸币数量:{{user_info.jingbi}}
发布
当前位置:白鲸出海 > 资讯 > 正文

高策,27岁离开腾讯字节创业,如何5个月获300万下载、实现品类第一的弯道超车?

尾巴  • 

本文转载自Z Potentials,作者Z Potentials。

本期访谈,我们有幸与 TensorChord 的创始人高策深入对话。高策 1994 年出生,2012 年入学上海交通大学,从 hello world 开始学起。凭借极大的热情和天赋,高策在读书期间就成为了知名 AI Infra 开源项目 Kubeflow 的社区联合主席(Kubeflow Co-chair),毕业后先后加入字节跳动和腾讯云 AI 团队。

2021 年,27 岁的高策决定放弃很多人羡慕的工作离职创业,“我决定去探索一下更底层、更偏基础设施的东西。更底层意味着能做的事情更多,能掌握的空间更大,能做的优化更多。”他把自己热爱和擅长的 AI Infra 作为创业方向,天使轮即获知名投资机构支持。

就像每一家创业公司都会经历的那样,TensorChord 的旅程也并非一帆风顺。从相信到怀疑,从选择到再选择,经过两次 pivot,这家年轻的公司在今年终于迎来阶段性的里程碑:他们推出的基于 PostgreSQL 的向量搜索产品 Pgvecto.rs 今年初正式推出以来已有 300 万次下载,月新增下载约 50 万,实现了 PostgreSQL AI 品类第一,且获得了知名产品 Immich 的使用。

在本期深度对话中,高策与我们分享了他的创业故事和对 AI Infra 未来发展的见解。从 TensorChord 的创立初衷,到产品的核心优势和市场定位,再到团队的愿景和战略规划,高策的分享坦诚而直接:那些做对了和没做对的事,那些想清楚了和还在思考的问题。高策的创业之旅还在路上,也希望分享给同样也在路上的你。Enjoy!

我决定去探索一下更底层、更偏基础设施的东西。更底层意味着能做的事情更多,能掌握的空间更大,能做的优化更多。

以前 AI 领域好用的工具非常强调易用性,但后来 ChatGPT 的出现改变了这种情况。训练场景的受众已经从以前的数据科学家变为具有计算机科学背景的工程师,他们不再需要传统意义上的高易用性工具,而是需要一些新的工具,易用性的含义已经不同于以前。受众的变化导致了需求的变化。

Vector 是一种新的 data type,而不是新的 indexing 构建方式,这个新 data type 如果能够在传统的数据库里得到更好的支持,就能很好地补强传统数据库的功能。

我们最大的差异化就是基于关系型数据库来支持向量搜索,而不是开发一个新的 specialized vector DB。用户只需写他们熟悉的SQL语言进行搜索,系统会自动完成所有的计算。他们只需声明某列数据是向量类型,然后可以通过搜索找到最相近的几个结果,直接喂给大语言模型即可。这使得用户能够在数据库里完成所有工作,非常便利。在复杂的查询场景下,我们的扩展效果会特别好,这也是大多数用户选择我们的原因。

我们已经推出了托管服务,主要关注开源社区的 adoption,今年从年初到现在五个月,大约有 300 万次下载。月新增下载约 50 万,指标增速比 pgvector 快。

我们接触到的客户大多已经知道如何使用这些数据,但仍有很多客户没有AI的相关背景,不知道如何利用这些数据。未来我们希望通过低代码或无代码的方式,帮助这类客户将他们的数据与 AI 应用结合。

要做好公司,除了技术,还需要快速应对变化的能力。

我一直觉得做一些有影响力又有商业价值的工作是非常吸引人的。最兴奋的时候是第一次有非常知名且拥有大量用户的应用采用我们的产品的时候。产品真正被使用时,那种价值感是我之前很少体会到的。

94年Kubeflow社区联合主席,字节腾讯离职后即获知名投资机构支持,想做有影响力又有商业价值的事

在在.jpg

TensorChord Co-Founder 高策(左)与Co-Founder 周金晶(右)

ZP:很高兴高策接受我们的访谈,可以先向我们的读者简单介绍一下自己。

高策:大家好,我是高策。我在 2012 年通过自主招生进入上海交通大学。高中主要是参加物理、数学这些学科的竞赛,在大学之前完全没有接触过计算机编程,所以一上来学计算机的时候还是比较受挫的。当初大学刚开始第一门计算机课学 C++,要做在命令行里输出 hello world 这样一个特别简单的编程任务。我周围的同学基本上一个小时以内都解决了,但是我花了五六个小时才做出来。当时给我打击特别大,但是后来慢慢在写代码的过程中发现编程非常有趣,用计算机编程是在创造一些之前没有的东西,比如可以编写一些小游戏。其实第一次写 Hello world 的时候就已经感觉编程很神奇了,我能够用一些不知道是什么的命令让计算机按照我的想法进行一些输出。这个从打击到乐趣的过程遇到了很多挫折,但是也受到了很多帮助。我当时的大学室友就是一个非常乐于助人的人,他一点一点地帮助我,教我编程,对我帮助很大。

交大的软件学院在暑假里会有一个小学期也要上课,上课唯一的作业就是要写一个比较大的项目。当时我们是要做一个类似 twitter 的社交软件,但是只要在命令行里运行就行了。要求是在应用里能创建账号、follow 其他用户、看到其他用户的 timeline 和 post、list 其他用户的 followers。我平时主要是写写算法题,突然要写这么大一个项目我就觉得很难,但是也只能硬着头皮写。那时候还涉及一些数据结构的应用和索引操作,比如哈希表、B-tree 等。这些东西对当时的我来说是非常复杂的,整个暑假都没怎么休息,一直在研究怎么写这个应用。写出来的时候就感觉非常有意思,能用如此高效的方式在磁盘上构建一个搜索的索引,用来搜索所有的推文和发布的内容,是一个非常好玩的事情。完成这样一个大作业当时感觉是一个非常大的里程碑。

2015年大三的时候,我到蚂蚁金服的国际事业部实习,完成一个现在已经被砍掉的支付宝海外直购项目。当时海外尤其欧洲有非常多的独立电商,但是他们都不支持支付宝。我们试图解决的问题是,怎样完全通过支付宝的渠道让用户在那些独立电商网站上购物的时候能一键下单、一键清关,然后直接把货物运送到国内来。那是一个非常注重业务逻辑、业务复杂性也很高的场景,当时我们组里有非常多清关方面和支付方面的产品专家。那是一个产品驱动的应用,在这个过程中我也体验到了国内大公司的开发的流程,但是我发现我不是特别喜欢这样的流程。支付宝是特别注重产品的公司,我们的代码开发会受到产品逻辑和产品经理非常多的介入。这个项目相当于是在支付宝内部创业,但是这个业务最后没有了,因为这个 PMF 没跑通,整个项目组解散去做别的事情了。

ZP:你提到支付宝的那个项目的 PMF 没有跑通,你现在作为 CEO 肯定有很多的思考。你觉得当时没有跑通的原因是什么?这个业务解散之后你去做什么了?

高策:我觉得最大的原因还是低估了清关的难度。海外的购物,无论是通过 AWS 还是其他的方式,清关一直是一个非常严峻的问题。一方面是比较难做;另一方面它不是纯软件的事,会涉及很多线下的流程,这种类型业务的投入产出比不一定是适合支付宝这样的公司的。这个项目最后被砍掉我很能理解,因为做的过程中我就感觉效率实在太低了。存在很多商业上的问题,比如为什么用户用支付宝下单?这对于当时存在的销售体系是一个挑战。但当时不懂那么多,就觉得这个项目做的感觉还行,并且已经快取得一定的成果了,有非常多海外很大的合作商在跟我们合作,但是还是失败了。我对那个项目还是有点感情的,当时就有点受打击,也有点受震撼。我感受到商业活动里面很多事情并不是我能决定的,一个项目能不能成对公司来说不确定性是很大的。当时我觉得我如果再进入一个类似这样的业务做两三年然后又没有成功,这对我无论是职业还是心理的成就感影响都挺大的。当时就觉得要不读个研究生缓一缓吧。此外还有一点,做多了业务逻辑开发,感觉自己有点像螺丝钉。因为这样的事情,不管是我来做,还是支付宝其他的工程师来做,还是再招一个大学校的实习生来做,没有本质上的区别,就是一个非常标准化、规范化的编程,做多了会感觉有点无聊。最开始做的时候还是很有动力的,但是慢慢做久了会发现学不到太多东西,没有太大的成就感在其中。

后来我就决定去探索一下更底层、更偏基础设施的东西。更底层意味着能做的事情更多,能掌握的空间更大,能做的优化更多,比如可以自己造一些数据库,甚至操作系统,那会是很好玩的事情。从这个角度出发,我就决定在学校保研读一个基础设施相关的研究生。当时也考虑过出国,但是那个时候很年轻,觉得国内的软件市场应该会更大一些。虽然美国那时候已经非常好了,但是感觉它没有太大的发展空间了,认为国内的市场还比较有潜力。事实上对于 to C 来说确实是这样,但对于 to B 来说不一定是。

当时决定缓一缓,读了 infra 领域的研究生。正好那个时候有一家回国创业的公司和我的导师有一些合作,所以我一边做基础设施的软件方面的研究,一方面做一些偏工业界的事情。那家公司也就是我后来加入的公司,叫才云科技,后来被字节收购了。那段时间我就在才云科技远程实习,接触了 k8s。2014 年 k8s 开源,2015 年我就在利用它做对机器学习工作负载支持的研究型工作。那个时候 k8s 甚至都不是容器领域的实施标准,有很多其他集群管理的软件可以使用,我算是接触的比较早的。我在交大的老师在 CMU 访学期间,认识了那时还在谷歌工作的才云科技的创始人,觉得 k8s 非常先进,肉眼可见一定是未来容器编排领域的标准。那家公司有非常深厚在谷歌做 machine learning 的背景,而且那个时候 google 里面的 machine learning 也都是跑在 google 内部的一个集群调度的软件 BORG 上面,所以他们觉得用 k8s 来支持 machine learning 也是一个非常自然的事情。而当时 k8s 对于机器学习工作负载的支持是非常差的,所以我的工作之一就是让 k8s 更好地支持机器学习的集群调度,也就自然而然地偏向了 AI Infra 这个方向。我算是很早接触 AI 了,那个时候甚至没有很多的 AI 公司,基本没有公司用 k8S 做 machine learning 的 workload 的支持。就是因为那家公司本身有很强的 google 的背景,在这个项目开源之前,我就有机会参与到 Kubeflow 早期的设计开发过程中。这个项目最早是 google 的一个工程师的 side project,当时有百分之五六十的代码是我们写的,但是版权是 google 的。

ZP:那个时候做 AI 方向的很少,但是你还是选择这个方向。今天来看,你觉得当时有什么东西判断的是对的,什么东西是和现在想的不一样的?

高策:当时我是觉得一定要做新的东西,有两个原因:在支付宝,我有一种盛宴已尽的感觉。我能想到的任何一个工程上的优化或者一个新的中间件在支付宝里面已经遍地都是,让我感觉已有的基础设施已经非常完善和成熟了。我想做一些真正有价值、有影响力的工作,只有找一些没有人做过的方向。那个时候我是非常 buyin AI 的,我觉得 AI 这个东西太神奇了,虽然那个时候的应用也就只局限在人脸识别这一个场景,但是我觉得 AI 是一个非常有前景的新方向,用基础设施把 AI 支持好一定会是未来非常有需求的事情。另一方面,新的东西会比较好玩,因为有更大的发挥空间,没有既定的东西限制我。比如怎么样能够把一个分布式任务更好地在集群上跑好,这是没有答案的,只要有一个解法就会有人用。这有点像 Hadoop 刚出或者大数据的很多软件刚出的时候,他们的性能都非常差,那时候每个月都会有一篇新的 paper 做一个非常简单的性能优化,Hadoop 的性能在那段时间是几百倍、几千倍的在提升。那个时候 AI infra 我感觉也会有这样的机会,我也很喜欢这个方向的工作,所以我也投入了非常多的精力。

ZP:你说 2015 年前后在你看来已有的基础设施已经很成熟了,但海外的一些大的 infra 公司,比如 snowflake、confluent,都是在 2012-2014 年才刚成立的。如果让你带着现在的认知回到那个时候,你的选择会有些不同吗?

高策:我还是会做出同样的选择。当时我觉得大数据、BI、传统生产环境用的 infra 已经很成熟了。当然从现在来看,那个时候还是非常不成熟的,起码在大数据领域还是有非常多的机会的,但是并不是国内 to B 的机会。国内像蚂蚁金服那样规模的企业本来就不多,腰部的公司又实在太少了。从技术上来讲,基础设施还是有非常多的新的技术,那个时候的 OLAP 数据库和现在的 Snowflake、Redshift 等相比还是差挺多的。但是,很难有革命性、跨时代的机会再次出现,比如从没有 docker到有 docker 这样的跨越。AI这个领域里还是有很多这样的机会的。当然,在整个 to B 的基础设施软件这个方向上,2015 年之后还是有非常多很好的公司出现,尤其是 snowflake。但是在技术上 snowflake 其实也没有非常巨大的技术革新,它更多是产品上的创新,它选择完全基于 public cloud,那是非常具有前瞻性的。

ZP:在才云科技做 Kubeflow 和后面加入腾讯都是你很重要的经历,可以分享一下。

高策:2016 年毕业之后一方面在实验室里做研究,另一方面在才云负责开源社区的一些工作,直到 2019 年研究生毕业。那几年我在 Kubeflow 社区里特别活跃,到我 2019 年毕业的时候,我在社区里的贡献排名是第二,第一是 google 那位发起这个项目的 engineer。随着 Kubeflow 在 2017 年的发布,它获得了非常多的关注,star 数从几千一直到现在的一两万个,adoption 也在越来越好;期间我也帮助了很多公司解决它在生产环境上的部署问题以及应用过程中产生的问题。2019 年毕业之后,我也就直接加入了才云科技,那时它融完了 B 轮。加入以后,我的角色是 tech lead,负责实现和维护公司内部AI平台产品的部分功能,对社区的关注相对少了。

本来我想在这家公司工作更长时间,但是 2020 年公司被字节收购了。现在看起来是一个很好的退出,但当时感觉公司在往上走,当时不太能理解。现在看来,当时的问题是客单价低,客户买回去之后不怎么用,很多是金融行业买来部署到生产环境上就结束了,反馈也很少。公司被收购之后我也就加入了字节跳动。这也很好,因为平台更大。老板说收购是因为是想把云做起来,而我想如果做一个公有云,情况可能会不一样,公有云的用户不会买了服务不用。我非常想能够在字节跳动从零到一把公有云做起来。但是后来我了解到字节当时没有做公有云的计划,更多是偏向支持字节内部的业务。我觉得这不是很有意思,我刚毕业一年,还是想做更多有价值的、有影响力的事情,所以后来就去了腾讯云的容器团队做AI。腾讯云虽然是一个通用的容器服务,但是那时候客户的使用量里面有 60%是 AI 相关的业务。我觉得这个事情很有发挥的空间,跟老板聊完之后,也有非常多新的想法,就加入了腾讯云。但是我去腾讯云没多久发现字节又开始做火山引擎公有云了,这是后话了。

我在腾讯云支持利用腾讯云容器的 AI行 业的客户,这些事情对于我们创业也很有帮助。那个时候的客户以泛互、教育、自动驾驶、新能源这样的行业为主。最大的客户是一家互联网信息流公司,它所有推荐相关的 AI 业务都是运行在 Kubeflow 上面的,下面是腾讯云提供的 k8s。我们的工作重点就是在如此大规模的场景下让 Kubeflow 运行得更好,后面也尝试孵化一些更偏 AI 的容器产品出来。

当时我很大的精力就花在怎样把当时最大的客户客户支持好,我经常去驻场,接触了非常多推荐系统的分布式训练的生产环境的问题。那也给带来我很大的震撼:头部客户的用量实在是太大了,后面的腰部客户加起来还不如一个头部客户的量大。所以对云厂商来说,做一个产品把所有的腰部客户都服务好,也不如把一个头部客户服务好收益更大。

在腾讯工作一年后,我决定创业,这也是和我的 cofounder 聊了很久的结果。我们 2021 年做出决定,2022 年正式出来。一方面,我们一致觉得 AI infra 这个领域还是有非常多机会的,像 Weights&Biases 这种技术如此简单的公司都能发展得这么好。另一方面,我们作为一线的工程师,也看到客户非常需要更好、更高效的 AI infra去 服务内部的 AI 业务,这些公司在 AI 上投入非常大,服务器上的支出大几亿,人力上的支出大几千万,大家有很多的资金花在这个方面。在创业之前,我们也看了非常多的方向,后来选了我们认为比较有需求的 developer environment 这个方向来创业。

ZP:决定创业背后的动力是什么?

高策:我一直觉得做一些有影响力又有商业价值的工作是非常吸引人的。创业的好处在于可以做一些有价值的事情,同时有绝对的控制权,不需要为别人的失败买单。在一个很大的公司里面,很多的事情是身不由己的。公司有自己的短期营收目标的压力,长期来看也要为财报负责。所以大公司没法实现长期的投入,比如孵化新的产品,做内部创业。反而是在外面机会可能更多。当时的创投环境也相对比较好,美联储还处于低利率,投资机构资金比较充分,能投更多的项目,给我们一些试错的空间去尝试找到 AI infra 商业化的机会。

ZP:TensorChord 这个名字是怎么来的?

高策:我们想做一家 AI infra 公司,所以想学习 Kubeflow 和 TensorFlow 一样取一个两个词拼在一起的名字。我们觉得 TensorFlow 是挺好的产品,我们就取了前面的 Tensor,后来想到用 Chord 来搭配前面的张量,也是很物理学的词,这两个词拼在一起有一种美感。

受众需求的变化导致AI Infra的变化;vector是新的data type,而不是新的indexing构建方式

ZP:现在回头看 Kubeflow,做的最对的事情是什么?

高策:我后面出来做的也是开源 AI Infra 相关的工作,Kubeflow 算是其中非常成功的,所以这个问题我也想过很久。首先在于早。2014 年 k8s 才刚 release,2015-2016 年搭建一个 k8s 的集群是很复杂的。当时需要一个多月的时间,现在可能只需要几分钟。但是在那么早的时候我们已经开始在 k8s 上构建对 AI 的支持,是第一个吃螃蟹的人。除了早,它也是基于 Google 之前内部 Borg(类似 k8s 但是是 Google 内部使用)上的东西。谷歌内部非常多的 AI 业务都是运行在调度软件上,这给 Kubeflow 的设计提供了非常多的参考。谷歌又是这个世界 上infra 最先进的公司,我们受到谷歌的哲学的影响很深,非常强调大规模、强调并行。后来我们看到非常多新的项目,像 Databricks 开源的 MLflow,就非常强调易用性,在单机环境下支持开发者或者是算法工程师来使用。这是完全不同的关注点。

ZP:你刚刚提到了 MLflow 强调易用性和支持单机环境,而谷歌强调大规模和并行。在你今天来看,这两种选择有好坏之分吗?

高策:我觉得易用性相对来说更重要一点,因为易用性好的 AI 更有商业价值。以前,大规模分布式只在互联网公司才有场景,比如Tiktok的推荐。它的业务体量很大,并发非常大,是一个非常强调高吞吐低延迟的场景。这种公司往往有非常强大的研发实力,会倾向于使用扩展性好的开源软件,然后在此基础上进行二次开发,所以这些场景的商业价值并不大。但反观像MLflow、Weights&Biases,它们强调易用性,强调让单个的 data scientist 用好,更方便分享 data scientist 的实验结果,也就是 experiment checking 的方向。虽然技术门槛不高,但是商业化价值很大。回顾历史,所有关注 workflow、分布式、并行的公司发展得都没有那么好,而 Weights&Biases可 能是上一代 AI 里面发展最好的公司,我觉得最大的原因就是关注到了一个别人没有关注到的点。它从易用性、从小团队出发,跑出了类似于 PLG 的感觉,大家现在一想到 experiement checking 都会想到 Weights&Biases。

ZP:也就是做得早和易用性高这两点很重要,还有类似的例子吗?PyTorch 和 Databricks 属于吗?

高策:还有一个例子是 HashiCorp。它就是靠着自己前瞻性的想法,把多云这件事情做得特别早,在只有一个云的时候就开始做了。在 2012 年它就做了非常多的多云工具,比如 terraform,没有任何竞争。那个时候我会觉得这东西真是没用,但是现在大家一想到多云肯定都会先想到它,同时它的易用性做的真的太好了。

我觉得 PyTorch 其实做得晚,但是它用户体验实在太好了,以至于慢慢超越了 TensorFlow。 PyTorch,包括 Weights&Biases 能兴起的一个很重要的原因是那时候 data scientist 缺少好的工具。data scientist 是一个非常专业的工种,需要非常多年计算机以及深度学习的教育背景才能够做 AI 相关的工作。他们对工具的选择也是注重效率、注重易用性的。但是随着 generative AI 的出现,情况又不太一样了。很多参与机器学习的工程师不再需要机器学习的背景,PyTorch 的易用性已经越来越不重要了。训练和使用 LLM 已经完全是不同的人。训练的人都很资深,懂得使用最适合的框架,他们更注重机器的效率,因为硬件变得越来越贵。从理论上讲,随着需要进行训练的人群逐渐减少,实际上需要真正接触 PyTorch 的人也在减少。比如很多使用 ChatGPT 构建应用的人,他们并不需要了解 PyTorch。所以从训练的角度来看,效率越高的框架越受欢迎,尤其是那些能更好利用 GPU 的框架,因为 GPU 现在非常昂贵,训练一次的成本很高。PyTorch 虽然非常注重易用性,但未必会是未来最有价值的框架。所以以 TensorFlow 为代表的静态图之类的方式又慢慢有所回归了,Google JAX 这样的新框架反而又得到了越来越多的使用。这是因为使用的人群发生了变化,大家对于工具的需要也随之变化。

Databricks 我觉得更多是一家大数据公司多一些,它更像 snowflake,不太 AI infra。当然上一代的 AI infra 本身就很难挣钱。在上一轮,在大数据领域,我们能看到 snowflake 和非常多的高估值的公司,它们的营收其实也更好。因为大数据确实要比AI的场景更广阔。所以 Databricks 做大数据是很合理的选择,包括 Data Lake 这样的开源项目,这才是它最有优势的地方。相反,MLflow 可能没挣到什么钱。

ZP:你总结的做的早和易用性这两点对于你后来的创业有什么影响吗?你选方向、做探索、做决策的时候有什么故事和背景吗?

高策:我们做的第一个产品是 envd。我们深度参考了 HashiCorp 的第一个开源的项目,Vagrant。它产生的背景是在没有 docker 的时候让用户通过声明式的方式写一个类似 docker file 的描述文件,构建一个基于虚拟机的开发环境出来。虽然比较重而且要花五六分钟,但是在当时是一个非常革命性的东西。当时配置开发环境是非常复杂的,没有 docker 也没有环境隔离。有了 Vagrant 之后,他们可以在虚拟机里做,并且可以只描述想要的东西而不关心实现和安装。说回我们的产品,我们观察到很多 data scientist 是学数学、生物或者物理的,对计算机底层了解并不多,不知道docker 是什么。我们希望为他们提供一个更简洁的构建开发环境的工具。我们当时推出了一门类似pytho n的语言,用户可以用它来做声明式的描述,我们会用 docker 构建出开发环境。这个产品开源之后受到非常多传统 data scientist 出身的工程师的欢迎,包括一个 Apple 的 data science team 的 manager,对我们的产品非常欣赏,帮我们在 twitter 上做了非常多的推广。

我们做 envd 的时候是 2022 上半年,当时还没有 ChatGPT 这样的东西。我们发现 LLM 出现之后非常多使用 LLM 的人就是传统计算机出身的,非常了解 docker 以及计算机底层是怎么工作的。在这样的情况下,一个基于易用性的 developer tool 对他们的帮助很小。当然,ChatGPT 的好处是让 AI infra 的市场有一个数量级的扩大。我们就在思考这个市场需要什么样的 infra,后来我们在 2023 年初想到做无服务器的推理。ChatGPT 虽好,但是它的成本实在太高了,那个时候也很难 finetune。那这种情况下,开源模型一定会流行起来,市场也需要一个很好的推理服务。我们做市场调查发现没有几家是做 serverless inference 这件事情的,只有 Banana 这样非常早期的公司,而且他们很多都不是传统的 MLOps 背景,所以我们在技术上也有很大的优势。我们就转去做了这个方向,收获了一些客户,更多是国内出海的客户,像 MyShell 当时是我们的客户之一。但是后来我们发现这件事情越来越难做。有两方面原因,一方面是 ChatGPT 变得越来越好用了。OpenAI 进行了技术迭代,也形成了它的数据飞轮,它的模型变得越来越好。另外一方面是竞争在变得越来越激烈,大家都发现这是一个很好的市场。因为它是全托管的,类似于公有云,技术优化可以降低成本,而且通过降低成本产生的利润完全是自己保留的,商业模式非常类似于 Snowflake。这是个很好的商业模式,同时它的门槛又不高,有非常多的公司进来,包括 Lepton、Anyscale、OctoAI,大家都在做这个领域。慢慢地,用户就会只关注性价比,因为它的替换成本非常低,没有任何数据上的绑定,是纯粹计算密集的一个工作负载,用户如果想切换只需要修改 API。

2023 年底,我们觉得这个生意能做,能产 生revenue,但是做不大。所以我们 pivot 到了新的方向,是基于我们之前的一个 side project,就是 pgvecto.rs。项目开始于 2023 年中旬。pgvector 是 PostgreSQL 里面的一个 vector search 的插件,被应用得非常广泛,性能又非常差。当时我们看到这些问题,就花了很少的精力写了一个更好的版本的插件,然后做了简单的 PR,发现有挺多用户都挺喜欢的。包括很多有名的开源应用,比如 Immich(google photo alternative的开源产品,用户很多,30k+ star),它的智能搜索功能就是用我们的开源产品来做的,应用的效果非常好,也获得了他们的用户的一致好评,这也是我们第一个真正意义上的社区用户。那是 2023 年底的事情,我们发现这个 side project 发展很好,在社区里非常受欢迎,下载量也非常高,有几百 K。同时我们觉得 vector search 是一个非常广阔的场景,在传统数据库里做 vector search 很符合我们的期待,而不是 specialized vector DB。为此我们也写了一篇挺受欢迎的文章专门讲这件事情,主要论点是vector是一种新的data type,而不是新的indexing构建方式,这个新 data type 如果能够在传统的数据库里得到更好的支持,就能很好地补强传统数据库的功能。MongoDB 和很多传统数据库公司(比如EnterpriseDB)都花精力支持 AI,尤其是 vector search 这样的功能。我们也非常buy in这样的方向,我们觉得基于 postgresql 来做 vector search 是一个虽然 niche,但是差异化明显、潜在受众极多的方向,所以我们就进行了 pivot。

ZP:你们在做 envd 这个产品的时候,ChatGPT 还没有出来。当时很多用户(比如数据科学家)并不擅长使用Docker,所以我们的产品非常受欢迎。后来 ChatGPT 普及之后,很多用户变成了那些对Docker很熟悉的用户,他们可能不再需要这个产品了。你前面提到 PyTorch 和 TensorFlow 的关系,PyTorch 似乎是通过易用性这个特点赶超了 TensorFlow。这背后是什么样的规律?

高策:核心原因还是受众的转移。以前 AI 领域好用的工具非常强调易用性,因为很多数据科学家并不是计算机科学背景,可能来自数学、化学、物理等领域。他们对计算机的了解有限,所以当时的AI基础设施非常强调易用性,这也是为什么 PyTorch 和 Weights & Biases 非常受欢迎的重要原因之一。当时我们设计envd的初衷也是基于这一点。我们当时也认为易用性是最重要的,一个工具不一定要支持高吞吐量、大规模,只要在小规模应用中特别好用就可以了,这就是大家最需要的。

但后来,ChatGPT 的出现改变了这种情况。受众的变化导致了需求的变化。训练 LLM的 人和使用 LLM 的人完全是两类不同的人群。训练LLM的工作负载以前占整个 AI 硬件使用的 60%,而推理场景占40%。但现在情况反过来了,60% 甚至70% 的硬件资源用于推理,而训练只占 40%。尽管训练的规模越来越大,只有少数几家公司在做从零开始训练 LLM 的工作。

在这种情况下,为训练场景设计的工具需求越来越少。因为训练场景变得越来越专业,就像上一代 AI 中的推荐系统一样,只有非常有钱的公司才能招聘到最顶尖的团队来进行训练。这些团队的水平太高,以至于他们对工具的需求和付费意愿都和之前大不相同。

目前来看,训练场景的受众已经从以前的数据科学家变为具有计算机科学背景的工程师,他们不再需要以前那种高易用性工具,因为他们有深厚的计算机背景,对易用性的需求反而没有那么强烈了。推理场景的受众变得越来越广泛,这也是为什么我们最初做推理产品的原因,但后来发现推理产品竞争太激烈,所以我们转向了其他领域。

推理场景的受众和以前有很大不同。他们不再需要传统意义上的高易用性工具,而是需要一些新的工具,比如 AI Gateway,它强调的是上线后和开发运维(DevOps)环节的应用,而不是开发过程中的效率提升。易用性的含义已经不同于以前,我认为这是主要的变化。

ZP:在训练场景中工作的工程师,他们本身有 CS 背景,而且他们的硬件资源占比也不小,但看上去他们的需求没有成为产品主要满足的需求,反而是推理场景中的用户需求成为主要的推动力,这是事实吗?为什么?

高策:其实在上一代 AI 中,大部分需求确实来自于训练场景。这涉及实验跟踪(experiment tracking)、实验结果监控等方面,这些都是在训练过程中需要进行的工作。不同的训练之间需要进行多次迭代和比较,因此这类需求非常重要。在上一代 AI 中,训练通常不是必须进行分布式的,很多时候一台物理机进行训练就可以了,对分布式的要求很低。因此,训练和推理的团队可能是同一批人,这些数据科学家可能同时负责训练和推理工作。

在上一代AI中,通常是一个团队负责整个流程。团队中有数据科学家和机器学习工程师,数据科学家负责训练模型,机器学习工程师负责部署模型,但整体是一个团队。最大的问题在于,真正产生商业价值的是数据科学家,也就是负责训练的人。因为只有通过训练才能获得一个好的模型,这些模型才能产生业务价值。因此,训练人员在团队中有最大的发言权,并决定团队需要什么样的工具。

这些训练人员在训练时往往是单机操作、针对具体问题建模,需要深厚的经验和特定领域知识,如神经网络结构设计和数据预处理等。很多时候,他们并不是计算机科学出身,而是专门学机器学习或数学的,他们是真正产生价值的人。

ZP:那现在这些人主要在哪个环节工作?

高策:大多数还是集中在训练环节。在训练过程中,他们需要了解NLP的很多知识,推理优化则是另一部分工作。现在训练和推理的团队分工更加明确,训练团队集中在模型的训练,而推理团队则负责模型的使用和优化。

目前,使用 LLM 的人群与训练模型的人群没有直接联系。以前,使用模型的团队需要了解一些AI知识,比如输入和输出的格式、如何处理数据等,而现在不需要这些背景知识。现阶段,输入和输出都是自然语言,用户不需要了解AI的细节,OpenAI 这样的公司会处理好背后的所有技术细节。

ZP:刚才讨论了很多行业层面的内容,现在我们聊聊产品。请给我们的读者介绍一下目前做的 pgvecto.rs 这个产品,以及它的核心功能和主要用户。

高策:Vector Search(向量搜索)在生成式AI中经常被提到,通俗点说,就是如何找到与一段给定文本最相似的文本。技术原理是,无论怎样的一段文本,都可以通过某种方式转化为向量.比如我们说一句话“how are you”,这三个词可以通过某种方式转化成向量,也就是一个矩阵,可能是一个1024维的向量,这意味着它由 1024 个数字表示。

当我们把一个句子用向量表示后,可以用向量之间的距离来表示句子之间的相似度。比如“how are you”和“I'm fine thank you”之间有很强的相关性,而与“I'm a cat”毫无相关。因此,向量之间的距离可以间接反映句子之间的相关性和相似性。

如果我们有 1000 段文本,你给我一段给定文本,我如何在这 1000 段文本中找到最相似的文本,这就是向量搜索的过程。我们可以用给定文本代表的向量与这 1000 个向量进行比较,找到最近的那个。

向量搜索为什么在生成式 AI 中特别有用呢?因为 ChatGPT 有上下文 token 的限制,可能是一个固定的上下文窗口。当我们给定一个文本时,我们需要尽可能多的上下文来帮助模型理解问题。比如说企业数据库里有关于年假的信息,当我们问企业有多少年假时,首先要从知识库中找到相关的文本,这个过程就是向量搜索的过程。

我们的 pgvecto.rs 产品就是在传统数据库(PostgreSQL)中添加了这种向量搜索能力。传统数据库已经有很好的文本支持,可以把大量知识库存储其中,但没有这个插件的时候,无法进行高效的向量搜索。我们所做的事情就是让这些数据库能够进行向量搜索,以高效方式召回最相近的文本,并将其喂给大语言模型。

相比独立的数据库产品,我们最大的差异在于完全在 PostgreSQL 数据库里完成这项工作。用户只需写他们熟悉的 SQL 语言进行搜索,系统会自动完成所有的计算。他们只需声明某列数据是向量类型,然后可以通过搜索找到最相近的几个结果,直接喂给大语言模型即可。这使得用户能够在数据库里完成所有工作,非常便利。

ZP:你们现在做的产品是 pgvecto.rs。你前面提到了 pgvector 这个产品,pgvector 是个什么样的产品?

高策:pgvector 是一个纯粹的个人项目,已经被很多商业公司采用,用于提供向量搜索功能。它和我们所做的事情非常类似,可以说是直接的竞品。在使用过程中,它有几个显著的问题。首先,pgvector 的向量维度最大只支持 2000 维,而现在很多新的模型生成的向量远远超过 2000 维,可能达到 4096 维以上,这是它最大的局限。其次,它在处理复杂应用场景时能力非常弱。这里的复杂场景指的是传统的关系型数据库中的操作,如 filter、join 和where 等。例如,如果需要将两张表进行join然后再进行向量搜索,pgvector处 理这种关系型操作的能力很差。而独立的vector DB不需要处理这类场景,因为它们没有join的概念,它们不是SQL数据库。因此,在复杂的查询场景下,我们的扩展效果会特别好,这也是大多数用户选择我们的原因。

ZP:为什么 pgvector 没有实现更高维度的向量查询和复杂查询?当查询复杂度达到某个临界点时,专用的 vector DB会 比 pgvecto.rs 处理得更好吗?

高策:pgvector没能很好地支持这些功能,主要原因在于架构的差异。pgvector完全基于Postgres的存储系统,它必须使用固定配置来存储一个向量,这限制了它的维度最多2000维。由于这个限制是由Postgres的存储系统带来的,所以很难突破。但这种架构也有其优点:pgvector更加Postgres原生,能更简单地支持Postgres已有的特性。而我们是采用分离架构,存储系统是独立于Postgres的,这使得我们不受存储系统的维度限制,可以灵活管理向量的存储。这也是为什么我们没有维度上限限制,能够实现更复杂的查询的一个重要原因。

关于第二个问题,我们的复杂场景主要指的是关系型数据库中的表与表之间的复杂查询操作。例如,支付宝的业务可能涉及几十张表,需要很多join和where语句来实现。这种复杂的关系型数据库查询需求是独立的vector DB无法满足的,因为它们通常只做向量搜索,没有大量的表与表之间的操作。

对于那些专注向量搜索的应用,独立的vector DB确实可能是更好的选择。它们有更好的扩展能力,能更好地满足这类需求。因此,这两种场景并不冲突,具体选择取决于业务需求。如果业务需要处理复杂的关系型数据库查询,我们的pgvecto.rs会更适合,而如果业务重心在向量搜索,独立的vector DB可能更有优势。

后来者居上,5个月获300万下载;对关系数据库支持最好的向量搜索产品

640.png

ZP:行业目前的竞争情况是怎样的?pgvecto.rs 的差异化定位是什么?

高策:我们最大的差异化就是基于关系型数据库来支持向量搜索,而不是开发一个新的 specialized vector DB。这是我们最核心的差异点。市面上有很多独立的向量搜索的公司和产品,大部分都是 specialized vector DB。我们的核心差异在于对关系数据库的支持。

就竞争而言,现在的向量搜索市场仍处于扩展阶段,很多新的产品不断涌现,并带有非常独特的差异化。例如,有家公司 turbopuffer 专门做多租户场景,这一单点差异化让它的商业化进程非常顺利。它针对有多租户需求的客户(比如 Notion 这样的应用)提供数据库服务。在这种情况下,每个数据库里的数据可能不多,但有很多数据库。总的来看,vector DB市场百花齐放,各自有各自的定位和长处。

ZP:pgvecto.rs 的“甜点”客户和场景是什么?

高策:我们的“甜点”客户是那些有复杂的关系型数据库查询需求,同时也需要向量搜索的公司。我们的客户来源主要有两个:一是尝试过pgvector后发现不能满足需求的客户,他们通常非常了解关系型数据库;二是那些发现自己有强烈过滤需求的客户。例如,最近一个欧洲客户先尝试了 weaviate,发现无法满足他们的过滤需求后,转而找到了我们。我们的客户主要集中在这两类来源。

ZP:你最关心的北极星指标是什么?目前的表现如何?

高策:我们 5 月底推出了托管服务,目前在测试阶段,主要关注开源社区的adoption。这对我们非常重要,因为能吸引 pgvector 的用户对我们帮助最大。我们目前最关注的北极星指标是我们的 getting started下载量,有多少人下载并试用了我们的产品。今年从年初到现在五个月,大约有 300 万次下载。

pg 整个的下载量大概是亿级别的,我们的指标增速比 pgvector 快,这是个好现象。不过,下载量作为北极星指标也有其局限性。有很多开源用户在使用中可能感知不到他们在用我们的产品,因为他们并不直接使用我们的 SQL,但背后的应用确实用了我们。我们每个月大约有 50 万次下载。2023 年之前,每月下载量只有几十 K。我们开源产品做得够好之后,下一步就是考虑如何将这些开源用户转化为托管服务的客户。目前,我们刚推出托管服务的 beta 版本,有几个用户正在测试。

ZP:未来两年你对公司和产品的预期是什么?最希望达到的目标是什么?

高策:我感觉我只能看到未来一年的情况。在未来的一年里,我们希望能够实现一些实质性的营收目标。比如说,ARR达到几十万到一百万美元,这是我们的目标。为了实现这个目标,我们需要付出很大的努力。因为我们启动得比较晚,我的短期目标是在接下来的一个季度里实现几千美元的营收。希望在下个季度结束时,到明年为止,能够达到几十万到一百万美元的收入。

另外,我希望在市场上有更高的知名度。具体而言,我希望我们的试用量,也就是下载量,不论是增长速度还是总量,能够在同类产品中位居第一。我们希望通过引入更多的新功能,最终取代pgvector,成为市场的领导者。虽然目前我们已经具备了完善的功能和更好的性能,但 pgvector 仍然是市场上的行业标准。很多客户在选择我们之前,都会先尝试 pgvector。我们的目标是成为该领域的标准,这对我们来说是一项更具挑战的任务。

ZP:接下来公司和产品还有什么新的计划吗?

高策:我们有很多探索的计划。目前市场上有非常多的托管服务公司,尤其是在美国,这类公司可能有几十家。如果我们只提供一个简单的托管服务,尽管可能会实现一些商业化,但从长远来看,产品价值仍然相对单薄。因此,我们也在思考如何进一步帮助用户利用现有的数据产生更多的业务价值。

很多用户的数据存储在传统的关系数据库中,他们可能不知道如何将这些数据应用在 AI 业务中。我们接触到的客户大多已经知道如何使用这些数据,但仍有很多客户没有 AI 的相关背景,不知道如何利用这些数据。我们希望通过低代码或无代码的方式,帮助这类客户将他们的数据与 AI 应用结合。这是我们思考的方向之一。短期内,我们仍希望把向量搜索这件事情做好。我们更长远的愿景是帮助用户更好地利用他们现有的数据来创造价值。现有的数据大多存储在数据库中,我们想找到方法来充分利用这些数据。

ZP:目前在这个品类中,下载量第一名的是谁,大约是多少?

高策:应该是 pgvector,总下载量小于一千万次,新增下载量也大约在三四十万次左右。关于这个行业,我目前最大的认知是 AI 基础设施还需要很长的时间来发展。我想很多嘉宾可能都提到过这一点,许多生成式 AI 公司还没有找到 PMF,尽管很多公司在融资方面非常顺利。从商业角度来看,许多公司仍在探索如何更好地进入市场,找到适合自己的商业模式。在这种情况下,很难说AI基础设施能在短期内走向成熟,并稳定扩展。这也是我们目前最明显的观察。无论是我们还是同行,大家都还在探索阶段,还没有实际有意义的营收,很多营收也是不可复制的。在这种前提下,需要等待生成式AI公司的下一代产品找到自己的PMF和商业模式,才会有更多的机会和空间。同时现在也是一个很好的时机,可以提前在这个领域进行探索和研发。虽然市场还需要较长时间来孵化和成熟,但当前也正是一个很好的时机。

ZP:你觉得 AI 基础设施迎来比较好的发展时机,大概会在什么时候?

高策:至少需要三年。一方面,AI 的能力在不断扩展,像 ChatGPT 和 GPT-4 等,随着 AI 水平的不断提高,对基础设施的需求也在变化。如果出现真正的 AGI,相应的需求又会有很大的变化,存在很大的不确定性。另一方面,AI 应用公司还需要时间来探索他们的商业模式,特别是 To C 的公司。尽管很多人认为 To C 的商业模式验证相对容易,但我认为许多应用公司到底如何盈利还是不明朗。一方面,验证 AI To C 公司的商业模式需要时间;另一方面,AI 能力的不断扩展也使基础设施需求不断变化。

ZP:你一直是开源社区的活跃贡献者,现在创业也在开源领域工作。大模型出现以后从事开源和之前相比有什么大的不同吗?

高策:最大的不同是 AI 成为了一个非常火的领域,大模型变得非常热门。另一个变化是开源的方式和模式变得多种多样。先说第一点,以前受欢迎的项目大多数都是前端项目,因为前端生态比较好,适合开源,展示效果好。但在AI这波浪潮中,我们看到一些项目(比如 AutoGPT)从默默无闻迅速火爆起来。虽然这些项目不一定特别复杂,但却非常有价值,充满了许多可以快速实现的 low hanging fruits。这是 AI 火热之后的一个大变化,即越来越多爆红的项目出现,尽管它们可能维护时间不长。

第二点,开源的方式变得多种多样。我们看到有许多模型开源,它们可能开源的是模型的权重和结构,但训练代码和方式未必开源。从严格意义上说,这不算传统的开源,但现在开源的概念在不断扩大。以前大家认为源码开源,基于 Apache 2.0 等开源协议的才是开源,现在越来越多的模型开源也是一种趋势,hugging face 平台就是一个很好的例子。虽然不一定是开源代码,但开源模型变得越来越普遍。

ZP:除了把产品和技术打磨好以外,还有什么是非常重要的?

高策:我们还不能算是一家做得非常好的公司,遇到很多挑战,实践过程中也遇到过一些问题。目前,做 To B 的最大挑战是试错成本太高。你不知道你做的东西是否有市场,跟 To C 不同,To C 可以通过许多实际数据和指标了解应用的现状和前景。但做 To B,特别是基础设施,需要花几个月甚至几年开发一个产品,之后再去市场验证,周期非常长,你很难快速试错。尤其在 AI 基础设施领域,用户需求的变化很大,不确定性高,试错成本也高。

要做好公司,除了技术,还需要快速应对变化的能力。比如,最近苹果发布的 Apple Intelligence 与我正在使用的许多 AI 产品有冲突,能够快速找出市场变化的原因并调整公司策略是非常关键的。传统公司可能觉得我们变化太快,但在 AI 基础设施领域,变化和适应是难以避免的。这是AI基础设施公司需要特别关注的能力。不过现阶段还是非常早期,我们也不知道这些能力是否真的是关键。

创业不会被怀疑放过,但产品被真正使用的成就感是无可比拟的

ZP:回顾你现在创业两三年的时光,最让你兴奋和最痛苦的时刻是什么?

高策:最兴奋的时候是第一次有非常知名且拥有大量用户的应用采用我们的产品的时候。比如 Immich,这个应用在行业内非常受欢迎,我自己在创业之前也研究和试用过他们的产品。当得知他们在应用中使用我们的插件来提供核心的搜索功能时,我感到非常有成就感。特别是他们在没有与我们沟通的情况下,就选择使用我们的产品。这种认可是非常鼓舞人心的。第一次开源产品并获得其他工程师的认可,也让我非常高兴。创业最鼓舞人心的还是成就感,产品真正被使用时,那种价值感是我之前很少体会到的,这段时间里的激动时刻不少。

痛苦的时刻很多,最痛苦的还是转型的时候。尤其是当上一个产品已经有用户和客户,且在发展中时,你客观分析后发现这个方向很难继续,你不得不选择终止这个产品并转向新的方向。这不仅需要缓解团队内的不确定情绪,还要向投资人解释转型的原因。同时,自己也要接受生活中的不确定性。这种巨大的不确定性会让你怀疑新方向的可行性。此外,还有很多事务性的工作,比如每月结算、发工资、处理银行关系和融资等,这些都是创业才会遇到的挑战。如果我只是创业公司的 CTO,可能体验会更好。

ZP:如果选择在大厂里工作,你也可以找到非常好的职位,现在回看创业这个决定后悔吗?

高策:在离开腾讯之前,我确实收到了非常好的 offer。那时我也犹豫过,因为融资的钱可能也就是几年的收入。权衡之后,我决定创业。虽然创业很累,但到现在为止,我并不后悔。预期管理很重要,创业失败的概率很高,你需要做好失败的心理准备和接受职业发展的不确定性。如果能接受这些,那么你会发现创业过程中很多事情并不会那么困难。而且,创业给我带来了许多积极的反馈和成就感,这也是在其他工作中难以体会到的。尽管大公司的高收入能带来物质上的满足,但精神上的满足感更重要。创业让我认清了自己,并带来了更多的精神疗愈,反而让我更快乐。

ZP:过去这段时间是 AI 非常疯狂的一段时间,有没有给你留下特别深刻印象的事或人?

高策:印象最深的是英伟达的股票。我一直相信 AI 的发展,但没有想到会这么夸张。英伟达的股票从三四百涨到一千多,市值甚至超过了苹果,这对我来说是极大的震撼。虽然我一直看好英伟达,但这个增长超出了我的想象,让我对 AI 的未来更加期待。这件事真的是给我印象最深的一件事。

ZP:有没有你觉得比较有意思的 AI 产品分享一下。

高策:我觉得 mem.ai 挺有意思的。我在研究潜在客户时发现了这款产品,它在AI应用方向上做得比较有特色,所以我多关注了一下。我一直在用 mem.ai,特别是在它进行大改版之前。不过改版后,由于用户体验有很大改变,我用得就少了。虽然我们和他们的产品需求不完全相同,但他们的创新还是挺让人印象深刻的。

ZP:能给我们的读者推荐一本你正在看的书或者一篇文章吗?

高策:最近我在看一本日本的推理小说,叫《象之首》,挺有意思的,是我近几年看到最好的推理小说。

ZP:除了工作,你平时有什么日常的兴趣爱好?

高策:我有很多爱好。最近我预购了《黑神话:悟空》,期待打游戏放松一下。另外,我也喜欢看推理小说,这是一个长期的兴趣爱好。这一年我开始健身,每周大概三四次。创业之后发现自己的身体状况不太好,所以开始健身,希望能改善健康状况。事实证明这确实很有效,特别是力量训练对身体很有帮助,保护好身体非常重要。


文章信息来自于Z Potentials ,不代表白鲸出海官方立场,内容仅供网友参考学习。对于因本网站内容所引起的纠纷、损失等,白鲸出海均不承担侵权行为的连带责任。如若转载请联系原出处

友情提醒:白鲸出海目前仅有微信群与QQ群,并无在Telegram等其他社交软件创建群,请白鲸的广大用户、合作伙伴警惕他人冒充我们,向您索要费用、骗取钱财!


分享文章

扫一扫 在手机阅读、分享本文

27784
{{votes}}
分享文章

扫一扫 在手机阅读、分享本文

27784
{{votes}}

要回复文章请先登录注册

与CEO聊合作

(备注姓名、公司及职位)