白菜价AI语音转录，“美国科大讯飞”3年融资1.5亿美元

kevinzha • 2023-12-29 14:17

以下文章来自创业邦（ID：ichuangyebang），作者：李霜霜

Assembly AI 由 Dylan Fox 在 2017 年底创立，致力于研究、训练和部署领先的语音 AI 模型，供开发人员和产品团队集成到他们的应用程序和服务中。与国内的“讯飞听见”类似，执行语音转录、内容审核、关键提取等任务。

12 月 3 日，Assembly AI 宣布获得 5000 万美元 C 轮融资，用以加速增强语音 AI 功能。此轮投资由 Accel 领投，参投者包含 Nat Friedman、Daniel Gross、Salesforce 前联合首席执行官 Keith Block、Insight Partners和Y Combinator 等知名投资方。

据睿兽分析数据，Assembly AI 共计融资 6 轮，资金总额为 1.581 亿美元，Accel 连投 4 轮，参与此前轮次的知名资方包括 Stripe 创始人 John Collison、Smith Point、TechNexus Venture Collaborative 等。

当前，Assembly AI 称其付费客群相较去年增长了 200%，增至 4000 个品牌，每日处理约 2500 万次 API 调用。

开发模型需要时间、金钱和算力，规模较小的公司难以跟进，便会寻求“人工智能即服务”的供应商的帮助，这些供应商负责处理创建模型的高难度工作，并通过 API 收取访问费用。Assembly AI 就是这样一家公司，专门提供语音转录和文本分析服务，吃到了 AI 布局红利。

IDC 预测显示，全球对“以人工智能为中心”的系统支出将在 2023 年达到 1540 亿美元，同比增长 26.9%，到 2026 年将超过 3000 亿美元。

10 月，《麻省理工科技评论》对 600 家公司的调查发现，将近一半公司表示来年在数据基础设施和人工智能方面的支出增加 25% 以上。

“白菜价”语音转录

Assembly AI 致力于让开发者利用他们的 AI 模型分析语音数据构建 AI 产品，其称当前有超过 20 万名开发人员在使用该平台。高级工程师 Afiz 在推特中表示，“在 Assembly AI 使用 5 行 Python 代码就可以为视频文件生成字幕。”在用户页中，用户可选择不同的编程语言通过官网简单的代码引用写法完成实时/异时语音转录、提炼亮点等功能。

据官网，Assembly AI 的三大核心产品是语音转录、智能音频和 LeMUR。

语音转录是 Assembly 的基础服务，其最新的自动语音识别 AI 模型为 7 月发布的 Conformer-2。据称，该模型使用 110 万小时的英语音频数据进行训练。此处，Assembly AI 采用了一段 Formula One 中解说者在嘈杂环境中对 Verstappen 弯道超车的评价音频，展示了模型相比上一代Conformer-1专有名词的错误率改进提升 6.8%，字母数字识别提升 31.7%，抗噪能力提升 12%。

Assembly AI 的语音转录包含异步转录、同步转录、说话人分类、自定义词汇、时间轴精确至单词、填充不流畅内容、脏话过滤等功能。目前，Assembly AI 支持全球英语（包含带口音的英语）、西班牙、法语、中文等 16 国语言的 ASR（自动语音识别）。

640 (1).png

智能音频服务提供总结语音、检测恶意内容、识别主题、提取见解等服务。

用户在 Assembly AI 语音转录后，可以使用其总结、关键词、自动章节的功能对整体内容做关键提取。这其中用户能选择不同风格和语气的摘要，也能在1分钟内获得识别记录中的关键词和重要概念。其预测的主题标签遵循标准的 IAB 内容分类法，识别语音转录中的不同主题。

它在检测与分析方面结合了用户的数据安全需求。一方面，Assembly AI 提供内容审核检测视频中涉及暴力、恶意言论、社会敏感话题等内容，还能检测每句话的人物情绪。另一方面，Assembly AI 能自动识别语音中的个人与公司名称、住址、日期与位置。用户对此可启用 PII 编辑模型，将个人敏感信息如姓名、电话、邮件地址等用“###”替换，也可以创建经过 PII 编辑的音频，这其中将以蜂鸣声替代敏感信息。

其新框架 LeMUR 在 Conformer-2 的一周后发布。据介绍，用户通过 API 调用，可对 100 多个小时的音频进行会议总结、生成见解、回顾项目等操作。LeMUR 对特定任务的高精度进行优化，从短时长的客户咨询通话音频到长时间的播客，用户可使用 LeMUR 进行提问并得到答案，也可以自行输入提示词生成输出内容。此外，LeMUR 会按照用户给定格式回顾会议上的行动项目并分配给与会者。

目前，Assembly AI 允许免费用户使用和探索，限制在每月 5 次异步转录与 100M 文件上传。超出则需要付费订阅语音转录约 0.65 美元/小时（约 4.6 元/小时），实时转录约 0.74988 美元/小时（约 5.4 元/小时），相较国内同类软件讯飞听见语音转写约 19.8 元/小时，Assembly AI 几乎是“白菜价”。

智能音频服务按照不同模型从 0.05 美元/小时（约 0.36 元/小时）到 0.3 美元/小时（约 2.14 元/小时）不等。LeMUR 按照输入与输出的口令数量计价，默认版输入约 0.017 美元/k tokens（1 毛钱/k tokens），输出为 0.049 美元/k tokens（3 毛钱/k tokens）。

2022 年 9 月，Assembly AI 推出企业版产品，最大用例涵盖电话、视频、虚拟会议和媒体四个方面。其主要客户包括华尔街日报、Spotify、Grain、BBC、NBC环球、Veed.io、Dropbox、Runway 等。

除知名报纸杂志、音频网站对语音转录的刚需，小型公司如流媒体 Loop 的广告内容检测、呼叫跟踪平台 Call Rail 的通话摘要、会议平台 Fireflies.ai 的自动会议记录、业务管理平台 Clari 的运营收入记录等都通过 API 调用 LeMUR。

Assembly AI 联合创始人兼首席执行官 Dylan Fox 在采访中表示：“要做到低成本、高利用是极具挑战的，调用 Assembly AI 的 API 的企业可以专注构建新的人工智能产品、应用和业务，而不需要关注大模型开发和训练。”

640 (2).png

Dylan Fox

从 1 万小时到 1000 万小时

Dylan Fox 毕业于美国乔治华盛顿大学，从小喜欢电脑和电子游戏的他大学时和朋友创业时学习了软件知识，这也让将他引向了机器学习和 NLP。

第一次创业失败后，2015 年，他在思科担任高级软件工程师，专门研究协作产品的机器学习。亚马逊（Amazon）同年推出的语音助手 Alexa 席卷全球，将许多公司对将语音驱动整合到产品中产生浓厚兴趣，思科也不例外，开始寻找做语音识别技术服务的公司。自从能用语音口述命令机器时，Dylan 就沉迷于语音识别这项技术。

Dylan 开始研究 ASR 的 API 实例，过程中，Dylan 发现需要运用语音识别的项目使用的人工智能技术体验糟糕且非常过时，这些供应商的技术要么使用过程复杂，要么没有 API。Dylan 用实例解释：“一家供应商寄给我一张光盘，拿到 API 的访问权限需要和一群销售员交谈。”

实际上此时用于语音识别的机器学习方法已在 ASR 实现了准确性突破，如微软 Cortana2014 年作为语音识别个人助理亮相，识别误差率约为 6%，2016 年 3 月百度开放语音搜索准确识别，谷歌的语音搜索则从 2008 年起也已迭代了多个版本。

640 (3).png

有先进技术却无良好用例，Dylan 注意到语音识别领域存在的大量市场空白。

2016 年，美国云通讯服务商 Twilio 在纽交所上市，据财报，其毛利率自 2015 年开始持续维持在 50%以上，主要服务方式以 API 形式提供，包含语音 API、电子邮件 API，即为开发者提供底层用于云通讯的技术模块。

这不由激发了 Dylan 的思考：“如果能使用最新的 AI 研究来建立一个 Twilio 风格的 API 公司，那会怎么样？”

2017 年，Dylan 一个人带着 Assembly AI 项目参加了夏季 Y Combinator。在那里，他遇到了 Daniel Gross，“他完全理解我的意思，因为他也看到了 ASR 的市场。”当时 Daniel Gross 还在苹果工作，后来成为 Assembly AI 的投资合伙人。此外，在 Twilio 工作 9 年的原内容生成器高级总监 Matthew Makai 也成为 Assembly AI 的 VP。

640 (4).png

Daniel Gross

初创时期，Dylan 最常被问的问题是，“员工成千上万的大公司在和你做一样的项目，而你只有一个人，你会中止吗？”

起初，Assembly AI 第一批模型训练数据约 1 万小时，作为一家 AI 公司迭代速度较慢。Dylan 倾注心力建立口碑，寻找需使用 API 的潜在初创企业，参加黑客马拉松打响知名度。在 Hacker News 上，Dylan 获得了对 Assembly AI 的 API 感兴趣的第一批用户。当前，最新模型 Conformer-2 的训练数据已超过 100 万小时，Dylan 称还将发布 1000 万小时训练数据的模型。

Dylan 坚信 ASR 有巨大的市场潜力，这是他前进的理由。“即使目前 AI 技术实际准确性还存在迷惑性和混乱，人类对它仍有巨大需求。所以，我相信语音识别一定会有市场。”

市场机会是 Dylan 的“东风”。2020 年，受疫情影响，智能语音系统应用需求激增，大数据、多模式识别、云服务等技术触及行业核心需求。来自互联网的大数据、客户分享数据、客户非机密数据等投入 Assembly AI 训练。同年 11 月，Accel、Daniel Gross、John Collison、Nat Friedman 等给 Assembly AI 的天使轮投了 5000 万美元。

有数百家初创公司正在使用 Assembly AI 的 API，迅速扩大用户群，如 Call Rail 使用 AI 让人们询价，了解企业都能变得更高效，为全国数十万小企业提供 AI 对话平台。

有分析指出，Assembly AI 于 2022 年 9 月发布公告向高端市场拓展，而截至目前，官网价目表中 Assembly AI 还未提供本地解决方案用以满足政府或医疗机构等敏感数据处理要求。

文章信息来自于创业邦，不代表白鲸出海官方立场，内容仅供网友参考学习。对于因本网站内容所引起的纠纷、损失等，白鲸出海均不承担侵权行为的连带责任。如若转载请联系原出处

友情提醒：白鲸出海目前仅有微信群与QQ群，并无在Telegram等其他社交软件创建群，请白鲸的广大用户、合作伙伴警惕他人冒充我们，向您索要费用、骗取钱财！