a16z 最新 Voice AI 报告:语音将成为关键切入点,而非最终产品本身丨 Voice AI 学习笔记

「我们正从 AI 语音的基础设施层过渡到应用层」,继 24 年 5 月推出首篇关于 Voice AI(https://mp.weixin.qq.com/s/dsyow086y7FZdvRzscacsw) 的报告后,25 年初 a16z 再次更新了语音 AI 赛道的最新洞察。

语音是 AI 应用公司的一个关键机遇。作为人类最高频(且信息密度最大)的沟通方式,语音这项基础能力在 AI 时代首次实现「可编程化」。

对于企业而言, AI 提供了一种技术替代方案来取代人工, 具有成本效益、速度更快、可靠性更高,而且通常性能更优。此外,语音代理使企业能够保持全天候的客户服务,无缝处理咨询、安排预约和处理交易。这有效地消除了传统营业时间的限制,确保了持续的在线可用性,与过去的局限性形成鲜明对比(试想一下,在太平洋时间下午 3 点之后尝试联系一家美国东海岸银行)。

对于消费者而言,我们预计 语音将成为与 AI 交互的最初甚至可能是主要的模式。 这种交互可能表现为随时可用的伴侣或导师,或者通过使语言学习等服务更广泛地可用,这些服务以前对许多人来说遥不可及。

我们目前正从 AI 语音的 基础设施层过渡到应用层。 随着 AI 模型的不断进步,语音将成为一个关键的切入点,而不是最终产品本身。 我们特别看好那些利用这种「语音优先」方法来解锁更广阔平台机遇的初创公司。


Olivia Moore

作者介绍:Olivia Moore 是 Andreessen Horowitz 风险投资公司消费领域投资团队的合伙人,专注于 AI 领域的投资。

AI 语音新动态

2024 年是 AI 语音发展的一个重要年份。

2024 年 AI Voice 技术进展

五月

  • OpenAI 推出 GPT-4o,具备实时语音功能

  • Cartesia 发布真人级别语音工具 Sonic

六月

  • Character 推出语音通话功能(在测试版中,三百万用户拨打了 2000 万通电话)

  • 苹果宣布通过 Apple Intelligence 将 ChatGPT 整合到 Siri 中

七月

  • OpenAI 开始推广高级语音模式

  • Speechmatics 推出实时对话模型 Flow

八月

  • 亚马逊将 Claude 整合到 Alexa 中

  • Meta 与名人合作,将他们的声音用于 AI 伴侣

九月

  • NotebookLM 音频概述功能爆火

  • PlayHT 升级 2.0 版模型

  • Hume 升级 EV1 2 版模型

十月

  • OpenAI 面向开发者开放实时语音 API

  • Kyutai 推出全双工口语对话模型 Moshi

十一月

  • ElevenLabs 推出对话式 AI

  • 英伟达推出能够修改语音的模型 Fugatto

  • Gemini 语音版 APP 上线

十二月

  • ChatGPT 高级语音模式推出互联网搜索功能

  • 1-800-CHATGPT 推出引发热潮

模型开发的持续进步简化了基础设施「堆栈」,显著降低了语音智能体的延迟并提升了性能。近半年来,这些改进主要体现在新一代对话模型中。

这些对话模型的成本效益也日益显著。例如,OpenAI 于 2024 年 12 月大幅降低了 GPT-4o 实时 API 的价格,输入价格降低了 60%(至每百万 tokens 40 美元),输出价格降低了 87.5%(至每百万 tokens 2.50 美元)。GPT-4o mini 现在也可实时部署使用。

新变化:2024 年 5 月与 2025 年 1 月对比

AI Agents 现在发展到哪一步了

AI Agents 的当前发展

1. 模型质量

语音智能体在对话质量(包括延迟、可打断性和情感表达)方面取得了显著进展,其性能已达到甚至超越传统业务流程外包/呼叫中心水平。

这一提升主要得益于 OpenAI 的实时语音模型以及 ElevenLabs 的 Conversational AI 等供应商所提供的创新模型。

2. GTM

对于中小型企业和大型企业而言,智能体产品能以极快的速度帮助其拓展业务,因为它们可以直接用技术替代人力资源。

然而,由于市场准入门槛相对较低,传统企业在应用这些产品时可能会面临挑战。上市速度、执行力以及后续的产品迭代是成功的关键。

3. 货币化

早期,许多语音产品采用按分钟定价的模式,以反映模型成本。

但随着模型成本的降低,这种定价模式正面临越来越大的压力,并导致供应商之间的价格竞争。

未来,定价策略可能会转向固定平台费用与使用量计费相结合的模式。

4. 竞争

面向企业的语音代理面临来自以下几个方面的竞争:

  • 以开发者为中心的平台,使企业内部技术团队能够构建自己的解决方案。

  • 通用型平台,使非技术团队能够部署代理。

  • 面向垂直行业的解决方案。

    我们预计未来市场竞争将会更加激烈!

语音智能体市场在 2024 年下半年爆炸性增长。 Cartesia 的数据显示,最近一届 Y Combinator (YC) 创业营中,有 22% 的公司专注于语音技术开发。

YC 中语音公司的增长情况

语音智能体也正作为一种功能被添加到更多的通用型或多模态产品中。

在 2024 年,我们看到多个层次的对话语音技术公司吸引了资金和关注,包括:

  • 模型公司:如 ElevenLabs 和 Cartesia

  • 通用型平台:如 Vapi 和 Bland

  • 垂直化平台:如 HappyRobot 和 Wayfaster

尤其对于大型企业,我们很少看到从完全人工接听电话到完全 AI 接听电话的直接转变。创始人通常会找到一个「切入点」,从处理一小部分客户呼叫开始------(希望)这可以随着时间的推移扩展到处理更多的电话类型和工作流程。我们看到的切入点包括:

B2B Voice Agent 发展切入点

1.非工作时间/过载呼叫

这些电话原本会转到语音信箱。语音智能体至少能收集(或共享)更多信息,并安排人工回拨。

更进一步,如果语音智能体能与日程安排软件、客户关系管理系统等集成,甚至可以直接为客户完成预订或交易。

2.全新的外呼电话

这类外呼电话以往因成本过高而难以实施。借助 AI,任何产生的收益都可视为额外利润。

这些电话包括客户确认、账户激活、潜在客户挖掘等。

需要进行深度集成,例如,客户只需上传包含电话号码的电子表格即可启动外呼流程。

3.「后台」电话

企业在非客户导向的内部电话沟通上耗费大量时间,例如与供应商、合作伙伴之间的联络,常常面临漫长的等待。

以医疗诊所为例,它们需要频繁地与药房、保险公司、供应商等进行电话沟通。

即使语音智能体仅能完成简单的 IVR 导航和转接,也能显著提升效率,降低风险。

市场演变:融资情况

过去一年公开宣布的融资轮次

模型公司

-ElevenLabs (语音模型平台): 8000 万美元 B 轮 (2024 年 1 月) - a16z, Nat Friedman, Daniel Gross

- Hume (语音模型平台): 5000 万美元 B 轮 (2024 年 3 月) - EQT

- PlayAI (语音模型平台): 2100 万美元 种子轮 (2024 年 11 月) - Kindred Ventures

- Cartesia (语音模型平台): 2700 万美元 种子轮 (2024 年 12 月) - Index Ventures

- WaveForms AI (音频 LLM 公司): 4000 万美元 种子轮 (2024 年 12 月) - a16z

通用型平台

- Kore (企业对话式 AI): 1.5 亿美元 C 轮 (2024 年 1 月) - FTV Capital, NVIDIARasa (开发者对话式平台): 3000 万美元 C 轮 (2024 年 2 月) - PayPal, a16zParloa (客户服务语音代理): 6600 万美元 B 轮 (2024 年 4 月) - Altimeter

- PolyAI (助手构建器): 5000 万美元 C 轮 (2024 年 5 月) - Hedosophia, NVIDIA, Zendesk

- Synthflow (无代码语音代理构建器): 740 万美元 种子轮 (2024 年 6 月) - Singular

- Thoughtly (呼叫中心语音代理): 300 万美元 种子轮 (2024 年 6 月) - Greycroft, Afore

- Bland (企业代理平台): 2200 万美元 A 轮 (2024 年 8 月) - Scale

- Retell AI (开发平台): 460 万美元 种子轮 (2024 年 8 月) - Alt Capital

- 11x (销售): 2400 万美元 A 轮 (2024 年 9 月) - Benchmark; 5000 万美元 B 轮 (2024 年 10 月) - a16z

- Decagon (客户支持): 3500 万美元 A 轮 (2024 年 6 月) - Accel, a16z; 6500 万美元 B 轮 (2024 年 10 月) - Bain Capital Ventures

- Sierra (客户支持): 1.75 亿美元 B 轮 (2024 年 10 月) - Greenoaks

- Artisan (销售): 1150 万美元 种子轮 (2024 年 10 月) - Oliver Jung

- Vapi (开发者平台): 2000 万美元 A 轮 (2024 年 12 月) - Bessemer

垂直化平台

- Hippocratic AI (医疗保健语音代理): 5300 万美元 A 轮 (2024 年 3 月) - a16z, General Catalyst; 1.41 亿美元 B 轮 (2025 年 1 月) - Kleiner Perkins

- Assort Health (医疗保健前台代理): 350 万美元 种子轮 (2024 年 3 月) - Quiet Capital

- Voicepanel (客户反馈代理): 240 万美元 种子轮 (2024 年 5 月) - YC, Rebel Fund, Liquid2

- Letter (AI 销售指导): 270 万美元 种子轮 (2024 年 6 月) - YC, Formus Capital

- Solidroad (联络中心培训): 120 万美元 种子轮 (2024 年 7 月) - Irish angels

- Apriora (AI 面试官): 280 万美元 种子轮 (2024 年 8 月) - 1984

- Wayfaster (语音 AI 面试官): 250 万美元 种子轮 (2024 年 9 月) - Slow Ventures

- Prepared911 (紧急响应): 2700 万美元 B 轮 (2024 年 10 月) - a16z

- FullyRamped (AI 销售培训): 230 万美元 种子轮 (2024 年 10 月) - BoxGroup

- Parakeet Health (医疗保健前台代理): 300 万美元 种子轮 (2024 年 10 月) - Canvas

- HelloPatient (医疗保健语音代理): 630 万美元 种子轮 (2024 年 10 月) - 8VC, Bling Capital, Max Ventures

- Numa (汽车经销商语音代理): 3200 万美元 B 轮 (2024 年 10 月) - Touring Capital, Mitsui

- HappyRobot (物流语音代理): 1560 万美元 A 轮 (2024 年 12 月) - a16z

- Tenor (AI 领导力发展): 540 万美元 种子轮 (2024 年 12 月) - Base10

- Hyro (医疗保健语音代理): 3500 万美元 B 轮 (2024 年 12 月) - Healthier Capital

- Maki (语音 AI 面试官 / HR): 2860 万美元 A 轮 (2025 年 1 月) - Blossom

重点领域:核心市场

语音助手最自然的早期应用类别通常是在呼叫中心或外包服务(BPO)上已有较高支出的领域。如果电话作为本地员工的日常工作:(1)除非有大量员工专门负责电话沟通,否则现有痛点或潜在收益通常不足以推动变革;(2)也很难量化实施效果或成本节约,从而难以提出有力的论证。

全球「联络中心即服务」市场份额:按终端应用行业分析

这些主要领域(金融服务、B2C、B2B、政府和医疗保健)可能会有各自的核心供应商,类似于它们各自的记录系统。

我们预计以下领域将涌现大量的初创企业:

(1)金融服务:如债务催收;

(2)保险:包括面向客户和后台运营;

(3)政府部门;

(4)支持服务:包括需要专业知识的复杂客户服务(如 IT 帮助)。

除了呼叫中心应用,我们还观察到企业愿意为用于辅导或培训的 AI 语音助手付费,尤其是在高薪职位领域。在这些行业中,高度仿真的语音助手可以作为模拟器,显著提升员工的实际工作表现,从而替代部分人力成本(如销售教练)或效果不佳的培训软件。

自 2020 年以来,Y Combinator 已经孵化了 90 家语音智能体公司,且这一趋势正在加速,最新的尚未完全公布的 W25 批次中就有 10 家。值得注意的是,在 2023 年之前成立的公司中,大部分都是在过去一年内转型进入语音智能体领域的。

YC 孵化的 Voice Agent 公司

YC 孵化的语音助手项目主要集中在 B2B (约 69%) 和医疗保健 (约 18%) 领域,消费类应用占比相对较小 (约 13%)。

在 B2B 领域,金融科技 (16.9%) 和运营 (主要为客户支持,12.4%) 是最常见的子行业。在医疗保健领域,语音助手的应用方向分为前台(面向患者)和后台(面向药房、保险等),重点关注普通人类医学 (11.2%)、牙科 (3.4%)、兽医 (2.2%) 和物理治疗 (1.1%)。

a16z 对语音智能体的投资

Voice Agents 市场图谱

Voice Agents 市场图谱 - B2B

Voice Agents 市场图谱 - B2C

我们在 AI 语音中寻找什么?

a16z 重视的 Voice Agent 项目特色

1. 应用场景:电话是关键媒介

  • 行业首选: 电话是客户演示的首选方式(例如物流行业)。

  • 法规驱动: 由于法规限制,电话沟通更有效(例如债务催收)。

  • 效果更佳: 电话比其他沟通方式成功率更高(例如医疗保健)。

2. 通话特性:受限且可控

  • 通话约束: 通话时长和形式/结果都受到限制。

  • 目标明确: 有一套明确的数据点需要收集或信息需要传递,且结果可衡量。

  • 这对于企业接受 AI 语音助手至关重要。

3. 价值体现:显著降低成本

  • 成本降低: 语音助手在保持与人工相似成功率的前提下,能够降低 50% 以上的成本(通常意味着通话受到约束!) .

  • 客户目标: 客户希望大幅削减或重新分配人力资源。由于内部对 AI 的怀疑态度,投资回报率需要非常可观。

4. 客户需求:高优先级或高价值通话

  • 极端情况: 对于客户而言,通话至关重要,愿意支付高额费用以确保接通或完成,但对于呼叫方而言,允许一定程度的错误或失败。

  • 初期策略: 许多客户从非工作时间/过载呼叫或「次级」呼叫开始,对性能要求较低。

5. 价值创造:直接收益或成本优化

对于客户而言,通话要么是:

  • 直接创收: 能够带来更多业务、收取更多费用(例如招聘行业)。

  • 成本关键: 在利润微薄的行业中,通话是至关重要且占比很高的成本(例如汽车餐厅)。

6. 销售策略:灵活适应不同规模客户

  • 中小企业/中型市场: 语音助手产品易于集成到 VoIP 或其他软件中,并且设置是自助式的。

  • 大型企业: 早期更复杂的集成实际上可以形成护城河,因为呼叫并非如此。或者,早期集成复杂度较低,并具有自然的「先着陆后扩张」潜力。

案例分析:AI 语音面试官

将 AI 语音智能体应用于工作面试,看似是一个冷门方向。这主要是因为面试过程复杂(需要与人类面试官相媲美),且对用户体验要求很高(需要确保良好的候选人体验)。 然而,我们已经看到一些初创公司在该领域取得了显著的早期进展。 以下是来自客户的一些洞见:

痛点:大规模招聘场景下的人力资源挑战

对于人力资源公司(尤其是那些服务于高流量、低至中等技能岗位的公司,例如拥有 43 家上市公司客户,年收入达 6500 亿美元的企业),招聘压力尤为显著。在这些场景下,AI 面试可以有效地替代传统的电话筛选,甚至承担更多的流程。 原因如下:

  • 候选人接受度高: 候选人通常更愿意尝试新的求职方式,包括与 AI 进行面试。与传统流程相比,AI 面试可能更具吸引力。

  • 按结果付费模式: 人力资源公司的商业模式通常与推荐的候选人数量或最终成功入职的人数挂钩。 因此,他们有强烈的意愿提升候选人质量和数量。

「我们现在发送的候选人中大约有 90%能进入第一轮[与雇主]面试,75-80%能进入最后一轮。在[AI 语音面试初创公司]之前,我们的数字只有一半。」 ------ 财富 100 强的人力资源公司

许多 AI 面试产品的表现已经达到甚至超过了人类招聘人员的水平,主要得益于以下几个方面:

  • 随时随地: 候选人可以根据自己的时间安排,随时随地进行面试。

  • 评估一致性: AI 的评估标准始终如一。 即使招聘需求发生变化,客户也可以轻松地重新评估之前的面试记录。

  • 语言无障碍: 不存在因语言或口音造成的沟通障碍。

  • 专业知识: AI 通常能够更准确地评估技术或职位相关的答案,避免了因招聘人员经验不足而导致的误判。

「受访者往往以一种他们可能不会对人类面试官表现出的方式开始与 AI 建立信任。招聘人员可能没有经验去理解受访者所说的话。AI 可以从系统中读取信息,并给出更聪明、更吸引人的回应。」------ 年收入 2 亿美元的招聘机构

AI 语音面试官产品

2025 年关于 AI 语音的一些核心问题

定价-什么将是首选的定价模型?

起初,按分钟计费的定价模式曾被多家公司广泛采用。然而,随着模型成本的持续降低,这种模式的吸引力正逐渐减弱。由于客户敏锐地察觉到成本的降低,他们也期望享受到更优惠的定价。展望未来,什么样的定价模式将会更受青睐?预计可能会采用平台费用与基于使用量的组合模式。在哪些特定情况下,可以合理地收取实施费用或设定最低使用量门槛?

模式扩展 - 公司应该在语音通话之外,多久扩展到其他渠道?

没有任何企业或行业完全依赖电话------电子邮件、网络聊天、短信等都是重要的沟通渠道。公司应该多快扩展到电话以外的其他方式?是先完整捕捉一个工作流程更好,还是先处理所有电话?

最终愿景 - 是否有可能替代 xMS?

许多语音助手宣传其最终愿景是取代其类别中的 xMS(编者注:即各类型「记录系统软件」,用于存储和管理企业核心数据,例如客户关系管理 (CRM) 系统等)。在什么类别中这实际上是可能的/可能发生的?如果许多企业已经为处理电话支付的费用超过了他们为 xMS 支付的费用,这是否重要?

行业与技术团队------谁更具优势?

许多早期的语音助手来自于高度技术化的团队,他们在被吸引到某个领域/市场后,付出了努力去学习。随着技术壁垒的降低,这是否会变成一个市场推广的游戏,技术能力较弱但行业专业知识更丰富的团队会占据优势?这在不同领域会有什么不同的表现?

通用与垂类:各自的优势与适用性是什么?

一些企业可能更喜欢使用通用平台构建自己的 AI 语音智能体,而不是使用垂直的、特定于市场的解决方案。 在哪些行业和规模中,这种「自建」方法最有可能? 垂直解决方案如何服务于可能更喜欢单一供应商的跨垂直企业?

情感纽带:语音助手能否加深客户关系?

AI 语音智能体在情感维度上展现出超越人类的潜力。它们拥有更强的专注力、同理心和耐心,且理论上可以提供无限时长的服务。在某些特定领域,这种优势尤其能够帮助企业与客户建立更深层次的情感连接。然而,目前该领域的潜力尚未得到充分挖掘。我们期待更多创业者能够在关键垂直领域围绕这一主题进行创新,构建更具情感价值的客户关系。

原文:https://a16z.com/ai-voice-agents-2025-update/

编译:施苏娜、傅丰元

更多 Voice Agent 学习笔记:

对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗......丨 RTE Meetup 回顾

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索......

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

相关推荐
救救孩子把35 分钟前
Mac上本地部署DeepSeek并使用Ollama提供API与Chatbox交互
人工智能·macos·deepseek
gloomyfish1 小时前
OpenCV4.8 开发实战系列专栏之 30 - OpenCV中的自定义滤波器
图像处理·人工智能·深度学习·opencv·计算机视觉
又在吃鱼1 小时前
DeepseekR1 满血版腾讯云限免
人工智能·算法
帅次2 小时前
高端入门:Ollama 本地高效部署DeepSeek模型深度搜索解决方案
人工智能·深度学习·生成对抗网络·语言模型·文心一言·ollama·deepseek
倔强的石头1062 小时前
蓝耘智算平台搭载DeepSeek R1模型:高效环境配置全攻略
人工智能·aigc·deepseek
从前,有个傻子........2 小时前
openCV函数使用(一)
人工智能·opencv·计算机视觉
枫叶20002 小时前
Windows Docker笔记-制作、加载镜像
windows·笔记·docker
马拉AI2 小时前
CVPR | CNN融合注意力机制,芜湖起飞!
人工智能·神经网络·cnn
伊一大数据&人工智能学习日志2 小时前
深度学习01 神经网络
人工智能·深度学习·神经网络·学习·机器学习