语音 AI 融资激增 8 倍,AI Voice Agent 市场进入关键时刻

客户沟通、社交应用等领域正在发生一场变革,这场变革的主导者不是键盘或屏幕,而是声音。

据风险投资公司 Andreessen Horowitz(a16z) 称,基于语音的 AI Agent 长期以来只是一种承诺而非产品,其发展程度已超过呼叫中心,并开始在医疗保健和零售等行业取代人工。

a16z 合伙人Olivia Moore 在《AI Voice Agents: 2025 Update》文中写道:”语音是人工智能应用公司最强大的解锁方式之一。它是最频繁、信息最密集的沟通形式,由于人工智能,它首次实现了可编程。”

语音可编程意味着人工智能现在可以更准确、更可靠地解读、响应和处理语音查询。语音天生缺乏结构,而且杂乱无章——人们很容易打断、转移话题或使用俚语。

Moore 表示,语音 AI 可以让企业全天候响应客户需求,而无需等到办公室有人值守。对于消费者而言,我们相信语音将成为人们与AI互动的首要方式,甚至可能是主要方式。”

根据 PYMNTS Intelligence 的报告,30.4%的Z世代消费者每周都会通过语音购物。在“世界如何数字化”报告中,该报告显示,千禧一代位居第二,占27.6%。在所有年龄段中,平均有17.9%的消费者使用语音购物。

据研究公司 CB Insights 称,去年语音 AI 初创公司融资 21 亿美元,较 2023 年增长了 8 倍。这里面包括 2024 年 ElevenLabs 的 1.8 亿美元融资。

该研究公司表示,语音 AI 模型的进步推动了增长,例如 OpenAI 用于语音到语音应用程序的实时 API,这极大地促进了各种用例中的应用程序的发展。

今年3月,旗下拥有肯德基、必胜客和塔可钟的百胜餐饮集团宣布与英伟达合作部署人工智能解决方案。这包括在旗下所有品牌的呼叫中心部署语音 AI,以便在需求激增时处理电话订单。

最近,SoundHound 与 Allina Health 合作部署了“Alli”,这是一款可以接听患者电话的人工智能助手。它可以帮助患者管理预约,并很快将能够补充药物、查找医生和地点,以及回答非临床问题。

语音 AI 的关键时刻

在过去的一年里,语音 AI 的底层基础架构得到了根本性的改善。

一年前,OpenAI 在 GPT-4o 的基础上推出了 “语音模式”,该模式提供实时语音响应、可打断功能以及多种情感语调(而非机器人反应)。

ElevenLabs 随后在 11 月推出了 Conversational AI,并于上个月推出了 2.0 版本。与此同时,Kyutai和 Speechmatics 等公司也已将实时全双工对话功能投入生产。

随着延迟的降低,这些模式也变得更加经济实惠。据 Moore 称,去年 12 月,OpenAI 将 GPT-4o API 成本降低了高达 87.5%。

Moore 指出:“对话质量现在基本上是一个已解决的问题”,由于企业起步规模较小——处理常见问题、预约或进行初步筛选,初创公司正在竞相将语音作为进入更广泛企业平台的“楔子”或切入点。”

语音 AI 融资激增 8 倍,AI Voice Agent 市场进入关键时刻
图片来自a16z

如上图,YC 创始人构建 Voice Agent 主要集中在 B2B(约 69%)和医疗保健(约 18%)用例,其次是消费者(约 13%)。

在B2B领域,最常见的子行业是:金融科技(16.9%)和运营——主要是客户支持(12.4%)。在医疗保健领域,Voice Agent 的目标客户要么是前台(面向患者),要么是后台(面向药房、保险等),主要集中在:普通人类医学(11.2%)、牙科(3.4%)、兽医(2.2%)或物理治疗(1.1%)。

结论

以上,在可预见的未来,下一个进步将是AI Voice Agent。当然尽管语音 AI 应用迅速普及,但仍面临诸多挑战。如果您正在构建语音 AI,欢迎联系我们,ZEGO 的实时互动 AI Agent或许是您的解题思路。

原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-info/2470/

(0)
上一篇 1天前
下一篇 12小时前

相关推荐

发表回复

登录后才能评论