
语音 AI 长期以来一直处于创新的边缘,有望实现人机之间的无摩擦交互。如今,它正走向舞台中央。根据 Opus Research 的数据,2024 年,全球语音 AI 市场规模将增至 54 亿美元,比上一年大幅增长 25%。这一激增现象并发偶然。其背后是技术成熟、企业需求和消费者期望不断变化的强大合力。
语音是人类交流中最频繁、信息量最大的形式,而 AI 首次使语音成为可编程的,为各行各业打开了一个强大的新界面层。风险资本家已经注意到了这一点。在 B2B 和 B2C 领域,专注于语音技术的初创企业正在吸引前所未有的投资。
语音 AI 正在迎来发展机遇
多种力量正在汇聚,为语音 AI 创造完美的环境。
首先,这是一个技术层面的故事。端到端深度学习、上下文语言模型和语音转语音系统的进步正在解决诸如延迟、情感细微差别和对话轮换等长期存在的问题。曾经需要12个月或更长时间才能实现的解决方案,现在只需3到6个月即可完成部署。2024年末,新的对话模型显著降低了延迟并提升了性能,这得益于 OpenAI 大幅降低成本,例如GPT-4o API的价格降低了高达87.5%。
其次,业务需求正在增长。经济压力迫使企业寻求运营效率,尤其是在客户服务方面。传统的交互式语音应答应用程序因让用户感到沮丧而臭名昭著,如今终于被动态的对话式 AI 系统所取代。客户不再容忍刻板僵硬的脚本式交互;他们期待流畅、人性化的对话,企业也愿意尝试新的人工智能技术。
最后,消费者自身也在发生变化。在这个追求即时性和个性化的世界里,语音驱动界面提供了一种独特的、快速、直观的替代打字或点击的方式,这在医疗保健、零售和餐饮服务等领域非常有用。
B2B 机遇:企业语音 AI 用例
企业部门为语音 AI 的采用提供了许多大规模的用例,因此也为风险投资提供了大量用例。
客户服务是一个清晰的起点。企业正在部署语音 AI 代理来处理重复、机械的客户咨询,从而解放人工代理,使其能够专注于更高价值的互动,例如追加销售或解决复杂问题。能够快速部署这些代理的品牌正在获得先发优势,与早期推出聊天机器人相比,部署时间大幅缩短。大型企业正在逐步采用,通常从有限的呼叫类型开始,然后再将 AI 的应用扩展到整个工作流程。
医疗保健领域也蕴藏着巨大的机遇。安排预约、医疗转录和管理患者沟通等任务传统上因人员短缺而受阻。语音AI有望实现这些工作流程的大部分自动化,在全球医疗保健系统面临巨大压力的当下,提升效率。
商务会议也是一个被忽视的机会。据估计,每天有 3 亿场商务会议。通过语音技术自动执行诸如转录、摘要甚至行动项目跟踪等任务,可以提高生产力,并为组织每年节省数十亿美元。
B2C 机遇:面向消费者的语音 AI
在消费者方面,发展势头令人瞩目。餐饮服务、零售和酒店等行业正在将语音AI应用于点餐、常见问题解答、会员计划等诸多领域。快餐连锁店正在试用 AI 驱动的免下车服务,这些服务能够在高峰时段不减速的情况下处理交通拥堵;而零售商则使用语音助手来支持购物、退货和产品推荐。至关重要的是,现代系统正在摆脱过去机械的、机器人般的声音。新的 AI 模型能够实现类似人类的音调调节和实时响应,从而创造出无缝衔接而非照本宣科的体验。
语音 AI 还使人们能够更加自由地获取之前被视为高端的服务,例如个性化语言学习或辅导。
风险投资家们很兴奋
几年前,语音技术投资曾因成本高、质量一般、客户满意度低而受到质疑。如今,这些障碍正在消失。
首先,经济效益正在改善。得益于训练和基础设施的进步,语音处理成本已大幅下降,从每小时约 2 至 5 美元降至几美分。这使得语音 AI 能够扩展到各种商业模式,而不仅仅是高端或小众应用。
其次,技术突破释放了新的功能。现代语音系统能够应用完整的对话语境,检测情绪基调,并近乎实时地做出响应。至关重要的是,延迟——令人满意的语音交互的隐患已经大幅降低。比如 ZEGO 的实时互动 AI Agent产品,实时互动 AI 通话延迟低至 1s,实现极速响应。
第三,新的语音翻译技术有望推动语音AI应用的全球化。企业或许能够提供无缝的多语言客户支持,而无需完全依赖人工翻译,从而带来新的机遇。对于风险投资家而言,技术成熟度、企业紧迫感和消费者接受度的结合意味着:可扩展的机会。
仍然存在的障碍和挑战
尽管取得了令人瞩目的进步,语音人工智能也并非没有挑战。
性能差距依然存在,尤其是在理解幽默、自然处理字母数字或表达微妙情绪方面。安全是另一个令人担忧的问题。这些领域的小故障可能会迅速摧毁客户的信任。集成障碍也依然存在。虽然一些解决方案提供了简单的即插即用功能,但复杂的企业部署通常需要与专家合作或进行大量的内部技术投资。
此外,客户期望的增长速度可能快于技术完全成熟的速度。品牌必须在部署新的语音代理和保持高质量体验之间取得平衡,这是一个棘手的问题,如果执行不力,可能会让先行者吃亏。
展望未来
对于技术专家和投资者来说,最令人兴奋的前景或许是真正像人类一样的语音助手。专家预测,到2025年或2026年,语音对语音系统将通过所谓的“语音图灵测试”,使人工智能对话达到人与人之间互动的水平。这些系统不仅能处理文字,还能理解语境、意图、情感和细微差别,并实时做出动态且富有同理心的响应。
语音到语音的翻译将带来新的维度。在医疗保健或全球客户服务等关键领域,将翻译延迟降低到接近零可以显著提升客户体验。
因此,如今风险投资的赌注不仅仅是语音系统;他们押注的是未来,人类的交流将通过智能、富有同理心且无处不在的 Voice Agent 无缝增强。而这一次,不仅仅是说话。
原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-info/2577/