解决语音 AI 的延迟问题或将带来全新的人机交互方式

尽管大型语言模型占据了头条新闻，但我们却缺少了一块拼图：自然语音交互。

AI 已经被炒得沸沸扬扬，但我们与技术的日常互动仍主要局限于点击、滑动和打字。而且我们还在手机上花费大量时间。

我们缺少的是超低延迟语音 AI，这种技术可以改变我们与设备的交互方式，并有可能减少我们的屏幕使用时间。

到目前为止，对话式 AI 在现实世界中的应用还非常有限。呼叫中心的 AI 听起来仍然像机器人，语音交互感觉死板，在各行各业，它也还远未普及。

这是因为目前的文本转语音系统需要完整的句子来提供上下文并驱动拟声，即语音中的重音和语调模式。这会造成超过 400 毫秒的延迟，大大慢于人类 150 毫秒的反应时间，使交互感觉不自然。这些模型也非常庞大，往往仅运行基本操作就需要大量资源。这导致了市场扭曲，大型参与者使用低效的架构来填补空白，而不是解决核心问题。

但是，最近的创新让我们能够逐字生成语音，就像人类说话一样。我们并不总是知道我们要说的确切词语，但我们知道它的声音和感觉。

这种方法可以近乎实时地生成语音，同时保持自然。通过对语音进行增量处理，我们可以将延迟时间缩短到 25 毫秒，大大快于传统系统（400 毫秒）甚至人类的反应时间（150 毫秒）。最新模型的体积也小得多，这意味着企业只需花费很少的成本就能集成先进的语音技术，而无需大量的基础设施投资。

超低延迟语音 AI 的影响远远超出了传统应用。在数字游戏中，目前的解决方案速度太慢，无法实现角色的实时互动，而低于 150 毫秒的延迟可以实现真正响应迅速的 AI 驱动叙事。对于数字化身和虚拟人来说，语音延迟比语音质量更重要，这一突破实现了以前不可能实现的自然流畅对话。在教育领域，实时 AI 语言辅导可以让语言学习变得更加方便和经济。在客户服务领域，近乎瞬时的响应将使用户与 AI 助手的互动更加自然，从而提高效率和满意度。

通过开发更高效的多语言模型，我们可以在快节奏的对话中实现实时翻译，从而改变商务、旅游和外交领域的全球交流。

更重要的是，这项技术可以改变我们与设备的交互方式。在目前的方法下，简单的 AI 语音交互有时会非常慢，需要三到五秒才能生成一个响应：语音识别需要 0.5 到 1 秒，LLM 响应需要 1 到 2 秒，文本到语音的转换需要 1 到 2 秒。一些对话式 AI 公司还不能使用 GPT，因为等待生成整个句子的延迟太高。通过将总响应时间缩短至 0.6 秒，特别是实现 25 毫秒的文本到语音延迟，我们可以实现真正流畅的 AI 对话。这将使其成为基于屏幕的交互的首选替代方案，有可能减少我们对视觉界面的依赖，并实现更自然、更直观的数字互动。

近期和远期影响

未来三到五年将是语音 AI 应用的变革期。随着延迟障碍的降低和模型尺寸的不断缩小，预计将出现关键的技术里程碑，包括全面的多语言支持、成本的大幅降低以及在边缘设备上的部署。这将为多个领域带来直接的机会，从对话式 AI 和企业销售到数字化身和生成式游戏。

展望未来十年，我们将看到一场更深层次的语音革命，它将从根本上重塑人机交互。我们希望数字交互变得更加自然和直观，减少对屏幕的依赖，实现更加以人为本的计算体验。随着与语言无关的模型变得越来越容易获得和负担得起，我们可以看到语音 AI 在各个市场普及化，使竞争环境更加公平，而不是被大型科技公司所垄断。

当然，在实现这一转变的同时，还需要积极应对隐私保护、深度防伪以及确保不同语言和地区公平访问等方面的挑战。我们的目标不仅仅是让语音 AI 无处不在，而是要确保它公平、安全地为每个人服务。

最后，如果您想实现在应用中用户与AI进行超低延迟的IM互动聊天、RTC实时语音通话等互动能力，从而满足AI陪伴、AI客服、AI 数字人直播等场景。请关注ZEGO AI Agent产品。

原创文章，作者：ZEGO即构科技，如若转载，请注明出处：https://market-blogs.zego.im/reports-info/1956/

解决语音 AI 的延迟问题或将带来全新的人机交互方式

相关推荐

发表回复