打造 AI 语音对话智能体：为什么 RTC 对实时语音 AI 至关重要？

实时语音 AI 不仅仅是一个带有麦克风的智能聊天机器人。在幕后，打造流畅、灵敏的语音体验意味着将语音到文本、语言理解和文本到语音结合成一个无缝、低延迟的循环。

而这正是许多开发人员遇到的难题： WebSockets 可能很容易使用，但当每毫秒都很重要时，它们就不够用了。

传统语音 AI 管道

当今大多数语音系统都遵循这种模式：

这听起来很简单——但在实时情况下，每一个环节都会增加延迟。

在低延迟应用中（如AI实时客服、语音助手或游戏角色），延迟超过 1-2 秒就会感觉迟滞。超过 2-3 秒，用户就会越过机器人说话或放弃。

目前，大多数语音 AI 应用都依赖 WebSockets 来传输音频。WebSocket 整体来说还是比较简单易用，支持广泛，运行良好，除非网络出现问题。

在 Sh3b0/realtime-web 最近进行的一项测试中，WebSocket 的延迟在仅 15% 的丢包率下就增加了 50%。这对于移动、卫星或拥堵的网络来说是个大问题。

通过以上分析我们知道传统语音AI延迟较高，所以目前包括 OpenAI 在内的大模型都采用 WebRTC 或第三方RTC（实时通信）服务来降低延迟。做为实时互动全球服务商，凭借在 RTC 领域多年的技术经验，ZEGO 在AI Agent产品里面实现了超低延迟的实时语音通话能力。

经过 RTC 和 AI Agent 全流程优化，我们实现了以下语音AI能力：

1. 自然语音打断AI

2. 支持较长停顿长问句

在整体延迟不变的情况下，支持较长的用户问题，拒绝用户稍稍停顿即被分割为两轮对话。

3. AI状态&实时播报

4. 欢迎语&AI主动互动

此外，ZEGO AI Agent 支持自定义设置人设、音色、形象等，支持多家大语言模型（LLM）、文本转换语音服务（TTS），且并支持长期记忆、外挂知识库、模型精调，从而实现更完美的智能体。关于 ZEGO AI Agent 服务，点击此处注册即可免费体验。

随着语音代理变得越来越像人类，我们的系统需要像人类一样做出反应——快速、流畅、具有语境。ZEGO 通过加入 RTC 能力，让语音 AI 真正实现实时性，而不仅仅是被动响应。

原创文章，作者：ZEGO即构科技，如若转载，请注明出处：https://market-blogs.zego.im/reports-baike/2424/