实时语音 AI 不仅仅是一个带有麦克风的智能聊天机器人。在幕后,打造流畅、灵敏的语音体验意味着将语音到文本、语言理解和文本到语音结合成一个无缝、低延迟的循环。
而这正是许多开发人员遇到的难题: WebSockets 可能很容易使用,但当每毫秒都很重要时,它们就不够用了。
传统语音 AI 管道
当今大多数语音系统都遵循这种模式:
- STT(语音转文本):使用科大讯飞、Whisper 或 Google STT 等服务将用户语音转换为文本。
- LLM 或 SLM:使用 OpenAI、MiniMax、通义千问、火山方舟等模型来生成自然语言响应。
- TTS(文本到语音):使用 火山引擎、阿里云(CosyVoice)、MiniMax、Azure TTS 或类似服务商合成回复。
- 播放:将合成的音频传送回给用户。
这听起来很简单——但在实时情况下,每一个环节都会增加延迟。
延迟瓶颈
在低延迟应用中(如AI实时客服、语音助手或游戏角色),延迟超过 1-2 秒就会感觉迟滞。超过 2-3 秒,用户就会越过机器人说话或放弃。
目前,大多数语音 AI 应用都依赖 WebSockets 来传输音频。WebSocket 整体来说还是比较简单易用,支持广泛,运行良好,除非网络出现问题。
在 Sh3b0/realtime-web 最近进行的一项测试中,WebSocket 的延迟在仅 15% 的丢包率下就增加了 50%。这对于移动、卫星或拥堵的网络来说是个大问题。

采用 RTC 降低延迟
通过以上分析我们知道传统语音AI延迟较高,所以目前包括 OpenAI 在内的大模型都采用 WebRTC 或第三方RTC(实时通信)服务来降低延迟。做为实时互动全球服务商,凭借在 RTC 领域多年的技术经验,ZEGO 在AI Agent产品里面实现了超低延迟的实时语音通话能力。
基于RTC的全流程低延迟
- 客户端极致优化。基于自研AVERTP传输协议,最优的流量控制策略。
- 兼顾效果&速度的音频处理。适配系统采集渲染、编解码策略、软件3A等能力。
- 云端传输优化。全球覆盖MSDN网络节点,保证用户、服务端就近接入并最短路径传输。
AI Agent服务优化
- 组件全流式处理。ASR语音识别、TTS双向流式、LLM流式输出等各组件的延迟及效果。
- 人声检测&断句策略。精准快速识别用户说话结束,且平衡延迟和效果的TTS组句策略。
- 极致降低延迟逻辑。采用ASR策略、垫字策略等,提升一定成本的情况下,进一步降低延迟。
经过 RTC 和 AI Agent 全流程优化,我们实现了以下语音AI能力:
ZEGO 实时语音通话互动特色能力
1. 自然语音打断AI
- 低至500ms。从用户开始说话到AI停止说话只需500ms。
- 防止误打断。拒绝各类环境噪音、背景音乐、环境人声等误打断。
- 支持频繁打断。无串音。
2. 支持较长停顿长问句
在整体延迟不变的情况下,支持较长的用户问题,拒绝用户稍稍停顿即被分割为两轮对话。
3. AI状态&实时播报
- 字幕实时播报。可获取对话的文字结果,实现字幕、关键词触发等效果。
- AI状态。呼叫中、倾听中、说话中等状态。
4. 欢迎语&AI主动互动
- 欢迎语。支持每次开始语音对话时,AI说欢迎语
- 特定文本说话。自定义调用TTS文字转语音,实现AI主动互动。
- 基于上下文的AI说话。自定义调用LLM大语言模型,更个性的互动。
此外,ZEGO AI Agent 支持自定义设置人设、音色、形象等,支持多家大语言模型(LLM)、文本转换语音服务(TTS),且并支持长期记忆、外挂知识库、模型精调,从而实现更完美的智能体。关于 ZEGO AI Agent 服务,点击此处注册即可免费体验。
小结
随着语音代理变得越来越像人类,我们的系统需要像人类一样做出反应——快速、流畅、具有语境。ZEGO 通过加入 RTC 能力,让语音 AI 真正实现实时性,而不仅仅是被动响应。
原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-baike/2424/