什么是端到端延迟?
端到端延迟(Glass-to-Glass Latency)指的是从摄像机(摄像机镜头的“glass”)采集到观众屏幕(显示设备的“glass”)上显示实时信息所需的时间。在音视频通话或直播工作流程中,降低这种延迟对于提供实时内容至关重要,尤其对于体育赛事或视频会议等场景,任何延迟都可能对体验造成负面影响。
即构科技(ZEGO)对端到端延迟统计的规则是从推流发送到拉流接收之间的延迟+拉流本地播放调度引入的延迟。

端到端延迟对用户体验有直接影响,根据 ITU 标准,用户对延迟的感知如下:
- 200ms:非常优异,如同在一个房间里聊天
- 300ms:大多数很满意
- 400ms:有小部分人可以感觉到延迟,但还基本可以进行互动
- 500ms:延迟明显,影响互动,大部分人不满意
关键一级标准为 400ms,只有低于 400ms 的延迟,才能满足大部分用户的实时互动体验。
端到端延迟涉及的环节
在ZEGO实时音视频SDK中,端到端延迟涉及以下几个主要环节:
1. 设备端延迟
- 采集延迟:设备采集音视频数据所需的时间。
- 前处理延迟:对采集的音视频数据进行预处理所需的时间。
- 编码延迟:对音视频数据进行编码压缩所需的时间。
- 解码延迟:对接收的音视频数据进行解码所需的时间。
- 后处理延迟:对解码后的音视频数据进行后处理所需的时间。
- 播放渲染延迟:将处理后的音视频数据渲染到屏幕所需的时间。
2. 网络传输延迟
- 上行传输延迟:从推流端到服务器的传输时间。
- 服务器处理延迟:服务器对音视频数据的处理时间。
- 下行传输延迟:从服务器到拉流端的传输时间。
3. 业务逻辑延迟
- 登录房间延迟:用户登录房间所需的时间。
- 推流准备延迟:推流前的准备工作所需时间。
- 拉流准备延迟:拉流前的准备工作所需时间。
- 播放调度延迟:拉流端本地播放调度引入的延迟。
ZEGO 如何降低端到端延迟?
ZEGO 通过多方面的技术优化来降低端到端延迟,具体包括:
1. 全球网络优化
- MSDN 海量有序数据网络:ZEGO 建立了 500+全球节点覆盖的网络,通过智能动态路由优化传输路径,提供高连通性、低延时的码流传输服务。
- 去中心化全连通架构:支持灵活分层,按推拉标签分层,低延迟网络与实时网络可无缝切换,保障高并发下的低延迟体验。
- 全球多云通讯链路:当存在服务节点问题时,进行主动智能回源、动态智能配置、全局智能调度,保证通话链路优质连通。
2. 传输协议优化
- 基于 UDP 协议:相比 TCP 协议,UDP 在低延迟场景下避免了数据包延迟确认、弱网场景数据积压、可靠传输导致的无效重传等问题。
- 自研私有协议:针对低延迟场景优化传输控制协议,包括 FEC、ARQ、带宽估计、码率控制等。
3. 弱网抗性优化
- 抖动缓冲:智能抹平网络抖动,减少网络抖动带来的卡顿,找到延迟与流畅的最佳契合点。
- 前向纠错:通过冗余包编码 FEC 算法和自动重传 ARQ 机制来恢复信道丢包,减少弱网环境下语音视频卡顿、花屏和延迟。
- 丢帧补偿:根据 RTT 和 PLC 选择补偿的时机,提升丢帧时的主观体验,保障语音通话低延时且清晰流畅。
- 智能 QoS:上下行 80%丢包保持音频不掉线,上下行最大 10S 抖动时保持播放,丢包+抖动+限速组合网损表现最优。
4. 端到端全链路优化

ZEGO 实现了端到端全链路的系统性优化,包括:
- 采集/前处理优化:实时监控帧率,解决帧率不足问题。
- 编码/推流发送优化:自研私有协议推流,提升传输效率。
- 数据传输优化:海量有序数据网络,优化网络传输
- 解码/拉流接收优化:支持自适应码率,根据网络状况动态调整
- 后处理/播放渲染优化:播放器播放策略优化,降低渲染延迟
通过上述优化,ZEGO 实现了行业领先的低延迟表现:端到端延迟最低可达 70ms,平均约 200ms
支持 80%丢包环境下仍保持流畅通话。
降低端到端延迟对于提供实时内容、吸引观众至关重要。随着对更快、更流畅的视频流的需求不断增长,利用优化的基础设施和现代实时音视频技术,可以帮助您为全球观众提供流畅、高质量的体验。
共建实时互动世界
立即开始使用实时音视频和聊天等 SDK 构建应用程序!
原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-baike/3265/