Opus DTX 是什么？Opus DTX 工作原理及优缺点

音频优化对实时通信应用至关重要，因为实时通信应用中的每一点带宽都很重要，其效率直接影响用户体验。WebRTC 应用中一项强大的优化技术是不连续传输 (DTX)，它是 Opus 音频编解码器的扩展，可通过自适应语音模式来智能管理带宽。

本文将探讨 Opus DTX 的工作原理、实现细节，以及它如何显著提升实时音频通信的性能。以及在 WebRTC 应用中实现这项技术的底层机制、优势、潜在缺点以及实际应用注意事项。

了解 Opus 音频编解码器

在深入研究 DTX 之前，我们先来了解一下Opus 音频编解码器本身。Opus 凭借其卓越的多功能性和性能特性，已成为 WebRTC 和许多其他实时通信协议的标准音频编解码器。

Opus 的主要特点

卓越的音频质量：Opus 在比特率范围（6 kbps 至 510 kbps）内提供高质量音频，使其适用于从低带宽语音通话到高保真音乐流的一切。
极低延迟：Opus 支持 2.5 毫秒至 60 毫秒的帧大小，可针对各种低延迟应用进行优化。这种灵活性使开发人员能够根据其具体用例在延迟和压缩效率之间取得平衡。
开源可用性：Opus 对于商业和非商业应用程序都是完全免费的，消除了在生产环境中使编解码器选择复杂化的许可问题。
比特率灵活性：编解码器支持恒定和可变比特率模式：
- 可变比特率 (VBR)：适应不断变化的网络条件和内容复杂性
- 受限 VBR：限制最大比特率，同时仍允许自适应
- 恒定比特率 (CBR)：保持一致的带宽使用率，实现可预测的网络规划
通道支持：Opus 理论上可以处理最多 255 个音频通道，但在 WebRTC 实现中，默认为 2 个通道（立体声）。

Opus 双编解码器架构

Opus 多功能性的关键因素是其混合架构，结合了两种不同的编码方法：

SILK：这款线性预测编解码器最初由 Skype 开发，擅长压缩语音。它在较低比特率（通常为 6-40 kbps）下也能高效运行，并且针对语音进行了优化。
CELT（Constrained Energy Lapped Transform）：由 Xiph.Org 开发，此变换编解码器能够更有效地处理音乐和一般音频。它在中高比特率下效果最佳，并能保持更好的音频保真度。

Opus 根据音频内容和配置参数智能地在这些底层编解码器之间切换或组合它们，从而在各种场景中提供最佳性能。

什么是不连续传输（DTX）？

Discontinuous Transmission (DTX，不连续传输) 是一种带宽优化技术，可在音频通信的静音或低活动时段减少数据传输。DTX 并非不顾内容而持续传输完整的音频帧，而是识别静音时段并显著降低这些时段的比特率。

在日常对话中，参与者通常轮流发言，在发言之间或聆听时会有相当长的一段沉默期。传统的音频传输方法即使在这些沉默期也会发送恒定比特率的数据，浪费宝贵的带宽。DTX 通过根据语音活动动态调整传输模式来解决这一低效率问题。

DTX 解决的问题

考虑以下有关典型对话模式的统计数据：

在两人对话中，每个参与者只有大约 40-50% 的时间在积极发言
在多人会议中，单个参与者的发言时间可能只占总时间的 5-15%
即使在主动讲话时，自然停顿和呼吸也占讲话时间的 15-20%

如果没有 DTX，全比特率音频帧会在这些静默期间连续传输，从而消耗不必要的带宽，而这些带宽本可以用于其他目的，例如提高视频质量或容纳更多参与者。

Opus DTX 的工作原理：技术实现

Opus DTX 的工作过程包括检测静音、产生适当的舒适噪音以及管理活动语音和静音之间的过渡。让我们来探讨一下它是如何工作的。

1. 静音检测和 DTX 模式

WebRTC 中 Opus DTX 的一个重要实施细节是它仅在特定编解码器模式下运行：

WebRTC 仅在语音（SILK/Hybrid）模式下启用 DTX；纯 CELT 流通常保持活动状态。

当在 WebRTC 中指定 usedtx=1 时，编码器会通过在编码器配置中设置 OPUS_SIGNAL_VOICE 来强制使用 SILK 或 Hybrid 模式，以获得适当的 DTX 支持。

虽然 libopus 自 v1.3 版本起就具有实验性的 CELT-DTX 支持（根据 Opus Codec 发行说明），但浏览器目前尚未公开此功能。

Opus 中的静音检测使用语音活动检测(VAD)算法，该算法主要分析频带能量和频谱平坦度特征。该 VAD 在编解码器的 SILK 路径中运行，并决定何时切换到 DTX 模式。

2. 舒适噪音的生成

当检测到静音时，Opus 不会简单地停止传输数据，那样会给听众造成不自然的 “死寂 “感。相反，它会转而发送周期性的 “舒适噪声 “帧，在保持连接感的同时，大大减少了带宽的使用。

舒适噪声实施的主要特点：

间歇传输：舒适噪声帧（静默插入描述符或 SID 帧）在长时间静默期间大约每 400 毫秒传输一次。

比特率降低：这些 SID 数据包在添加 RTP/UDP 报头之前通常只有 2-3 个字节，与常规音频帧相比，可节省约 85-90% 的带宽。在典型的 20ms 帧大小下，报头开销成为数据包大小的主要因素。

注意：现代 Opus（自 libopus 1.4 起）已显著改善舒适噪声生成，消除了舒适噪声转换的许多早期问题。

3. 管理语音-静音过渡

Opus 的混合特性允许处理主动语音和静音之间的关键过渡。

从语音到静音:

编码器在几个帧内逐渐降低比特率
分析频谱特性，以保持一致的背景氛围
应用平滑的淡出效果，以避免突然中断

从静音到语音：

编解码器必须快速检测到语音开始，并过渡回完全编码
在舒适噪音和新的语音内容之间应用短暂的淡入淡出
编码器快速提升到适合检测到的语音的比特率

每个组件根据检测到的语音特征和使用的编码模式，以不同的方式处理过渡。

使用 DTX 的优势

在 WebRTC 应用程序中实现 DTX 有几个显著的好处：

1. 带宽和网络效率

DTX 的主要优势是大幅节省带宽并提高网络性能：

减少数据消耗：在 1:1 轮流对话中通常可节省 50% 的音频带宽，在大多数参与者大部分时间都保持沉默的群组通话中可节省高达 65-80% 的音频带宽。
更高效的资源分配：释放的带宽可以重新分配以提高视频质量或稳定性。
提高拥塞网络上的性能：更少的数据包意味着更少的网络争用。
减少数据包丢失的影响：传输的数据包越少，数据包丢失的机会就越少。
更低抖动：由于网络拥塞减少，数据包定时更加一致。
间接延迟优势：通过减少整体拥塞，DTX 可以间接地降低端到端延迟（通常改善幅度小于 5 毫秒）。
可扩展性改进：使系统能够使用相同的网络资源处理更多并发用户。

这使得 DTX 对于视频会议和语音聊天室等多个参与者共享有限带宽的应用特别有价值。

潜在的缺点和缓解措施

虽然 DTX 具有显著的优势，但必须考虑其局限性和潜在挑战：

1. 处理开销

DTX 需要额外的计算工作：

增加编码器的复杂性：静音检测和舒适噪声生成增加了处理步骤
资源考虑：可能会影响低功耗设备的性能
缓解措施：大多数现代设备都具有足够的处理能力，可以以最小的影响处理 DTX

2. 集成兼容性

并非所有系统都支持或正确实现 DTX：

旧系统兼容性：较旧的 VoIP 或会议系统可能无法识别 DTX。
浏览器差异：不同浏览器和平台的实现质量存在差异。
缓解措施：始终包含回退机制并在各种环境中进行测试。

DTX 实施的最佳实践

在 WebRTC 应用程序中实现 DTX 时，请考虑以下最佳实践：

1. 跨环境进行全面测试

验证不同浏览器和平台上的 DTX 行为
使用各种网络条件进行测试（稳定、拥塞、高延迟）
评估不同数量参与者的表现

2. 与互补技术相结合

DTX 与其他音频优化技术结合使用时效果最佳：

前向纠错 (FEC)：帮助恢复语音传输过程中的数据包丢失
冗余音频数据 (RED)：为关键音频帧提供额外的弹性
自适应抖动缓冲：与 DTX 配合使用以优化延迟和质量

3. 提供配置选项

考虑让用户控制 DTX 行为：

允许在绝对音频保真度至关重要的场景中打开/关闭 DTX
针对不同的用例提供不同的 DTX 攻击性设置
包括监控工具，帮助用户了解 DTX 的影响

结论

Opus 不连续传输 (DTX) 是一种强大的优化技术，适用于 WebRTC 和其他实时音频通信系统。DTX 通过在静音期间智能地降低带宽消耗，同时保持自然的音质，帮助应用程序在带宽受限的环境中提供更佳性能。

Opus DTX 的先进静音检测、舒适噪音生成和过度管理功能使其成为寻求最大限度提高音频通信应用程序效率和质量的开发人员的重要工具。

如果您需要实现更好的实时语音效果，可以了解 ZEGO 的Purio AI 音频引擎，突破想象的新一代实时 AI 音频引擎，助力为您的应用带来更纯净、更保真、更舒适的听觉体验。

原创文章，作者：ZEGO即构科技，如若转载，请注明出处：https://market-blogs.zego.im/reports-baike/2457/