如何在 RTC 音视频通话应用中实现 AI 降噪

RTC（Real-Time Communication，实时通信）的意义深远且多维度，其核心在于通过低延迟、高可靠性的信息传输技术，重塑人们的沟通方式和业务场景。然而，与任何实时通信技术一样，RTC音视频通话也面临着与音频质量相关的挑战，尤其是在背景噪音方面。这种噪音会严重影响通信的清晰度和有效性，导致用户产生误解和沮丧。

AI 降噪在 RTC 中的重要性

在RTC 中实施 AI 降噪技术至关重要，原因有以下几点：

增强用户体验：通过减少背景噪音，人工智能算法可以显著提高音频的清晰度，从而使对话更加自然、愉快。

提高工作效率：在专业环境中，更清晰的音频意味着更少的误解和更少的重复信息时间，从而最终提高工作效率。

无障碍：对于有听力障碍或身处嘈杂环境中的用户来说，AI 降噪技术可以让他们在能否参与对话之间做出选择。

竞争优势：随着用户对音频质量越来越挑剔，能够提供卓越降噪功能的平台很可能获得竞争优势。

AI 降噪技术原理

RTC 中的 AI 降噪技术利用机器学习算法来区分所需的语音和不需要的背景噪声。这些算法是在大量语音和噪音样本数据集上训练出来的，能够实时识别语音模式并将其从各种背景噪音中分离出来。然后，AI 系统会抑制或消除识别出的噪音，同时保持语音信号的质量和自然度。

用于噪声检测的机器学习算法

AI 降噪采用复杂的机器学习算法来检测和分类各种类型的噪声：

监督学习：在干净语音和噪声的标记数据集上对算法进行训练，学习如何区分两者。
无监督学习：这些方法无需事先训练即可适应新的噪声环境，识别出区分语音和噪声的模式。
深度学习：卷积神经网络 (CNN) 和递归神经网络 (RNN) 可用于分析音频信号的频谱和时间特征，从而高精度地识别噪声成分。

用于语音增强的神经网络

一旦检测到噪声，就可以利用神经网络来增强语音信号：

去噪自编码器：这些神经网络学会从噪声输入中重建干净的语音。
生成对抗网络（GAN）：GAN 可用于生成干净的语音，并通过一个鉴别器网络确保输出与自然语音密切匹配。
时域音频分离网络：这些网络直接处理原始音频波形，在时域中分离语音和噪声。

利用即构 RTC 实现 AI 降噪

即构 AI 降噪对于平稳和非平稳噪声都有很好的降噪效果，保证了语音的质量和可懂度，同时将性能开销控制在一个很低的量级，与传统降噪算法相当，成功覆盖大部分中低端机型。

下面我们来讲讲如何基于即构实时音视频 SDK 在应用中实现 AI 降噪功能：

前提条件

在实现 AI 降噪功能之前，请确保：

已在ZEGO 控制台创建项目，并申请有效的 AppID 和 AppSign，详情请参考控制台 – 项目信息。
已在项目中集成 ZEGO Express SDK，并实现了基本的音视频推拉流功能，详情请参考快速开始 – 集成和快速开始 – 实现流程。

使用步骤

开发者可以按照以下步骤完成 AI 降噪的相关设置：

请联系 ZEGO 技术支持配置开启音乐检测功能。如果已开启，请忽略该步骤。
初始化和登录房间的具体流程，请参考实现视频通话文档中的 “创建引擎” 及 “登录房间”。
调用enableANS接口，开启噪声抑制，该功能开启后可以使人声更加清晰。
开启噪声抑制后，开发者可通过调用setANSMode接口，设置 ANS 模式，开启 AI 降噪功能。以下展示了部分 AI 降噪模式，更多模式请参考ZegoANSMode。

AI 降噪模式	适用场景
ZegoANSMode.AI	轻量模式，极低的功耗与包体增量下依然具备良好的降噪效果，适用于室内噪音等环境以及相对舒适的国内地区。
ZegoANSMode.AI_BALANCED	均衡模式，全面消除噪音同时无损人声，但功耗稍微增加。适用于复杂的通话环境，如户外闹市、交通出行等环境以及噪音干扰严重的地区。
ZegoANSMode.AI_LOW_LATENCY	低延迟模式，10ms 延迟下依然保持纯净的降噪效果以及高保真的人声音质，适用于游戏语音、游戏开黑、实时合唱等对延迟较为敏感的场景。

// 开启 ANS
engine.enableANS(true);
// 根据需求设置 AI 降噪模式，注意：设置 ANS 模式为 ZegoANSMode 后，ZEGO Express SDK 会强制关闭瞬态噪声抑制 [enableTransientANS]
engine.setANSMode(ZegoANSMode.AI);

更多关于即构 AI 降噪的优势和技术原理解读，推荐阅读文章：《AI 降噪：消灭非稳态噪音的利器》

原创文章，作者：ZEGO即构科技，如若转载，请注明出处：https://market-blogs.zego.im/reports-technique/2067/