RTC(Real-Time Communication,实时通信)的意义深远且多维度,其核心在于通过低延迟、高可靠性的信息传输技术,重塑人们的沟通方式和业务场景。然而,与任何实时通信技术一样,RTC音视频通话也面临着与音频质量相关的挑战,尤其是在背景噪音方面。这种噪音会严重影响通信的清晰度和有效性,导致用户产生误解和沮丧。

AI 降噪在 RTC 中的重要性
在RTC 中实施 AI 降噪技术至关重要,原因有以下几点:
- 增强用户体验:通过减少背景噪音,人工智能算法可以显著提高音频的清晰度,从而使对话更加自然、愉快。
- 提高工作效率:在专业环境中,更清晰的音频意味着更少的误解和更少的重复信息时间,从而最终提高工作效率。
- 无障碍:对于有听力障碍或身处嘈杂环境中的用户来说,AI 降噪技术可以让他们在能否参与对话之间做出选择。
- 竞争优势:随着用户对音频质量越来越挑剔,能够提供卓越降噪功能的平台很可能获得竞争优势。
AI 降噪技术原理
RTC 中的 AI 降噪技术利用机器学习算法来区分所需的语音和不需要的背景噪声。这些算法是在大量语音和噪音样本数据集上训练出来的,能够实时识别语音模式并将其从各种背景噪音中分离出来。然后,AI 系统会抑制或消除识别出的噪音,同时保持语音信号的质量和自然度。
用于噪声检测的机器学习算法
AI 降噪采用复杂的机器学习算法来检测和分类各种类型的噪声:
- 监督学习:在干净语音和噪声的标记数据集上对算法进行训练,学习如何区分两者。
- 无监督学习:这些方法无需事先训练即可适应新的噪声环境,识别出区分语音和噪声的模式。
- 深度学习:卷积神经网络 (CNN) 和递归神经网络 (RNN) 可用于分析音频信号的频谱和时间特征,从而高精度地识别噪声成分。
用于语音增强的神经网络
一旦检测到噪声,就可以利用神经网络来增强语音信号:
- 去噪自编码器:这些神经网络学会从噪声输入中重建干净的语音。
- 生成对抗网络(GAN):GAN 可用于生成干净的语音,并通过一个鉴别器网络确保输出与自然语音密切匹配。
- 时域音频分离网络:这些网络直接处理原始音频波形,在时域中分离语音和噪声。
利用即构 RTC 实现 AI 降噪
即构 AI 降噪对于平稳和非平稳噪声都有很好的降噪效果,保证了语音的质量和可懂度,同时将性能开销控制在一个很低的量级,与传统降噪算法相当,成功覆盖大部分中低端机型。
下面我们来讲讲如何基于即构实时音视频 SDK 在应用中实现 AI 降噪功能:
前提条件
在实现 AI 降噪功能之前,请确保:
- 已在ZEGO 控制台创建项目,并申请有效的 AppID 和 AppSign,详情请参考控制台 – 项目信息。
- 已在项目中集成 ZEGO Express SDK,并实现了基本的音视频推拉流功能,详情请参考快速开始 – 集成和快速开始 – 实现流程。
使用步骤
开发者可以按照以下步骤完成 AI 降噪的相关设置:
- 请联系 ZEGO 技术支持配置开启音乐检测功能。如果已开启,请忽略该步骤。
- 初始化和登录房间的具体流程,请参考实现视频通话文档中的 “创建引擎” 及 “登录房间”。
- 调用enableANS接口,开启噪声抑制,该功能开启后可以使人声更加清晰。
- 开启噪声抑制后,开发者可通过调用setANSMode接口,设置 ANS 模式,开启 AI 降噪功能。以下展示了部分 AI 降噪模式,更多模式请参考ZegoANSMode。
AI 降噪模式 | 适用场景 |
---|---|
ZegoANSMode.AI | 轻量模式,极低的功耗与包体增量下依然具备良好的降噪效果,适用于室内噪音等环境以及相对舒适的国内地区。 |
ZegoANSMode.AI_BALANCED | 均衡模式,全面消除噪音同时无损人声,但功耗稍微增加。适用于复杂的通话环境,如户外闹市、交通出行等环境以及噪音干扰严重的地区。 |
ZegoANSMode.AI_LOW_LATENCY | 低延迟模式,10ms 延迟下依然保持纯净的降噪效果以及高保真的人声音质,适用于游戏语音、游戏开黑、实时合唱等对延迟较为敏感的场景。 |
// 开启 ANS
engine.enableANS(true);
// 根据需求设置 AI 降噪模式,注意:设置 ANS 模式为 ZegoANSMode 后,ZEGO Express SDK 会强制关闭瞬态噪声抑制 [enableTransientANS]
engine.setANSMode(ZegoANSMode.AI);
更多关于即构 AI 降噪的优势和技术原理解读,推荐阅读文章:《AI 降噪:消灭非稳态噪音的利器》
原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-technique/2067/