如何在 RTC 音视频通话应用中实现 AI 降噪

RTC(Real-Time Communication,实时通信)的意义深远且多维度,其核心在于通过低延迟、高可靠性的信息传输技术,重塑人们的沟通方式和业务场景。然而,与任何实时通信技术一样,RTC音视频通话也面临着与音频质量相关的挑战,尤其是在背景噪音方面。这种噪音会严重影响通信的清晰度和有效性,导致用户产生误解和沮丧。

如何在 RTC 音视频通话应用中实现 AI 降噪

AI 降噪在 RTC 中的重要性

在RTC 中实施 AI 降噪技术至关重要,原因有以下几点:

  • 增强用户体验:通过减少背景噪音,人工智能算法可以显著提高音频的清晰度,从而使对话更加自然、愉快。
  • 提高工作效率:在专业环境中,更清晰的音频意味着更少的误解和更少的重复信息时间,从而最终提高工作效率。
  • 无障碍:对于有听力障碍或身处嘈杂环境中的用户来说,AI 降噪技术可以让他们在能否参与对话之间做出选择。
  • 竞争优势:随着用户对音频质量越来越挑剔,能够提供卓越降噪功能的平台很可能获得竞争优势。

AI 降噪技术原理

RTC 中的 AI 降噪技术利用机器学习算法来区分所需的语音和不需要的背景噪声。这些算法是在大量语音和噪音样本数据集上训练出来的,能够实时识别语音模式并将其从各种背景噪音中分离出来。然后,AI 系统会抑制或消除识别出的噪音,同时保持语音信号的质量和自然度。

用于噪声检测的机器学习算法

AI 降噪采用复杂的机器学习算法来检测和分类各种类型的噪声:

  • 监督学习:在干净语音和噪声的标记数据集上对算法进行训练,学习如何区分两者。
  • 无监督学习:这些方法无需事先训练即可适应新的噪声环境,识别出区分语音和噪声的模式。
  • 深度学习:卷积神经网络 (CNN) 和递归神经网络 (RNN) 可用于分析音频信号的频谱和时间特征,从而高精度地识别噪声成分。

用于语音增强的神经网络

一旦检测到噪声,就可以利用神经网络来增强语音信号:

  • 去噪自编码器:这些神经网络学会从噪声输入中重建干净的语音。
  • 生成对抗网络(GAN):GAN 可用于生成干净的语音,并通过一个鉴别器网络确保输出与自然语音密切匹配。
  • 时域音频分离网络:这些网络直接处理原始音频波形,在时域中分离语音和噪声。

利用即构 RTC 实现 AI 降噪

即构 AI 降噪对于平稳和非平稳噪声都有很好的降噪效果,保证了语音的质量和可懂度,同时将性能开销控制在一个很低的量级,与传统降噪算法相当,成功覆盖大部分中低端机型。

下面我们来讲讲如何基于即构实时音视频 SDK 在应用中实现 AI 降噪功能

前提条件

在实现 AI 降噪功能之前,请确保:

使用步骤

开发者可以按照以下步骤完成 AI 降噪的相关设置:

  1. 请联系 ZEGO 技术支持配置开启音乐检测功能。如果已开启,请忽略该步骤。
  2. 初始化和登录房间的具体流程,请参考实现视频通话文档中的 “创建引擎” 及 “登录房间”。
  3. 调用enableANS接口,开启噪声抑制,该功能开启后可以使人声更加清晰。
  4. 开启噪声抑制后,开发者可通过调用setANSMode接口,设置 ANS 模式,开启 AI 降噪功能。以下展示了部分 AI 降噪模式,更多模式请参考ZegoANSMode
AI 降噪模式适用场景
ZegoANSMode.AI轻量模式,极低的功耗与包体增量下依然具备良好的降噪效果,适用于室内噪音等环境以及相对舒适的国内地区。
ZegoANSMode.AI_BALANCED均衡模式,全面消除噪音同时无损人声,但功耗稍微增加。适用于复杂的通话环境,如户外闹市、交通出行等环境以及噪音干扰严重的地区。
ZegoANSMode.AI_LOW_LATENCY低延迟模式,10ms 延迟下依然保持纯净的降噪效果以及高保真的人声音质,适用于游戏语音、游戏开黑、实时合唱等对延迟较为敏感的场景。
// 开启 ANS
engine.enableANS(true);
// 根据需求设置 AI 降噪模式,注意:设置 ANS 模式为 ZegoANSMode 后,ZEGO Express SDK 会强制关闭瞬态噪声抑制 [enableTransientANS]
engine.setANSMode(ZegoANSMode.AI);

更多关于即构 AI 降噪的优势和技术原理解读,推荐阅读文章:《AI 降噪:消灭非稳态噪音的利器

原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-technique/2067/

(0)
上一篇 2月 10, 2025 7:22 上午
下一篇 2月 12, 2025 8:14 上午

相关推荐

发表回复

登录后才能评论