当人们谈论 AI 的进步时,像 ChatGPT 这样的大型语言模型(LLM)往往会抢尽风头。它们以令人印象深刻的流畅度总结、撰写和生成文本,成为生成式 AI 的代表。但在幕后,自动语音识别(ASR)系统正在努力应对一项更为艰巨的挑战——准确地理解和转录人类语音。与 LLM 不同,ASR 系统没有抽象性和创造性可言。它们所处的世界里,每个单词、停顿和语调都很重要。

那么,为什么 ASR 比 LLM 复杂得多?要理解这一点,让我们深入了解语音所带来的独特挑战,以及这些挑战是如何影响 ASR 技术的发展。
ASR 与 LLM 的根本区别在于它们处理真相的方法。LLM 可以生成可信、连贯、有时甚至是创造性的语言。它们可以总结、转述或根据文本输入生成全新的想法。它们的输出结果通常根据流畅性和上下文相关性进行评估,而不是严格的准确性。另一方面,ASR 没有灵活性可言。它的主要目标是提取一个人所说的原话——基本事实。想象一下转录法律证词或医疗咨询。放错逗号或漏掉的单词可能会完全改变含义,而这种精确度在 ASR 中是不可妥协的。LLM 可以近似或总结,而 ASR 必须提供完美。
这种对准确性的内在要求使得 ASR 更具挑战性。每一个标点符号、语气和名称都必须忠实捕捉。这就好比描绘一幅美丽的印象派风景画与准确描摹技术图表轮廓之间的区别。两者都需要技巧,但其中一种对细节的要求要高得多。
语音输入的挑战
文本输入是 LLM 的核心,简洁、统一,而且相对容易标准化。句子不会因书写者而改变,拼写变化也很小。而语音则完全不同。人的语音变化很大且独一无二,受口音、方言、语速、语调甚至情绪的影响。来自同一地区、使用同一种语言的两个人,可能会用完全不同的方式发音。这种可变性使得 ASR 系统很难在不同说话者之间进行归纳。
还有外部噪音的挑战。背景杂音、劣质麦克风或来自电话网络的失真音频都会影响 ASR 系统准确转录语音的能力。相比之下,LLM 不管你是用廉价键盘还是最新的高科技设备打字,文本都是一样的。
对于 ASR 而言,捕捉口语需要驾驭不断变化的环境。想象一下在嘈杂的咖啡馆里转录对话与从整齐输入的文档中生成摘要。前者需要付出更多的努力,而这正是 ASR 系统的日常现实。
环境对 ASR 性能也起着至关重要的作用。语音输入会受到录音设备质量、传输介质甚至周围环境的影响。在安静的房间里使用高端麦克风可以产生清晰的音频,更易于 ASR 处理。但是,如果同一个说话者在繁忙的街道上使用低质量的电话,会发生什么情况呢?信号衰减会给系统解码带来额外的复杂性。相比之下,基于文本的 LLM 完全不受环境因素的影响。在安静的图书馆中用笔记本电脑输入的句子与在颠簸的公交车上用智能手机输入的句子没有任何区别。这种稳定性使 LLM 在可靠性方面具有显著优势。
对于 ASR 而言,音频质量的微小变化都会极大地影响性能。电话系统等网络可能会降低音频采样率以节省带宽,这进一步增加了 ASR 任务的复杂性。通过固定电话(8 kHz 采样)和数据网络(16 kHz 采样)录制的相同声音在系统听起来可能完全不同。
LLM 的另一大优势是可以访问海量的、有详细注释的数据集。互联网是文本数据的宝库,为 LLM 提供了无穷无尽的学习材料。然而,ASR 面临的道路要艰难得多。带注释的语音数据不仅难以收集,而且种类繁多。语音因性别、年龄、地区甚至健康状况而异,因此几乎不可能创建一个放之四海而皆准的训练数据集。
此外,收集语音数据还会引发伦理方面的问题,尤其是与隐私和同意有关的问题。与通常可以匿名的文本不同,语音记录带有可识别的特征。这限制了高质量数据集的可用性,并减缓了 ASR 系统的开发速度。
基础设施需求:丰富性的代价
语音数据比文本丰富得多,但这种丰富是有代价的。音频文件更大、更复杂,需要更多的处理能力。编码差异、文件损坏和采样率的变化都增加了处理语音数据的难度。ASR 系统还需要考虑语音的节奏、音调和语调,这又增加了一层复杂性。
相比之下,文本则简单明了。一个字母 A 无论出现在哪里或以何种方式出现,它始终是一个字母 A。而语音数据则是一个连续的信号,必须对其进行分割、分析和解释。处理语音的计算负担使得 ASR 系统的资源密集度远远高于 LLM 系统。
不可否认的是,语音更难处理,但其丰富性也提供了独特的机会。语音承载着文本无法捕捉的情感、个性和背景。尽管 ASR 系统面临挑战,但它可以创造出深度个性化和身临其境的体验,这超出了 LLM 的能力范围。例如,语音系统可以区分对话中的说话者,或从语气中推断情感线索。这种丰富的功能使语音界面更具吸引力和人性化,尽管实现这种复杂程度的道路充满了困难。
ASR 和 LLM 代表了 AI 的两个方面。LLM 在需要抽象、总结和创造力的任务中大放异彩,而 ASR 则擅长捕捉人类语音的细微差别。但 ASR 是一条更难走的路。它的复杂性源于语音的多变性、对精确度的要求以及它所面临的无数环境和技术挑战。尽管存在这些障碍,ASR 仍然大有可为。语音的丰富性使其成为更个性化、更易获取、更以人为本的 AI 应用的基础。
随着技术的进步,我们可以期待 ASR 系统在我们与数字世界的交互方式中变得更加不可或缺。虽然它可能更难构建,但付出的努力是值得的。我们不要忽视 ASR 领域正在发生的一场静悄悄的革命。它不仅仅是识别单词,更是对人的理解,而这正是它成为 AI 领域最令人兴奋的前沿领域之一的原因所在。
作者:Jean-Louis Queginer
来自:speechtechmag.com.
原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-info/2059/