AI agent(人工智能代理) 是一个热门话题,原因显而易见。AI agent 可以利用自身的内置功能,也可以与外部工具集成以获得额外功能,这意味着它可以根据上下文自主决定何时使用哪些工具,既可以与用户进行动态交互,也可以以完全自动化、独立的方式运行。
代理、助理和机器人已经存在多年,业务流程管理(BPM)和机器人流程自动化(RPA)工具就是标准化、基于规则的自动化的典范。当今 AI agent 的不同之处在于其更高的自主性。传统的机器人大多遵循预定义的工作流程,而 AI agent 则不同,它不需要预定义每一个潜在的交互,因此适应性和通用性更强。AI agent 通过利用大型语言模型(LLM)的能力来实现这一点。
这一领域发展迅速,出现了基于 LLM 的新型机器人或现有传统机器人的改进版。扩展 LLM 功能的 AI agent 包括 OpenAI Operator、Google Mariner,国内的百度文心智能体、字节豆包、天工SkyAgents等。这些 AI agent 可以使用浏览器、搜索网络、运行代码片段以及使用其他软件工具和实用程序。另一个例子是 Saleforce 的 Agentforce,它是为客户和员工服务场景量身定制的。
多模态 LLM
大多数企业系统传统上依赖于单一的输入或输出模式–文本、图像、音频或视频。然而,多模态 LLM 可以根据需要处理和切换不同的输入和输出模式,从而提供更丰富、更无缝的用户体验。
语音和声音功能是多模态 LLM 的关键组成部分。例如,AI 客户支持代理可以使用语音识别转录呼叫者的请求,使用 LLM 处理文本,然后通过合成语音输出做出响应。这种在模态之间转换的能力增强了 AI agent 在实际场景中的可用性。

AI agent + 语音技术的崛起
语音技术将在多个 AI agents 使用场景中发挥关键作用,于是有了“代理语音技术”,即 AI agent 与语音技术的无缝融合。
代理语音技术具有巨大的变革潜力,可实现以下发展:
- 更丰富的人机互动:在许多情况下,AI agent 充当人类与自主系统之间的中介,如人工智能语音机器人处理支持电话和提供客户服务。另一个用例是总结对话,寻找洞察力和趋势,跟踪情感,标记合规风险,并触发相关工作流或警报。
- 复杂业务流程自动化:公司工作流程跨越多个步骤,与不同系统集成,甚至可以跨越组织边界。语音技术将在关键的交互点上发挥作用,例如通过语音命令启动工作流程,或在自动化工作流程中进行基于语音的审批。
如何利用 AI agent + 语音技术的机遇
下一代语音技术必须能够在各种应用中同时容纳人类和 AI agents 用户。这些应用包括 B2C 应用,如虚拟助理、聊天机器人和声控智能设备;B2B 用例,如后端集成,其中语音技术是一种嵌入式功能,而不是独立的产品;以及政府应用,如公共服务热线或为有特殊需要的人提供的无障碍服务。
语音技术产品不断发展,以无缝集成到多代理生态系统中。语音识别 API 使 AI 智能体能够处理语音命令,实时翻译可以支持多语言交互,语音认证 API 可以通过生物识别技术验证身份,这些将是关键。说到安全性,随着 AI 生成的深度伪造不断增多,语音技术必须包含强大的安全功能:
- 语音取证和深度伪造检测可确保语音输入的真实性。
- 追踪人工智能生成内容来源的出处验证。
- 检测未经授权的语音交互的欺诈预防机制。
传统的语音技术许可是基于席位的(按每个人类用户收费)。但在代理人工智能世界中,将需要新的计费模式,例如基于消费的定价、基于使用量的收费(例如,按语音转文本请求收费)和混合许可模式。
AI agent 将越来越多地充当软件服务的消费者,自动发现和集成 API。要在这个领域发挥作用,语音技术公司应该开发与 AI agent 兼容的市场,让人类和 AI agent 都能发现语音解决方案;采用 API 优先的架构,使产品既可以作为独立应用使用,也可以作为模块化组件使用;并发布清晰的 API 文档和服务水平协议,确保 AI agent 可以轻松集成语音技术功能。
AI agent + 语音技术是一个令人兴奋的类别,具有很大的发展前景,因为它可以显著扩大语音技术产品的采用。也许这是该行业的大好时机。
*AD时间——了解ZEGO即构在 AI agent 和 RTC(实时音视频,不止语音技术)的探索成果:AI陪伴解决方案。基于多年实时互动经验,打造超低延迟、角色多样、情感丰富的 AI 陪伴解决方案,助力 AI 伴侣、剧情演绎、虚拟咨询、主播克隆等各种虚拟陪伴场景。
原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-info/2129/