FAQ：实时互动 AI Agent 与数字人 API 有什么区别

在构建数字人业务时，很多开发者面临同一个问题：ZEGO 同时提供了“实时互动 AI Agent”和“数字人 API”两种接入方式，这两者都能让数字人开口说话，我应该选哪种方式接入？

本文将从架构原理、功能差异、适用场景三个维度，帮助您快速找到适合自己业务的接入方式。

一、背景：ZEGO 数字人的两种对接方式

ZEGO 提供了两种将数字人接入方式：

方案一：接入实时互动 AI Agent服务，在 AI Agent 中调用数字人创建数字人实例。
方案二：用户直接对接数字人 API服务，实现数字人内容生成（例如直播场景，不需要Agent，只需要数字人播报）。

两种方案的表现形态相似，都是一个会动、会说话的虚拟形象。但背后的架构和适用场景有本质差异。

二、方案一：通过实时互动 AI Agent 接入数字人

2.1 方案架构

方案一将数字人作为 AI 对话体验的视觉载体。完整的链路如下：

用户文本/语音输入
    ↓
AI Agent
 ├─ ASR：语音识别，将用户语音转为文字
 ├─ LLM：大语言模型，理解意图并生成回复
 └─ TTS：文字转语音，合成 AI 的声音
    ↓
数字人实例
 └─ 将 TTS 输出的音频驱动数字人形象，唇形同步
    ↓
实时音视频流 → 用户端展示

在这套链路中，数字人是 AI Agent 的”嘴”。AI 理解用户、思考回复、生成语音，数字人负责将文本或语音以视觉化形象呈现出来。

2.2 数字人在 AI Agent 中如何工作

AI Agent 内置了数字人管理能力，开发者在创建智能体时直接配置数字人参数即可，无需单独处理数字人的驱动逻辑：

仅需一张照片，即可生成 1080P 的数字人形象，快速赋予 AI 角色一张”脸”
数字人实例与 Agent 实例的生命周期绑定，Agent 开始对话时数字人启动，对话结束时自动停止
数字人的唇形、动作由 AI Agent 内部自动同步，开发者无需关心驱动细节

开发者只需专注于 AI 角色本身的配置——人设（System Prompt）、使用哪家 LLM、使用哪种音色——数字人的呈现由服务自动处理。

2.3 核心能力亮点

双向实时对话：用户说话，AI 听懂，数字人开口回应，整个端到端延迟最低可达 1 秒。

自然语音打断：用户随时可以打断正在说话的数字人，AI Agent 识别打断意图，立即停止当前输出，开始处理新的用户输入。语音识别准确率 > 95%。

灵活的 AI 能力配置：

LLM 支持 OpenAI、通义千问、火山方舟（豆包）、MiniMax、文心一言等主流大模型
TTS 支持火山引擎、阿里云 CosyVoice、MiniMax 等，支持音色克隆
支持外挂知识库（RAG）、长期记忆、模型精调（LoRA/SFT）

多人互动：支持多用户与单个 AI 数字人互动，或单用户与多个 AI 数字人互动的场景。

2.4 适用场景示例

AI 陪伴 / 情感对话：用户与 AI 角色进行开放式实时对话，数字人呈现 AI 伴侣的视觉形象，增强临场感与情感连接。

AI 数字人伴学互动：如大班课场景：真人老师主讲 + AI 数字人老师协作教学，真人老师根据教学内容自主触发万名学生和 AI 数字人老师同时进行 1V1 实时互动，打造大班课个性化互动新体验。

AI 智能客服：用户提出问题，数字人客服通过 AI Agent 理解意图、结合企业知识库生成专业回复，实时回应，比纯语音客服体验更具信任感。

AI 数字人直播：直播间弹幕或语音互动由 AI Agent 实时理解并生成回复，数字人主播自然开口回应，实现 7×24 小时不间断的互动直播。

角色扮演 / 游戏 NPC：AI 数字人具备人设记忆和上下文理解能力，用户每次说的话都会影响 AI 的后续回应，实现真正有温度的角色互动。

三、方案二：单独接入数字人 API

3.1 方案架构

方案二是一个数字人引擎，包含形象生成和内容生成。业务侧掌控”说什么”，数字人 API 负责”怎么呈现”：

业务侧控制（文本 / 音频文件 / RTC 音频流 / WebSocket 流）
    ↓
数字人 API
 └─ ZEGO 自研推理引擎，驱动数字人形象，唇形 + 表情 + 动作同步
    ↓
实时音视频流 → 直播/会议场景
异步短视频文件 → 内容生产场景

在这套链路中，开发者是导演。您决定数字人什么时候说话、说什么内容、以什么形式呈现，数字人 API 负责高质量地执行。

3.2 核心能力亮点

两种形象，满足不同质量需求：

真人数字人：采集一段真人拍摄视频，经 AI 训练后生成神态、动作、表情媲美真人的数字人形象，支持最高 2K 超清画质，形象逼真效果自然
图片数字人：只需一张图片（真人、卡通、虚拟人均可），AI 训练后让图片”活”起来，口齿清晰、表情自然，并具有自然肢体动作

两种输出形态，适配不同业务场景：

异步短视频文件：传入文本或音频，异步生成 MP4/WebM 格式短视频，支持透明通道（WebM），最高 2K 分辨率，适合内容批量生产
实时音视频流：推理延迟 < 200ms，数字人实时开口，适合直播、互动对话等低延迟场景

多模态驱动：

文本驱动：传入文字，数字人 API 内部调用 TTS 合成语音后驱动形象
音频文件驱动：传入预录制的音频，数字人口型同步播报
RTC 流式驱动：传入实时音频流（如您自己 LLM+TTS 的输出），数字人实时跟随
WebSocket 音频流式驱动：适合 Web 端低延迟接入场景

自定义动作与布局：支持通过关键字触发指定动作（如点头、挥手），支持自定义背景图片/背景色、视频布局层级与坐标，满足品牌化定制需求。

3.3 适用场景

批量短视频内容生产：将营销文案、课程讲义、产品介绍批量生成数字人播报视频，极大降低视频制作成本，一套流程自动化处理。

脚本化数字人直播：基于预设的直播脚本，数字人代替真人主播进行商品讲解、活动播报，支持低成本、大规模的直播电商场景。

企业培训与课程视频：将课程文案转化为 AI 讲师视频，数字人老师按脚本逐段讲解，支持多种课程模块批量渲染，效率大幅提升。

自研对话系统 + 数字人呈现：如果您的企业已有自研的 NLP/LLM 对话引擎，或已接入第三方 AI 服务，只需将 TTS 输出的音频流接入数字人 API，即可为现有业务增加视觉化形象层，无需改造对话逻辑。

品牌形象数字代言人：企业官网、发布会大屏、展厅展示，数字人以企业品牌形象出现，播报品牌内容，替代传统的 PPT 或视频素材。

四、两种方案核心对比

对比维度	方案一：AI Agent 内含数字人	方案二：单独接入数字人 API
数字人”说什么”	AI Agent 自动决定（LLM + TTS）	业务侧自行传入（文本/音频）
是否具备对话理解能力	✅ 有（ASR + LLM）	❌ 无，数字人不理解内容
用户能否实时打断	✅ 自然语音打断，准确率 > 95%	✅ 支持手动调用 API 打断
交互方向	双向实时对话	单向内容播报为主
数字人形象规格	推荐：照片数字人（1080P）	真人/图片数字人（最高 2K）
输出形态	实时音视频流	实时音视频流 + 异步短视频文件
端到端延迟	最低 < 1s（对话全链路）	推理延迟 < 200ms（驱动到输出）
是否需要自行对接 LLM	❌ 无需，支持多种 LLM	✅ 如需 AI 对话，客户自行对接
接入复杂度	低（AI Agent 统一管理数字人）	中（需自行设计驱动逻辑）
接入方式	SDK + 服务端 API	纯服务端 API

五、选型决策

面对具体的业务需求，可以按照以下决策路径快速定位：

您的数字人是否需要实时理解用户输入并自主回复？
    │
    ├─ 是 → 选择方案一：AI Agent 内含数字人
    │         ✓ 用户说话 → AI 理解 → 数字人自动回应
    │         ✓ 适合：AI 陪伴、AI 客服、AI 数字人直播、NPC
    │
    └─ 否 → 您是否已有自己的对话/内容生成系统？
              │
              ├─ 是 → 选择方案二：单独接入数字人 API
              │         ✓ 您的系统输出音频/文本 → 数字人呈现
              │         ✓ 适合：自研 AI 系统 + 数字人视觉层升级
              │
              └─ 否（只需播报固定内容）→ 选择方案二
                         ✓ 传入脚本/音频 → 数字人直接播报
                         ✓ 适合：短视频生产、脚本直播、培训视频

六、总结

ZEGO 数字人的两种接入方式，本质上是对”数字人的大脑”归属问题的不同回答：

方案一（AI Agent 内含数字人）：AI Agent 承担理解、思考、回复的全部工作，数字人是 AI 对话的视觉升级。适合需要 AI 真正”懂用户”的实时互动场景。
方案二（单独接入数字人 API）：您决定数字人说什么，数字人 API 负责高质量地呈现。适合内容由业务侧主导、追求视觉化呈现效果的场景。

如果您正在构建一个全新的 AI 对话产品，且希望以最低的集成成本快速上线，方案一是更优的选择：ZEGO AI Agent 已将 ASR、LLM、TTS、数字人的完整链路封装完毕，您只需定义 AI 的”人设”即可。

如果您的业务已有成熟的内容生产或对话系统，只需要为现有服务增加一张”会动的脸”，方案二提供了最灵活的原子能力，按需组合，轻量集成。

关于数字人详细接入费用或其它问题，请扫描下面二维码联系 ZEGO 售前👇

原创文章，作者：ZEGO即构科技，如若转载，请注明出处：https://market-blogs.zego.im/reports-baike/3295/