在构建数字人业务时,很多开发者面临同一个问题:ZEGO 同时提供了“实时互动 AI Agent”和“数字人 API”两种接入方式,这两者都能让数字人开口说话,我应该选哪种方式接入?
本文将从架构原理、功能差异、适用场景三个维度,帮助您快速找到适合自己业务的接入方式。
一、背景:ZEGO 数字人的两种对接方式
ZEGO 提供了两种将数字人接入方式:
- 方案一:接入实时互动 AI Agent服务,在 AI Agent 中调用数字人创建数字人实例。
- 方案二:用户直接对接数字人 API服务,实现数字人内容生成(例如直播场景,不需要Agent,只需要数字人播报)。
两种方案的表现形态相似,都是一个会动、会说话的虚拟形象。但背后的架构和适用场景有本质差异。
二、方案一:通过实时互动 AI Agent 接入数字人
2.1 方案架构
方案一将数字人作为 AI 对话体验的视觉载体。完整的链路如下:
用户文本/语音输入
↓
AI Agent
├─ ASR:语音识别,将用户语音转为文字
├─ LLM:大语言模型,理解意图并生成回复
└─ TTS:文字转语音,合成 AI 的声音
↓
数字人实例
└─ 将 TTS 输出的音频驱动数字人形象,唇形同步
↓
实时音视频流 → 用户端展示
在这套链路中,数字人是 AI Agent 的”嘴”。AI 理解用户、思考回复、生成语音,数字人负责将文本或语音以视觉化形象呈现出来。
2.2 数字人在 AI Agent 中如何工作
AI Agent 内置了数字人管理能力,开发者在创建智能体时直接配置数字人参数即可,无需单独处理数字人的驱动逻辑:
- 仅需一张照片,即可生成 1080P 的数字人形象,快速赋予 AI 角色一张”脸”
- 数字人实例与 Agent 实例的生命周期绑定,Agent 开始对话时数字人启动,对话结束时自动停止
- 数字人的唇形、动作由 AI Agent 内部自动同步,开发者无需关心驱动细节
开发者只需专注于 AI 角色本身的配置——人设(System Prompt)、使用哪家 LLM、使用哪种音色——数字人的呈现由服务自动处理。
2.3 核心能力亮点
双向实时对话:用户说话,AI 听懂,数字人开口回应,整个端到端延迟最低可达 1 秒。
自然语音打断:用户随时可以打断正在说话的数字人,AI Agent 识别打断意图,立即停止当前输出,开始处理新的用户输入。语音识别准确率 > 95%。
灵活的 AI 能力配置:
- LLM 支持 OpenAI、通义千问、火山方舟(豆包)、MiniMax、文心一言等主流大模型
- TTS 支持火山引擎、阿里云 CosyVoice、MiniMax 等,支持音色克隆
- 支持外挂知识库(RAG)、长期记忆、模型精调(LoRA/SFT)
多人互动:支持多用户与单个 AI 数字人互动,或单用户与多个 AI 数字人互动的场景。
2.4 适用场景示例
AI 陪伴 / 情感对话:用户与 AI 角色进行开放式实时对话,数字人呈现 AI 伴侣的视觉形象,增强临场感与情感连接。
AI 数字人伴学互动:如大班课场景:真人老师主讲 + AI 数字人老师协作教学,真人老师根据教学内容自主触发万名学生和 AI 数字人老师同时进行 1V1 实时互动,打造大班课个性化互动新体验。
AI 智能客服:用户提出问题,数字人客服通过 AI Agent 理解意图、结合企业知识库生成专业回复,实时回应,比纯语音客服体验更具信任感。
AI 数字人直播:直播间弹幕或语音互动由 AI Agent 实时理解并生成回复,数字人主播自然开口回应,实现 7×24 小时不间断的互动直播。
角色扮演 / 游戏 NPC:AI 数字人具备人设记忆和上下文理解能力,用户每次说的话都会影响 AI 的后续回应,实现真正有温度的角色互动。
三、方案二:单独接入数字人 API
3.1 方案架构
方案二是一个数字人引擎,包含形象生成和内容生成。业务侧掌控”说什么”,数字人 API 负责”怎么呈现”:
业务侧控制(文本 / 音频文件 / RTC 音频流 / WebSocket 流)
↓
数字人 API
└─ ZEGO 自研推理引擎,驱动数字人形象,唇形 + 表情 + 动作同步
↓
实时音视频流 → 直播/会议场景
异步短视频文件 → 内容生产场景
在这套链路中,开发者是导演。您决定数字人什么时候说话、说什么内容、以什么形式呈现,数字人 API 负责高质量地执行。
3.2 核心能力亮点
两种形象,满足不同质量需求:
- 真人数字人:采集一段真人拍摄视频,经 AI 训练后生成神态、动作、表情媲美真人的数字人形象,支持最高 2K 超清画质,形象逼真效果自然
- 图片数字人:只需一张图片(真人、卡通、虚拟人均可),AI 训练后让图片”活”起来,口齿清晰、表情自然,并具有自然肢体动作
两种输出形态,适配不同业务场景:
- 异步短视频文件:传入文本或音频,异步生成 MP4/WebM 格式短视频,支持透明通道(WebM),最高 2K 分辨率,适合内容批量生产
- 实时音视频流:推理延迟 < 200ms,数字人实时开口,适合直播、互动对话等低延迟场景
多模态驱动:
- 文本驱动:传入文字,数字人 API 内部调用 TTS 合成语音后驱动形象
- 音频文件驱动:传入预录制的音频,数字人口型同步播报
- RTC 流式驱动:传入实时音频流(如您自己 LLM+TTS 的输出),数字人实时跟随
- WebSocket 音频流式驱动:适合 Web 端低延迟接入场景
自定义动作与布局:支持通过关键字触发指定动作(如点头、挥手),支持自定义背景图片/背景色、视频布局层级与坐标,满足品牌化定制需求。
3.3 适用场景
批量短视频内容生产:将营销文案、课程讲义、产品介绍批量生成数字人播报视频,极大降低视频制作成本,一套流程自动化处理。
脚本化数字人直播:基于预设的直播脚本,数字人代替真人主播进行商品讲解、活动播报,支持低成本、大规模的直播电商场景。
企业培训与课程视频:将课程文案转化为 AI 讲师视频,数字人老师按脚本逐段讲解,支持多种课程模块批量渲染,效率大幅提升。
自研对话系统 + 数字人呈现:如果您的企业已有自研的 NLP/LLM 对话引擎,或已接入第三方 AI 服务,只需将 TTS 输出的音频流接入数字人 API,即可为现有业务增加视觉化形象层,无需改造对话逻辑。
品牌形象数字代言人:企业官网、发布会大屏、展厅展示,数字人以企业品牌形象出现,播报品牌内容,替代传统的 PPT 或视频素材。
四、两种方案核心对比
| 对比维度 | 方案一:AI Agent 内含数字人 | 方案二:单独接入数字人 API |
|---|---|---|
| 数字人”说什么” | AI Agent 自动决定(LLM + TTS) | 业务侧自行传入(文本/音频) |
| 是否具备对话理解能力 | ✅ 有(ASR + LLM) | ❌ 无,数字人不理解内容 |
| 用户能否实时打断 | ✅ 自然语音打断,准确率 > 95% | ✅ 支持手动调用 API 打断 |
| 交互方向 | 双向实时对话 | 单向内容播报为主 |
| 数字人形象规格 | 推荐:照片数字人(1080P) | 真人/图片数字人(最高 2K) |
| 输出形态 | 实时音视频流 | 实时音视频流 + 异步短视频文件 |
| 端到端延迟 | 最低 < 1s(对话全链路) | 推理延迟 < 200ms(驱动到输出) |
| 是否需要自行对接 LLM | ❌ 无需,支持多种 LLM | ✅ 如需 AI 对话,客户自行对接 |
| 接入复杂度 | 低(AI Agent 统一管理数字人) | 中(需自行设计驱动逻辑) |
| 接入方式 | SDK + 服务端 API | 纯服务端 API |
五、选型决策
面对具体的业务需求,可以按照以下决策路径快速定位:
您的数字人是否需要实时理解用户输入并自主回复?
│
├─ 是 → 选择方案一:AI Agent 内含数字人
│ ✓ 用户说话 → AI 理解 → 数字人自动回应
│ ✓ 适合:AI 陪伴、AI 客服、AI 数字人直播、NPC
│
└─ 否 → 您是否已有自己的对话/内容生成系统?
│
├─ 是 → 选择方案二:单独接入数字人 API
│ ✓ 您的系统输出音频/文本 → 数字人呈现
│ ✓ 适合:自研 AI 系统 + 数字人视觉层升级
│
└─ 否(只需播报固定内容)→ 选择方案二
✓ 传入脚本/音频 → 数字人直接播报
✓ 适合:短视频生产、脚本直播、培训视频
六、总结
ZEGO 数字人的两种接入方式,本质上是对”数字人的大脑”归属问题的不同回答:
- 方案一(AI Agent 内含数字人):AI Agent 承担理解、思考、回复的全部工作,数字人是 AI 对话的视觉升级。适合需要 AI 真正”懂用户”的实时互动场景。
- 方案二(单独接入数字人 API):您决定数字人说什么,数字人 API 负责高质量地呈现。适合内容由业务侧主导、追求视觉化呈现效果的场景。
如果您正在构建一个全新的 AI 对话产品,且希望以最低的集成成本快速上线,方案一是更优的选择:ZEGO AI Agent 已将 ASR、LLM、TTS、数字人的完整链路封装完毕,您只需定义 AI 的”人设”即可。
如果您的业务已有成熟的内容生产或对话系统,只需要为现有服务增加一张”会动的脸”,方案二提供了最灵活的原子能力,按需组合,轻量集成。
关于数字人详细接入费用或其它问题,请扫描下面二维码联系 ZEGO 售前👇

原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-baike/3295/