作者:Ishan Khot,Hani Atassi,来自 Meta.
链接:https://atscaleconference.com/eliminating-the-awkward-pause-ultra-low-latency-connect-ullc/
编译:小及狗
我们都有过这样的经历:你点击启动与人工智能助手的语音对话,却遭遇一片寂静。这就是“尴尬的停顿”,连接建立时那短暂却明显的延迟。这短短的一瞬间远非无关紧要,它更是自然流畅、人性化对话的根本障碍。当我们与他人交谈时,互动是即时的。要让 AI 交互真正无缝衔接,同样需要这种即时性。而延迟是实现这一目标的主要障碍。
在 Meta,我们意识到初始连接延迟是关键痛点。为实现 AI 语音交互的瞬时体验,我们设定了一个雄心勃勃的目标:将绝大多数使用场景的初始连接延迟降至一秒以内。这意味着我们不能仅仅优化现有流程,而必须重新设计实时媒体连接的建立机制。
本文将剖析实现消除尴尬停顿的工程创新:我们将探讨如何从标准的顺序式架构过渡到并行式架构,以及在路由方面如何通过科学决策使这一切成为可能。
为何 AI 的标准呼叫建立过程过于缓慢
要阐述我们的解决方案,首先需诊断问题所在。传统实时媒体连接建立方式本质上是顺序执行的,客户端和服务器之间至少需要两次往返通信。这种设计虽然稳健,但也正是初始延迟的主要原因。
在标准流程(如图1所示)中,其运作机制如下:
- 信令往返流程:发起呼叫时,客户端向中央信令服务发送请求。该服务需协调并初始化两个独立后端组件:负责AI逻辑的机器人服务,以及处理音频流的专用媒体服务。仅当资源分配完成后,信令服务才会将连接详情(即媒体服务的IP地址、端口、安全凭证等)回传至客户端。
- 媒体连接往返:客户端必须收到信令响应才能执行任何操作。只有收到响应后,客户端才能开始向指定的媒体服务 IP 地址发送媒体数据包(例如用于连接性检查的 STUN 数据包)。第二次通信往返最终建立实际语音连接。
客户端等待首次信令往返完成的整个时间都是无效时间。用户已经发起了操作,但媒体通道甚至都无法开始建立。这种内置延迟正是我们决心消除的连接瓶颈。

并行处理信令与媒体传输
我们的核心突破在于一个简单而强大的构想:何不直接并行处理?我们的“ultra-low latency connect”(ULLC,超低延迟连接)系统并非采用顺序流程,而是同时发起信令请求和建立媒体连接。通过并行执行这些任务,我们有效地消除了关键路径上的首次往返时间(RTT),从而节省了数百毫秒。
该方案同时简化了后端架构。新的机器人服务(Bot Service)现可直接处理媒体连接,无需再与独立媒体服务进行协调。
下图展示了统一的“happy path”流程(如图2所示),呈现信令与媒体如何协同完成流畅操作:
1. 客户端并行启动:用户发起呼叫的瞬间,客户端立即启动两项操作。
- 媒体路径:客户端执行 DNS 查询,获取新的全局端点,从而找到最近的边缘集群的 IP 地址——这是我们媒体流量在 Meta 边缘网络的第一个入口点。然后,客户端使用预先生成的本地和远程SDP,立即开始向该 IP 地址发送 STUN ping 请求。
- 信令路径:同时,客户端通过已连接的高效持久 API 网关发送会话创建请求。此请求包含预生成的本地 SDP,以及调用所需的安全凭证,更重要的是,还包含客户端当前正在 ping 的边缘 IP 地址。
2. 服务器并行处理:两个请求均从我们的边缘网络传输到数据中心,并在那里同时进行处理。
- (媒体路径): STUN ping 到达边缘,边缘根据路由算法将其转发到最近的数据中心。
- (信令路径):会话创建请求到达请求处理程序,该处理程序调用 GenAI Bot 服务来创建一个新的会话实例。该服务将会话的连接详细信息存储在高速内存键值存储中。
3. 连接在毫秒内建立:
- 抵达数据中心后,传入的 STUN 数据包使用相同缓存查询会话。
- 找到匹配项后,它们立即被转发至正确的 Bot Service 实例。
- Bot Service 服务验证数据包并发送响应,建立媒体连接。用户此刻可与 AI 对话,全程毫无延迟感知。

利用延迟映射统一路由
并行方法带来一个重大挑战:信令请求(通过消息网关)与 STUN ping(至边缘节点)属于两个完全独立的数据流。要实现即时连接,为了使连接能够立即建立,它们必须路由到创建 Bot 服务会话的同一个数据中心 (DC)。如果媒体数据包到达的数据中心没有对应的会话,则连接将失败(如图 3 所示)。

我们的解决方案是一种“有根据的赌注”:通过确保两条路径独立选择相同目的地,这种乐观策略在大多数情况下都能奏效。
- 其理念是共享单一信息。如前所述,客户端会在信令请求中包含已解析的边缘 IP地址。
- 我们的消息网关和边缘组件都使用完全相同的延迟映射来确定用户的最佳数据中心。通过将相同的输入输入到相同的路由逻辑中,这两个系统可以独立且一致地计算出相同的目标数据中心。
当然,世事无绝对。在极少数情况下,如果两条数据流被路由到不同的数据中心,强大的回退路径可以确保呼叫仍然能够可靠连接。最初发送到错误数据中心的 STUN ping 请求会失败。但是,客户端很快就会收到来自正确数据中心的信令响应。该响应包含 Bot Service 会话的位置信息,这短短的数据明确地告诉客户端应该连接到哪个数据中心,从而消除任何歧义。客户端更新其配置并成功连接,使得系统在正常情况下速度极快,在最坏情况下也具有强大的容错能力。
毫秒如何转化为有意义的互动
本项目的主要工程目标是使绝大多数使用场景下的连接建立延迟低于 1 秒。通过实施并行架构和统一路由,我们成功实现了这一目标。但衡量成功的真正标准在于对用户体验和产品指标的影响。我们的实验也验证了这一假设,并观察到降低连接建立延迟能够提高用户发起 AI 对话的意愿,并增加交互的成功率。
这些改进印证了一个简单的道理:在人机交互中,速度就是质量。通过消除令人尴尬的停顿,我们让 AI 助手感觉响应更迅速、更可靠、更自然。这鼓励用户更频繁、更成功地与之互动,表明即使是微小的延迟改进也能产生显著的影响。
超越人工智能
ULLC 项目让我们明白,挑战行业标准的一项基本假设——连接建立必须是顺序的,可以帮助我们取得显著的改进。我们转向了并行模式,这得益于巧妙的路由同步。我们不仅优化了旧方法,还创造了一种新方法。
虽然本项目专注于 AI 语音,但其原理可广泛应用于任何存在初始延迟的实时通信场景。这证明,我们根深蒂固的“标准流程”往往蕴藏着最大的创新机遇。当我们构建未来平台(例如 Meta AI 眼镜)时,交互必须真正做到瞬时才能自然流畅,这让我们不禁思考:为了实现完美无缝的交互,还有哪些基础假设值得我们去挑战?
编译者注:如今,人们期望无论何时何地,无论使用何种平台或设备,都能获得卓越的产品体验。Meta 的超低延迟连接 (ULLC) 给我们带来了不同角度的思考和实践。ZEGO 作为实时互动领域的领先服务商,在AI Agent互动方面也实现了低至 1s 的延迟回复(全程流式处理,基于自研 MSDN(实时有序数据网络)全球网络节点就近接入,实现全球低至 1s 的延迟。),有兴趣的朋友也可以了解一下。
原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-technique/2931/