2026年5月29日,开放媒体联盟(AOMedia)正式发布了AV2 v1.0规范,作为基于广受欢迎的AV1的下一代视频编码标准。AV2 1.0 规范可在av2.aomedia.org获取。

什么是 AV2?
AV2,全称可以理解为 AOMedia Video 2,是开放媒体联盟 AOMedia(Alliance for Open Media) 推出的下一代视频编码规范,也是 AV1 的继任者。
AV2 建立在 AV1 的基础之上,目标是进一步提升视频压缩效率,使高质量视频能够以更低码率进行传输。也就是说,在相似画质下,AV2 希望比 AV1 使用更少的数据;在相同码率下,AV2 则有机会提供更好的画质。
从应用场景来看,AV2 面向的是不断发展的流媒体、广播电视以及实时视频会议需求。随着 4K/8K、HDR、高帧率视频、在线会议、云游戏和沉浸式媒体的发展,视频内容的数据量不断增加,编码标准也需要在画质、带宽和计算复杂度之间取得更好的平衡。
同时,AV2 也增强了对新型视频场景的支持,包括:
- AR/VR 应用:面向更高分辨率、更低延迟和更沉浸式的视频体验;
- 多节目分屏传输:支持 split-screen 形式下的多路视频内容显示;
- 屏幕内容编码:更好地处理文字、图标、UI、代码窗口等屏幕共享内容;
- 更宽的视觉质量范围:能够覆盖从低码率传输到高质量视频的不同需求。
从标准实现角度看,AV2 规范不仅定义了一个视频格式名称,更是 AV2 实现的权威技术参考。它规定了 AV2 码流的语法、语义以及解码流程,用于保证不同编码器、解码器和播放器之间能够正确兼容。
为了帮助开发者和厂商实现 AV2,AOMedia 还提供了官方参考软件 AVM(AOMedia Video Model)。AVM 可以理解为 AV2 的参考实现,主要用于验证标准、测试编码工具,以及帮助实现者理解 AV2 的具体编码和解码流程。
简单总结,AV2 的定位可以概括为:
AV2 是 AV1 之后的新一代开放视频编码标准,目标是在开放、可实现的框架下,通过更高效的编码工具,让高质量视频以更低码率传输,并更好地适配流媒体、广播、视频会议、AR/VR 和屏幕内容等新场景。
AV2 的技术核心
更强的预测:减少需要真正编码的信息
预测是视频编码中最关键的环节之一。
编码器不会直接保存每一帧的完整图像,而是先根据已有信息预测当前块的内容,然后只保存预测结果和真实内容之间的差异,也就是残差。
如果预测越准确,残差就越小,需要编码的信息也就越少。
AV2 在帧内预测和帧间预测上都做了增强。
帧内预测:更好地利用当前帧邻域信息
帧内预测只使用当前帧中已经重建的相邻像素来预测当前块。AV2 引入了更丰富的帧内预测工具,例如:
- MRLS(Multiple Reference Line Selection):不只使用最近的一条参考线,而是可以从多条上方/左侧参考线中选择更合适的一条;
- IBP(Intra Bi-Prediction):融合两个方向的帧内预测结果,提升复杂纹理或角点区域的预测效果;
- DIP(Data-driven Intra Prediction):使用数据驱动方式,根据邻域像素生成预测结果。
这些工具的目标都是减少帧内预测误差,让当前块不需要编码太多残差信息。
帧间预测:更精细地描述运动
帧间预测利用前后参考帧来预测当前帧。
传统运动补偿通常假设块发生了平移,但真实视频中还会有旋转、缩放、遮挡、光照变化等复杂情况。
AV2 在帧间预测中加入了更精细的运动建模工具,例如:
- TIP(Temporal Interpolated Prediction):在两个参考帧之间插值得到虚拟参考帧,再用于预测当前帧;
- OPFL(Optical Flow MV Refinement):利用光流思想对运动向量进行细化;
- SMVR(Sub-block MV Refinement):把一个块继续划分为更小子块,对每个子块做运动向量修正;
- Warp Prediction:用仿射变换建模旋转、缩放、透视等非平移运动;
- BAWP(Block Adaptive Weighted Prediction):通过线性补偿处理参考帧和当前帧之间的亮度变化。
这些工具可以让 AV2 更准确地描述视频中的运动变化,从而进一步减少预测残差。
更灵活的块划分:不同区域用不同策略
视频编码不是直接对整帧图像统一处理,而是先把画面划分成不同大小的块。
块划分会影响后续所有步骤:
- 块越大,信令开销越小,但复杂区域预测不够精细;
- 块越小,预测更灵活,但需要更多划分和模式信息;
- 不同区域的纹理、运动、边缘复杂度不同,适合的块大小也不同。
因此,块划分的核心问题是:
简单区域尽量用大块,复杂区域再切小块。
AV2 在块划分方面进一步增强,代表性工具包括:
- ERP(Extended Recursive Partitioning):扩展递归块划分能力,让编码器可以更灵活地选择块结构;
- 更大的 Superblock:AV2 可以支持更大的 superblock,例如 256×256,这对高分辨率视频中的大面积平坦区域更友好;
- SDP(Semi-Decoupled Partitioning):允许亮度和色度在一定范围内采用不同划分方式;
- Transform Block Partitioning 改进:让预测块和变换块之间的关系更加灵活。
这类改进的收益在于,AV2 可以更好地匹配局部图像结构:
平坦区域:大块编码,减少开销
复杂区域:小块编码,提高预测精度
亮度/色度结构不同:允许更灵活的划分
块划分本身不直接压缩像素,但它决定了预测、变换和量化的基本单元,因此会影响整个编码效率。
更高效的变换:让残差信号更容易压缩
预测之后,编码器得到的是残差信号。
残差不能直接高效编码,通常需要先经过变换。
变换的目标是把残差信号转换到更容易压缩的形式,使能量尽可能集中到少数系数上。这样后续量化时,很多不重要的系数可以被压到 0,从而减少码率。
AV2 在变换部分做了多方面升级。
更丰富的 Primary Transform
AV2 继续使用 DCT、ADST、flipped-ADST、identity 等基础变换,同时改进了部分 transform kernel,并为 intra / inter 场景引入更适合的变换类型。
这意味着 AV2 可以根据不同残差特征选择更合适的变换方式。
Secondary Transform:进一步压缩低频相关性
在 primary transform 之后,低频系数之间仍然可能存在相关性。
AV2 使用 Secondary Transform 对部分低频系数再次变换,进一步去相关,使能量分布更加集中。
可以理解为:
Residual
↓
Primary Transform:第一层能量集中
↓
Secondary Transform:继续压缩低频系数之间的相关性
CCTX:利用色度分量相关性
AV2 还引入了 CCTX(Cross Chroma-component Transform),用于处理 U/V 色度分量之间的相关性。
在很多视频内容中,U 和 V 并不是完全独立的。如果直接分别编码,会浪费一部分相关性。CCTX 通过对 U/V 系数做旋转,把它们转换到更适合压缩的坐标系中。
这类工具的核心思想是:
不只压缩每个分量内部的冗余,也利用不同分量之间的相关性。
更精细的量化:在画质和码率之间做取舍
量化是视频编码中真正“丢信息”的步骤。
变换后得到的一组系数中,有些对视觉质量很重要,有些对人眼影响较小。量化会降低系数精度,从而减少码率。
量化越强,码率越低,但画质损失越大;
量化越弱,画质更好,但码率更高。
AV2 在量化部分的目标是更精细地控制这种取舍。
New Quantizer:更统一的量化尺度
AV1 中 q_index 到量化步长的映射依赖查表。
AV2 改用更加统一的指数形式,让量化步长随 q_index 增长更加平滑,也能覆盖更宽的质量范围。
这使得 AV2 在高质量和低码率场景下都能有更稳定的量化控制。
Quantization Matrix:更灵活地分配视觉权重
不同频率成分对视觉质量的影响不同。
量化矩阵可以让编码器对不同频率使用不同量化强度。
AV2 对 quantization matrix 做了改进,使其更灵活,也支持更细粒度的内容自适应。
TCQ:从逐点量化到路径优化
AV2 还引入了 TCQ(Trellis Coded Quantization)。
普通量化更像是每个系数独立决定量化到哪个 level。
TCQ 则把一串系数的量化选择看成一个路径搜索问题,在码率和失真之间寻找整体更优的结果。
它优化的是经典 rate-distortion 目标:
J = D + λR
其中:
- D 表示失真;
- R 表示码率;
- λ 控制画质和码率之间的权衡。
因此,TCQ 的意义在于,它不只看单个系数的量化误差,而是考虑整组系数编码后的整体代价。
更好的熵编码:用更少比特表达同样信息
熵编码是视频编码流水线的最后一步。
经过预测、变换和量化后,编码器会得到各种符号,例如:
- 预测模式;
- 参考帧索引;
- 运动向量;
- 非零系数位置;
- 系数大小和符号;
- 滤波参数。
熵编码的目标是:
常见符号用更短的码字,少见符号用更长的码字。
AV2 在熵编码和系数编码上也做了多项优化。
PARA:调整概率模型适应速度
现代视频编码依赖概率模型。
如果模型越接近真实符号分布,编码效率就越高。
但视频内容变化很快:有些区域平坦,有些区域复杂;有些帧运动剧烈,有些帧几乎不动。概率模型需要根据上下文不断更新。
AV2 中的 PARA(Probability Adaptation Rate Adjustment) 用来调节概率模型更新速度:
更新太慢:跟不上局部内容变化
更新太快:容易受局部噪声影响
PARA:在稳定性和响应速度之间取得平衡
Parity Hiding:把部分信息“藏”在已有系数中
AV2 使用 Parity Hiding 减少部分系数信令开销。
当一个块中存在足够多非零 AC 系数时,AV2 可以不显式编码某些 parity 信息,而是从其他系数 level 的奇偶性中推导出来。
这类工具单次节省的 bit 很少,但在大量块上累积后,可以带来稳定收益。
FSC:针对特殊残差的系数编码方式
AV2 还引入了 FSC(Forward Skip Coding),主要用于某些 transform skip / identity transform 场景,尤其对屏幕内容编码有帮助。
传统系数扫描方式并不总是适合所有残差分布。FSC 使用更适合这类残差的扫描顺序和上下文建模,从而降低系数编码成本。
AV2 相比 AV1 提升在哪里?
AV2 相比 AV1 的提升不是来自单个“革命性工具”,而是来自多个模块的系统性升级。
可以按编码流水线总结:
| 编码环节 | AV1 | AV2 的升级方向 |
|---|---|---|
| 块划分 | 已支持递归划分 | 更大的 superblock,更灵活的 ERP、SDP |
| 帧内预测 | 多种方向和模式 | MRLS、IBP、DIP、改进 CfL 等 |
| 帧间预测 | 运动补偿、compound prediction | TIP、OPFL、SMVR、Warp、BAWP 等 |
| 变换 | 多种 transform type | 改进 primary transform、secondary transform、CCTX |
| 量化 | 查表式 q_index 映射 | New Quantizer、Quantization Matrix、TCQ |
| 熵编码 | 上下文概率建模 | PARA、Parity Hiding、FSC 等 |
| 环路滤波 | Deblocking、CDEF、LR | 更强的 Deblocking、CCSO、GDF 等 |
从整体上看,AV2 的技术路线可以概括为三点。
预测更准确
更强的 intra / inter prediction 让编码器能更好地预测当前块内容。预测越准,残差越小,后续编码成本越低。
残差表达更高效
通过更灵活的 transform、secondary transform 和 chroma transform,AV2 可以更好地表达预测误差,让残差能量更集中,更容易量化和编码。
符号编码更省 bit
通过 TCQ、PARA、Parity Hiding、FSC 等工具,AV2 在量化决策和熵编码阶段进一步降低码率。
最终,这些工具共同降低了 rate-distortion cost:
J = D + λR
也就是说,AV2 的目标不是单纯追求更低码率,也不是单纯追求更高画质,而是在码率 R 和失真 D 之间找到更优平衡。
总结
AV2 是 AV1 的下一代开放视频编码标准。它并没有推翻传统混合视频编码框架,而是在 AV1 的基础上继续细化每个关键模块。
它的技术核心可以概括为五个方面:
- 更强的预测:通过 MRLS、TIP、OPFL、Warp、BAWP 等工具减少预测残差;
- 更灵活的块划分:通过 ERP、SDP 和更大的 superblock 适配不同区域结构;
- 更高效的变换:通过 primary transform、secondary transform、CCTX 让残差更容易压缩;
- 更精细的量化:通过 new quantizer、quantization matrix、TCQ 更好地平衡画质和码率;
- 更好的熵编码:通过 PARA、Parity Hiding、FSC 减少符号编码开销。
因此,AV2 的压缩效率提升不是来自某个单点创新,而是来自整条编码流水线的系统性优化。
原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-info/3514/