AV2 v1.0 规范正式发布：AV2 相比 AV1 提升在哪里？

2026年5月29日，开放媒体联盟（AOMedia）正式发布了AV2 v1.0规范，作为基于广受欢迎的AV1的下一代视频编码标准。AV2 1.0 规范可在av2.aomedia.org获取。

什么是 AV2？

AV2，全称可以理解为 AOMedia Video 2，是开放媒体联盟 AOMedia（Alliance for Open Media） 推出的下一代视频编码规范，也是 AV1 的继任者。

AV2 建立在 AV1 的基础之上，目标是进一步提升视频压缩效率，使高质量视频能够以更低码率进行传输。也就是说，在相似画质下，AV2 希望比 AV1 使用更少的数据；在相同码率下，AV2 则有机会提供更好的画质。

从应用场景来看，AV2 面向的是不断发展的流媒体、广播电视以及实时视频会议需求。随着 4K/8K、HDR、高帧率视频、在线会议、云游戏和沉浸式媒体的发展，视频内容的数据量不断增加，编码标准也需要在画质、带宽和计算复杂度之间取得更好的平衡。

同时，AV2 也增强了对新型视频场景的支持，包括：

AR/VR 应用：面向更高分辨率、更低延迟和更沉浸式的视频体验；
多节目分屏传输：支持 split-screen 形式下的多路视频内容显示；
屏幕内容编码：更好地处理文字、图标、UI、代码窗口等屏幕共享内容；
更宽的视觉质量范围：能够覆盖从低码率传输到高质量视频的不同需求。

从标准实现角度看，AV2 规范不仅定义了一个视频格式名称，更是 AV2 实现的权威技术参考。它规定了 AV2 码流的语法、语义以及解码流程，用于保证不同编码器、解码器和播放器之间能够正确兼容。

为了帮助开发者和厂商实现 AV2，AOMedia 还提供了官方参考软件 AVM（AOMedia Video Model）。AVM 可以理解为 AV2 的参考实现，主要用于验证标准、测试编码工具，以及帮助实现者理解 AV2 的具体编码和解码流程。

简单总结，AV2 的定位可以概括为：

AV2 是 AV1 之后的新一代开放视频编码标准，目标是在开放、可实现的框架下，通过更高效的编码工具，让高质量视频以更低码率传输，并更好地适配流媒体、广播、视频会议、AR/VR 和屏幕内容等新场景。

AV2 的技术核心

更强的预测：减少需要真正编码的信息

预测是视频编码中最关键的环节之一。

编码器不会直接保存每一帧的完整图像，而是先根据已有信息预测当前块的内容，然后只保存预测结果和真实内容之间的差异，也就是残差。

如果预测越准确，残差就越小，需要编码的信息也就越少。

AV2 在帧内预测和帧间预测上都做了增强。

帧内预测：更好地利用当前帧邻域信息

帧内预测只使用当前帧中已经重建的相邻像素来预测当前块。AV2 引入了更丰富的帧内预测工具，例如：

MRLS（Multiple Reference Line Selection）：不只使用最近的一条参考线，而是可以从多条上方/左侧参考线中选择更合适的一条；
IBP（Intra Bi-Prediction）：融合两个方向的帧内预测结果，提升复杂纹理或角点区域的预测效果；
DIP（Data-driven Intra Prediction）：使用数据驱动方式，根据邻域像素生成预测结果。

这些工具的目标都是减少帧内预测误差，让当前块不需要编码太多残差信息。

帧间预测：更精细地描述运动

帧间预测利用前后参考帧来预测当前帧。
传统运动补偿通常假设块发生了平移，但真实视频中还会有旋转、缩放、遮挡、光照变化等复杂情况。

AV2 在帧间预测中加入了更精细的运动建模工具，例如：

TIP（Temporal Interpolated Prediction）：在两个参考帧之间插值得到虚拟参考帧，再用于预测当前帧；
OPFL（Optical Flow MV Refinement）：利用光流思想对运动向量进行细化；
SMVR（Sub-block MV Refinement）：把一个块继续划分为更小子块，对每个子块做运动向量修正；
Warp Prediction：用仿射变换建模旋转、缩放、透视等非平移运动；
BAWP（Block Adaptive Weighted Prediction）：通过线性补偿处理参考帧和当前帧之间的亮度变化。

这些工具可以让 AV2 更准确地描述视频中的运动变化，从而进一步减少预测残差。

更灵活的块划分：不同区域用不同策略

视频编码不是直接对整帧图像统一处理，而是先把画面划分成不同大小的块。

块划分会影响后续所有步骤：

块越大，信令开销越小，但复杂区域预测不够精细；
块越小，预测更灵活，但需要更多划分和模式信息；
不同区域的纹理、运动、边缘复杂度不同，适合的块大小也不同。

因此，块划分的核心问题是：

简单区域尽量用大块，复杂区域再切小块。

AV2 在块划分方面进一步增强，代表性工具包括：

ERP（Extended Recursive Partitioning）：扩展递归块划分能力，让编码器可以更灵活地选择块结构；
更大的 Superblock：AV2 可以支持更大的 superblock，例如 256×256，这对高分辨率视频中的大面积平坦区域更友好；
SDP（Semi-Decoupled Partitioning）：允许亮度和色度在一定范围内采用不同划分方式；
Transform Block Partitioning 改进：让预测块和变换块之间的关系更加灵活。

这类改进的收益在于，AV2 可以更好地匹配局部图像结构：

平坦区域：大块编码，减少开销
复杂区域：小块编码，提高预测精度
亮度/色度结构不同：允许更灵活的划分

块划分本身不直接压缩像素，但它决定了预测、变换和量化的基本单元，因此会影响整个编码效率。

更高效的变换：让残差信号更容易压缩

预测之后，编码器得到的是残差信号。
残差不能直接高效编码，通常需要先经过变换。

变换的目标是把残差信号转换到更容易压缩的形式，使能量尽可能集中到少数系数上。这样后续量化时，很多不重要的系数可以被压到 0，从而减少码率。

AV2 在变换部分做了多方面升级。

更丰富的 Primary Transform

AV2 继续使用 DCT、ADST、flipped-ADST、identity 等基础变换，同时改进了部分 transform kernel，并为 intra / inter 场景引入更适合的变换类型。

这意味着 AV2 可以根据不同残差特征选择更合适的变换方式。

Secondary Transform：进一步压缩低频相关性

在 primary transform 之后，低频系数之间仍然可能存在相关性。
AV2 使用 Secondary Transform 对部分低频系数再次变换，进一步去相关，使能量分布更加集中。

可以理解为：

Residual
  ↓
Primary Transform：第一层能量集中
  ↓
Secondary Transform：继续压缩低频系数之间的相关性

CCTX：利用色度分量相关性

AV2 还引入了 CCTX（Cross Chroma-component Transform），用于处理 U/V 色度分量之间的相关性。

在很多视频内容中，U 和 V 并不是完全独立的。如果直接分别编码，会浪费一部分相关性。CCTX 通过对 U/V 系数做旋转，把它们转换到更适合压缩的坐标系中。

这类工具的核心思想是：

不只压缩每个分量内部的冗余，也利用不同分量之间的相关性。

更精细的量化：在画质和码率之间做取舍

量化是视频编码中真正“丢信息”的步骤。

变换后得到的一组系数中，有些对视觉质量很重要，有些对人眼影响较小。量化会降低系数精度，从而减少码率。

量化越强，码率越低，但画质损失越大；
量化越弱，画质更好，但码率更高。

AV2 在量化部分的目标是更精细地控制这种取舍。

New Quantizer：更统一的量化尺度

AV1 中 q_index 到量化步长的映射依赖查表。
AV2 改用更加统一的指数形式，让量化步长随 q_index 增长更加平滑，也能覆盖更宽的质量范围。

这使得 AV2 在高质量和低码率场景下都能有更稳定的量化控制。

Quantization Matrix：更灵活地分配视觉权重

不同频率成分对视觉质量的影响不同。
量化矩阵可以让编码器对不同频率使用不同量化强度。

AV2 对 quantization matrix 做了改进，使其更灵活，也支持更细粒度的内容自适应。

TCQ：从逐点量化到路径优化

AV2 还引入了 TCQ（Trellis Coded Quantization）。

普通量化更像是每个系数独立决定量化到哪个 level。
TCQ 则把一串系数的量化选择看成一个路径搜索问题，在码率和失真之间寻找整体更优的结果。

它优化的是经典 rate-distortion 目标：

J = D + λR

其中：

D 表示失真；
R 表示码率；
λ 控制画质和码率之间的权衡。

因此，TCQ 的意义在于，它不只看单个系数的量化误差，而是考虑整组系数编码后的整体代价。

更好的熵编码：用更少比特表达同样信息

熵编码是视频编码流水线的最后一步。

经过预测、变换和量化后，编码器会得到各种符号，例如：

预测模式；
参考帧索引；
运动向量；
非零系数位置；
系数大小和符号；
滤波参数。

熵编码的目标是：

常见符号用更短的码字，少见符号用更长的码字。

AV2 在熵编码和系数编码上也做了多项优化。

PARA：调整概率模型适应速度

现代视频编码依赖概率模型。
如果模型越接近真实符号分布，编码效率就越高。

但视频内容变化很快：有些区域平坦，有些区域复杂；有些帧运动剧烈，有些帧几乎不动。概率模型需要根据上下文不断更新。

AV2 中的 PARA（Probability Adaptation Rate Adjustment） 用来调节概率模型更新速度：

更新太慢：跟不上局部内容变化
更新太快：容易受局部噪声影响
PARA：在稳定性和响应速度之间取得平衡

Parity Hiding：把部分信息“藏”在已有系数中

AV2 使用 Parity Hiding 减少部分系数信令开销。

当一个块中存在足够多非零 AC 系数时，AV2 可以不显式编码某些 parity 信息，而是从其他系数 level 的奇偶性中推导出来。

这类工具单次节省的 bit 很少，但在大量块上累积后，可以带来稳定收益。

FSC：针对特殊残差的系数编码方式

AV2 还引入了 FSC（Forward Skip Coding），主要用于某些 transform skip / identity transform 场景，尤其对屏幕内容编码有帮助。

传统系数扫描方式并不总是适合所有残差分布。FSC 使用更适合这类残差的扫描顺序和上下文建模，从而降低系数编码成本。

AV2 相比 AV1 提升在哪里？

AV2 相比 AV1 的提升不是来自单个“革命性工具”，而是来自多个模块的系统性升级。

可以按编码流水线总结：

编码环节	AV1	AV2 的升级方向
块划分	已支持递归划分	更大的 superblock，更灵活的 ERP、SDP
帧内预测	多种方向和模式	MRLS、IBP、DIP、改进 CfL 等
帧间预测	运动补偿、compound prediction	TIP、OPFL、SMVR、Warp、BAWP 等
变换	多种 transform type	改进 primary transform、secondary transform、CCTX
量化	查表式 q_index 映射	New Quantizer、Quantization Matrix、TCQ
熵编码	上下文概率建模	PARA、Parity Hiding、FSC 等
环路滤波	Deblocking、CDEF、LR	更强的 Deblocking、CCSO、GDF 等

从整体上看，AV2 的技术路线可以概括为三点。

预测更准确

更强的 intra / inter prediction 让编码器能更好地预测当前块内容。预测越准，残差越小，后续编码成本越低。

残差表达更高效

通过更灵活的 transform、secondary transform 和 chroma transform，AV2 可以更好地表达预测误差，让残差能量更集中，更容易量化和编码。

符号编码更省 bit

通过 TCQ、PARA、Parity Hiding、FSC 等工具，AV2 在量化决策和熵编码阶段进一步降低码率。

最终，这些工具共同降低了 rate-distortion cost：

J = D + λR

也就是说，AV2 的目标不是单纯追求更低码率，也不是单纯追求更高画质，而是在码率 R 和失真 D 之间找到更优平衡。

总结

AV2 是 AV1 的下一代开放视频编码标准。它并没有推翻传统混合视频编码框架，而是在 AV1 的基础上继续细化每个关键模块。

它的技术核心可以概括为五个方面：

更强的预测：通过 MRLS、TIP、OPFL、Warp、BAWP 等工具减少预测残差；
更灵活的块划分：通过 ERP、SDP 和更大的 superblock 适配不同区域结构；
更高效的变换：通过 primary transform、secondary transform、CCTX 让残差更容易压缩；
更精细的量化：通过 new quantizer、quantization matrix、TCQ 更好地平衡画质和码率；
更好的熵编码：通过 PARA、Parity Hiding、FSC 减少符号编码开销。

因此，AV2 的压缩效率提升不是来自某个单点创新，而是来自整条编码流水线的系统性优化。

原创文章，作者：ZEGO即构科技，如若转载，请注明出处：https://market-blogs.zego.im/reports-info/3514/