新编码场景的挑战:对感知视频质量测量的思考

在视频技术不断发展的今天,新的编码方案给准确测量感知视频质量带来了一系列新的挑战。准确的质量测量对评估至关重要,对优化更是如此,它能让我们充分挖掘这些先进方案的潜力。

作者:Fabio Sonnati,NTT Data 首席媒体架构师、编码和流媒体专家
原文:https://www.streamingmedia.com/Articles/Post/Blog/Challenges-of-New-Encoding-Scenarios-Reflections-on-Measuring-Perceived-Quality-166721.aspx

现代编解码器的发展和 AI 的集成为视频压缩和质量增强方面的重大进步铺平了道路。然而,目前用于评估质量的传统指标(如 VMAF)可能无法满足这些创新方法的要求。

现代和未来编解码器中胶片颗粒合成和 AI 的兴起

AV1、VVC 和 LCEVC 等现代编解码器处于当前视频压缩技术变革的前沿。它们最显著的特点之一是原生支持胶片颗粒合成(FGS)。胶片颗粒和传感器噪声这些元素为视频内容增添了一种自然的电影感,它们无处不在,但从历史上看,压缩它们一直具有挑战性。传统方法很难在不大幅提高比特率的情况下保持胶片颗粒的质量。这对 H.264 和 H.265 等编解码器来说尤其具有挑战性,因为它们不支持标准的 FGS。在这种情况下,必须将颗粒和噪声作为高频细节处理,并使用运动估计、补偿和块编码进行处理——就像图像的其他运动或静态部分一样。有效处理这些元素是一项复杂的任务。

FGS 背后的创新方法是在播放过程中通过算法生成胶片颗粒,而不是试图对其进行压缩。其原理是在压缩过程中测量并移除颗粒,然后在播放过程中通过算法重新引入颗粒,只传输用于重建的低成本参数。

这种方法大大减少了所需的信息量,从而可以用最少的数据传输获得高质量的胶片颗粒。压缩效率的飞跃“将”改变新编解码器的游戏规则,也是推动新编解码器采用的原因之一。我说“将”是因为,由于上述质量评估问题,目前它尚未得到广泛使用。

从感知上讲,颗粒的重建非常令人愉悦,几乎看不出与原始图像有什么区别,但从像素上看,高频信号与原始信号有很大不同,这就导致在 PSNR、SSIM 等全参考指标中对质量的低估,VMAF 也在一定程度上如此。

事实上,当涉及到颗粒保留时,VMAF 并不完全可靠,因此目前很难在编解码器或编码管道调整期间指导优化工作,因为它需要大量且缓慢的主观评估。

在使用这一指标的多年经验中,出现了一些弱点,特别是对带状和颗粒保留不敏感。

在图 1 中,您可以看到 Netflix 使用 AV1 时产生的过度压缩示例。请注意,我们说的是不含 FGS 的基本 AV1,Netflix 尚未使用。图片中的 AV1 和 HEVC 的目标 VMAF 均为 ~94,但 AV1 的最终结果却存在带状现象,高频和颗粒被大量消除。总体而言,AV1 编码似乎有一种塑料感:边缘锐利但没有颗粒感,并且出现了带状。如果 VMAF 无法评估适当的颗粒保留,那么它又如何评估 FGS 的情况呢?我们肯定需要一种更可靠的方法来评估这些情况。

新编码场景的挑战:对感知视频质量测量的思考
图 1.Netflix 使用 AV1 产生的过度压缩

AI 视频质量增强和基于 AI 的编解码器

另一个变革性的发展是使用 AI 模型来提高视频质量。这些 AI 模型的工作原理是纠正伪影、增加复杂细节、明显提高分辨率或全面提升超分辨率。这不仅能改善视觉体验,最终还能提高编码效率。在保持甚至减少数据要求的同时提高感知质量的能力是视频技术的重大突破。

然而,这些进步同样也带来了质量评估的复杂性。目前的完全参考指标(如 VMAF)旨在衡量相对于原始源视频的质量。当 AI 增强技术引入新的细节、纠正伪影(如带状)或调节颗粒时,这些指标可能无法准确反映视觉质量的改善。事实上,它们甚至可能表明由于与原始源的“距离”而导致质量下降。例如,如果 AI 减少了原始信号源中最终存在的带状纹理,或增强了消失的纹理,那么它就引入了一些 “新 ”的东西,传统的全参考指标会将其识别为编码退化/失真,即使从感知上讲,这是一种改进。

新编码场景的挑战:对感知视频质量测量的思考
图2

在图 2 中,左边是原始图片(A),右边是增强后的图片(B)。以给定的比特率对两者进行编码后,与 A 相比,我们从 B 开始会得到更高质量的结果,但如果我们用全参考指标来衡量与源相比质量下降的程度,我们可能会得出截然不同的结论。

新编码场景的挑战:对感知视频质量测量的思考
图 3. AI 增强和 DNN 超分辨率图片

在图 3 中,还有其他 AI 增强和深度神经网络(DNN)超分辨率的例子,它们可以引入或更好地 “演化 ”细节,提高表观分辨率和细节感。但同样,要可靠地评估这些改进,我们需要更多“绝对”指标,能够以绝对尺度评估质量,而不是从源头评估质量的退化程度。

未来混合或纯 AI 编解码器的场景将更加复杂,这对质量评估和编解码器微调提出了新的挑战,因为这些编解码器将具有全新类型的伪影和失真,并且可能使用生成技术以非常低的比特率创建逼真的纹理和特征,这些特征将牺牲保真度来换取愉悦感和可能性。

需要新的质量指标

VMAF 是当今流行且广泛使用的指标。它基于与预测质量得分相关的四个基本指标,使用支持向量回归器 (SVR) 通过绝对评分 (ASR) 方法收集的主观质量分数进行训练。最后一个细节表明,该指标在预测质量方面具有一定程度的灵活性,虽然它在许多应用中都取得了成功,但也存在一些局限性,可能会影响其在特定场景中的有效性。

下面总结了 VMAF 的一些主要局限性:

  • 它是一个全参考指标,这意味着它需要访问原始的、未压缩的源视频,以便与编码视频进行比较。在某些情况下,这可能是一个限制。
  • 它是通过“标准”观看条件下收集的主观数据进行评估的;它缺乏更合理/更苛刻的模型来拦截细微或新出现的伪影。
  • VMAF 虽然很复杂,但可能无法始终准确捕捉所有类型的视频伪影。例如,它在检测诸如带状、阻塞或噪音等特定问题方面一直存在困难,这些问题可能不会对 VMAF 得分产生重大影响,但观众在感知上是可以察觉到的。
  • 它旨在评估传统的压缩伪影,可能不太适合引入新类型视觉变化的现代编码技术。例如,随着 AI 增强的视频质量改进和胶片颗粒合成的出现,VMAF 可能无法正确评估这些增强,甚至可能将其作为退化进行惩罚。
  • VMAF 通常测量源视频的保真度,这并不总是与感知质量同义。现代视频增强技术(如 AI 驱动的超分辨率)可以通过添加细节或校正伪影来提高感知质量,但它们可能会降低原始源的保真度。VMAF 可能无法恰当地反映这些改进,有时甚至会显示较低的质量分数,尽管感知有所增强。

为了解决这些问题,需要能够提供更“绝对”质量分数的客观指标。此类指标应评估视频的整体感知愉悦度,而不仅仅是对源的保真度。这样可以更准确地评估现代编解码器、FGS 和 AI 增强功能带来的质量改进。

我正在尝试的一个很有前途的工具 IMAX NR-XVS(以前称为 SSIMwave SVS,现在是 IMAX StreamAware | ON-DEMAND 套件的一部分)。NR-XVS 是一种无参考指标,无需访问源视频即可估计视频序列的感知质量。它利用 DNN 在绝对 0-100 质量等级上逐帧将视频特征与主观分数关联起来。

在实践中,XVS 表现出了良好的灵敏度和线性度,使其成为在传统指标不足的情况下评估视频质量的可靠工具。在使用 XVS 评估无参考场景中的视频质量之前,我研究了该指标在不同分辨率、比特率或恒定速率因子 (CRF) 下测量 x264 和 x265 编码片段的响应和线性度。统计分布如图 4 所示。

新编码场景的挑战:对感知视频质量测量的思考
图4.SVS统计分布

该指标与比特率和 CRF 的增加呈线性比例关系,与主观评分一致。当应用于图 1 的案例时,XVS 能够识别出 Netflix AV1(以及某种程度上的 HEVC)的颗粒感和塑料感。例如,与 Amazon Prime(HEVC)压缩的相同内容相比,显示出超过 3 个 XVS 点的差异,接近于 JND(Just Noticeable Difference)。

总体而言,该指标对带状的存在、较差的高频域以及适当的边缘和运动重建很敏感。它并不完美,但前景光明,底层模型将来将能够评估多种设备类型的质量。

探索混合质量评估方法

虽然 XVS 和类似的无参考指标显示出巨大的潜力,但也需要结合无参考指标和全参考指标的混合方法。这可以提供更全面的质量评估,在感官愉悦度和来源保真度之间取得平衡。例如,同时考虑绝对质量和相对质量的加权分数可以提供对视频质量更细致入微的理解。

YouTube 的 UGC 无参考质量评估指标等项目试图解决这些难题,但它们往往缺乏 OTT 流媒体服务对高质量要求所需的准确性和线性度。因此,开发和采用可靠的无参考指标或混合系统对于优化新的编解码器至关重要,尤其是在涉及胶片颗粒合成和 AI 增强的情况下。

IMAX 采用类似的混合方法提出了 FR XVS 指标。它是一种全参考指标,但与逻辑上类似于 VMAF 的 “传统 ”EPS 不同,FR XVS 同时考虑了源质量(NR XVS)和编码器性能(EPS),并考虑了编码过程中的信息损失。这就在模型中结合了信号源质量、全参考质量 EPS 和心理视觉效果。

结论

在现代编解码器和 AI 技术进步的推动下,视频编码领域正在迅速发展。这些创新为提高压缩效率和视觉质量提供了巨大的机遇。然而,它们也给测量感知质量带来了新的挑战。

虽然 VMAF 一直是评估视频质量的重要工具,但其局限性凸显了对补充指标或开发新评估方法的需求。这些新指标应能解决 VMAF 的不足之处,尤其是在现代视频编码场景中结合 AI 和其他先进技术的情况下。为了达到最佳效果,可能有必要将 VMAF 和其他指标(包括全参考和无参考指标)结合起来,以便在各种应用中对视频质量进行全面、准确的评估。

原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-technique/1898/

(0)
上一篇 11月 4, 2024 11:09 上午
下一篇 11月 6, 2024 10:00 上午

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注