机器视频编码:压缩的必要性

在互联网上看到的所有流量中,超过 82% 是视频流,其中绝大部分是终端用户在智能手机、电视、平板电脑等平面显示器上观看的 2D 视频流。展望未来,预计视频流量的比例将随着新设备、新格式和新模式的出现而增加,包括用于头显的视频、4K 以上的高分辨率内容以及增强了触觉或其他感官信息的沉浸式视频流。要成功部署这些应用,高效的压缩技术必不可少,而 MPEG 标准将在实现这一目标方面发挥关键作用。

虽然上述大部分视频内容都是针对人类消费的,但还有一系列快速增长的应用和用例,人类的眼睛可能永远无法看到,而机器和算法才是其目标消费者。例如,下一代工厂装配线包含多个视频传感器,这些传感器 “监视 ”装配线上经过的物品,并将视频信号发送到中央分析单元,当发现装配线上有未经授权的物品时,中央分析单元就会停止装配线。这些详细而复杂的操作都可以在没有任何人工干预的情况下被感知和处理。

此外,预计到 2026 年底,全球视频监控摄像头的数量预计将达到 10 亿个,这一趋势得益于 AI 算法和模型在解决视觉/感知任务(如接近人类水平的物体识别和跟踪)方面取得的巨大成功,以及能够捕捉和传输视频流的传感器(包括家庭安全摄像头、工厂自动化传感器和物联网设备)的广泛部署。

通常情况下,这些低成本设备缺乏计算资源或电池容量,无法运行视觉任务所需的复杂 AI 模型,因此这些操作通常更适合在边缘计算服务器或云环境中运行。在这个不断发展的生态系统中,出现了对新压缩机制的需求。

为避免歧义,机器视频编码(VCM)指的是两个不同的概念。首先,VCM 指的是压缩视频流供机器使用的高级概念,而该术语的第二种用法指的是满足这些需求的特定 MPEG 方法。本文将探讨这两个术语。

为什么需要机器视频压缩?

随着这些用例越来越普遍,完全可以想象,为机器和算法提供的视频流量总量将与人类消费的视频流量不相上下。一个重要的考虑因素是,算法和人眼所关注的东西截然不同。在前面的装配线示例中,视觉任务只需要帧的部分内容,这些内容可以告知检测到的物体在形状、尺寸或几何上是否有异常,而帧的其余部分则不重要。人眼需要截然不同的信息来理解画面中的内容。通过丢弃这些辅助的、特定于人类的信息,我们需要更少的比特来支持机器任务的成功执行。因此,良好的机器视觉压缩算法和系统将是网络支持这种带宽需求的关键。

在概述的用例中,一个共同的主题是将计算(即运行在视频上的 AI 视觉模型)“卸载”到网络边缘甚至云端的其他实体。凭借这种灵活性,我们可以探索功耗、网络带宽和延迟之间有趣的权衡。

我们可以将这种编码方法分为两种:

  • 首先,我们可以完全卸载视觉任务,比如传感器设备对视频进行编码并传输到远程服务器,远程服务器在解码后的视频上运行 AI 视觉模型。
  • 第二种方法是将 AI 视觉模型分成两部分。一部分在传感器设备上运行,另一部分在远程服务器上运行。这采用了所谓的 “拆分推理”架构,其中涉及中间特征的传输。在这两种情况下,有效压缩从传感器设备到远程服务器的传输数据对于建立可行的网络辅助计算机视觉应用至关重要。

视频和特征编码标准化工作

MPEG 视频工作组正在积极研究这两种方法,以制定新标准。

机器视频编码:压缩的必要性
机器的视频和特征编码图表。来源:InterDigital

机器视频编码

上述第一种方法在 MPEG 中被标准化为机器视频编码 (VCM)。作为一项标准,VCM 可以节省传感器设备的能耗,但与分割推理相比,可能需要更多带宽来传输内容。在这里,视频编解码器可以变得更加高效,因为并非需要视频的所有细节,只有与完成视觉任务相关的信息才会被有选择地编码。

机器特征编码

第二种方法是机器特征编码(FCM),MPEG 也正在对其进行研究和标准化。这种方法会根据目标视觉任务定制特征或中间数据,并将其压缩成小于原始视频数据的比特流,以便通过网络传输。这种方法节省了带宽,但由于在传感器设备上运行部分分割的 AI 模型,因此会产生略高的能源成本。

实际上,根据用例、设备类型、硬件功能、网络环境或任务要求,这两种方法可以互换使用。

机器视频编码的未来

机器视频编码可以应用于行业中已经定义和开发的用例,例如智慧城市、智能交通管理、车联网通信以及互联/智能农业等等。此外,还有一些尚未被预见到的用例即将出现。未来将构建高效、灵活、强大的工具和算法,以便构建和扩展这些应用和生态系统。随着标准制定工作的展开,通过设计标准接口和协议,帮助降低部署这些系统的复杂性,所有这些都有助于支持这些未来工具的广泛部署和最终成功。

原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-baike/2615/

(0)
上一篇 2天前
下一篇 3小时前

相关推荐

发表回复

登录后才能评论