AI 和流媒体:如何改变编码、质量评估、广告技术和货币化等

面对现实吧!在 ChatGPT 推出之前,我们对完全成型且即时可用的机器学习和 AI 几乎嗤之以鼻,似乎将它们列入规格表更多是出于营销目的,而不是为了指定任何新的甚至增强的功能。虽然某些产品和服务的情况确实如此,但真正有用的流媒体相关 AI/ML 功能的种子早在 2016 年甚至更早之前就已播下,目前正在整个流媒体编码、传输、播放和货币化生态系统中结出硕果。

本文将探讨这些生态系统中 AI 的现状。流媒体专业人士在评估 AI 驱动的解决方案时,通过了解其发展情况和考虑关键问题,可以将 AI 纳入他们的视频处理流程,并为 AI 驱动的视频技术的未来做好准备。

需要说明的是,这里提到的公司和产品是我在研究过程中注意到的,这份清单绝不是详尽无遗的。

让我们从视频预处理开始。

预处理和视频增强

AI 驱动的预处理工具在提高视频质量和降低带宽要求方面取得了长足进步。该领域的两家著名公司是 Digital Harmonic 和 VisualOn。

Digital Harmonic 的 Keyframe(见图 1)是一款既能提高质量又能降低带宽的预处理器。该产品在集成AI之前就已存在,但 AI 增强了它在这两种模式下的性能。Keyframe 声称能在不降低质量的情况下,将比特率最多降低 80%,这是以峰值信噪比和平均意见分数(MOS)来衡量的。它还可以提高原始源之外的视频质量,尽管这引发了关于保留创作意图的疑问。

AI 和流媒体:如何改变编码、质量评估、广告技术和货币化等
图 1. Digital Harmonic 公司的 Keyframe 预处理器宣称可节省比特率

Keyframe 是一个基于 GPU 的 “Bump In The Wire”系统,位于编码器之前的视频链中。它与编解码器无关,因此适用于各种编码设置。不过,在与高性能编码系统配对时,需要考虑其吞吐能力。

VisualOn 的 Optimizer 采用不同的方法,通过 API 直接与编码器集成。它可以逐帧调整比特率和其他参数,以适应内容的复杂性。VisualOn 声称,通过 VMAF(视频多方法评估融合)测量,比特率最多可降低 70%,而不会造成质量损失。有趣的是,尽管降低了比特率,VisualOn 仍然认为其解决方案可以通过减少编码器的工作量来提高可扩展性和吞吐量。

这两种解决方案都展示了在预处理中使用 AI 来显著提高压缩效率和视频质量的潜力。不过,用户应仔细考虑其对创作意图的影响,并进行全面测试,以验证其特定使用案例中的说法。

视频编码中的人工智能

有几家公司正在利用 AI 提高现有编解码器的压缩效率,这些编解码器可以立即部署到现有播放器上。接下来要讨论的另一类产品则是利用 AI 来创建新的编解码器,这些编解码器需要一套自己的兼容设备才能播放。

Harmonic 的 EyeQ 就是第一个用例的典型例子。EyeQ 在实现 AI 之前就已经存在,现在由于采用了 AI 组件,其压缩效率得到了提高。Harmonic 声称,其效率比开源替代方案高出 50%,但该公司并未说明是与哪些编解码器或指标进行比较。EyeQ 的有效性最有说服力的证据是它被 100 多家客户采用。EyeQ 同时提供设备和云服务。

另一家编解码器公司 Visionular 提供 H.264、HEVC 和 AV1 编解码器的 AI 增强实现(见图 2)。其 AI 集成旨在提高压缩效率,声称与相同编解码器的开源实现相比,比特率可降低 50%。Visionular 总裁 Zoe Liu 至少从 2021 年起就开始研究 AI 在视频压缩中的应用,这彰显了公司对这项技术的长期承诺。

AI 和流媒体:如何改变编码、质量评估、广告技术和货币化等
图 2. Visionular利用 AI 改进 H.264、HEVC 和 AV1 。

Media Excel 的 DIVA(动态智能视频自适应)技术利用 AI 实时分析和优化编码设置,在各种编解码器中实现了卓越的视频质量和压缩效率。通过对数万小时的 HEVC 内容进行训练,DIVA 至少提高了 20% 的效率,并正在努力为 H.264 和 VVC 实现类似的改进。

Codec Market 采用不同的方法,提供一个集成的云平台,其中包括编码器、播放器、内容管理系统和 CDN。其 AI 实现在编码过程中使用 VMAF 的高级开源版本 。这可以实现实时内容自适应编码,围绕用户可选的 VMAF 分数达到一致的质量水平。Codec Market 声称其效率比开源替代方案高出 30%。

这些公司正在应用人工智能来提高编码的压缩效率。相比之下,Facebook 正在使用 AI 来确定如何优先考虑任何特定上传文件的编码质量。具体来说,Facebook 采用机器学习模型来预测观看时间并优化编码策略。然后,这些模型会根据预期观看时间对视频进行优先排序,选择最佳编码设置,以最大限度地提高效率和质量。例如,Facebook 使用 MVHQ(每 GB 数据包的高质量视频分钟数)等指标来比较不同编码系列(H.264、VP9 等)的压缩效率。

除了这些进步之外,我们还看到生成式 AI 正在编码器的操作中发挥作用。例如,Telestream 的 Vantage 工作流程设计器允许用户使用纯英语命令创建编码工作流程。虽然这项技术仍处于早期阶段,但它预示着在未来,创建转码工作流程可能不需要深厚的压缩专业知识,只需要一个清晰的提示,详细说明编码源和传输目标即可。

我知道,Brightcove 等公司和许多其他公司在编码方面的 AI/ML 技术也取得了长足的进步,我期待着下一步尝试使用他们的技术。

基于 AI 的编解码器

上一类 AI 实现方法旨在增强与当前播放器兼容的现有编解码器。相比之下,基于 AI 的编解码器则利用人工智能来创建全新的编解码器,这就需要专门的播放器。

走在这项技术前沿的一家公司是 Deep Render,它自称是世界上唯一一家只专注于 AI 编解码器的公司(见图 3)。该公司正在从零开始开发基于 AI 的编解码器,并大胆宣称其效率将比 VVC 高出 45%,计划于 2025 年发布。在播放方面,Deep Render 将利用快速增长的神经处理单元(NPU)装机量。这些是基于 ML 的通用处理设备,从 2017 年开始出现在苹果 iPhone 上,并包含在所有采用较新芯片组的后续产品中。

AI 和流媒体:如何改变编码、质量评估、广告技术和货币化等
图 3. Deep Render 正在开发一套完整的基于 AI 的编解码器。

现有的大多数编解码器都需要专用芯片或 GPU 或 CPU 中的编解码器专用门,这自然会降低技术应用的速度。例如,VVC 硬件播放技术在定型 4 年后仍无法在手机上使用,只能在少数智能电视和 OTT 加密狗上使用。通过利用在其第一个编解码器发布前 8 年多就开始出货的通用 ML 硬件,Deep Render 希望加速其技术在手机和其他 NPU 技术早期采用者中的采用阶段。

尽管 JPEG AI 仍然是一种基于图像的技术,但它利用 ML 提供了卓越的压缩效率和一种紧凑的格式,并针对人类可视化和计算机视觉任务进行了优化。JPEG AI 旨在支持广泛的应用,包括云存储和自动驾驶汽车。它与现有的 JPEG 标准并不向后兼容,尽管它也可以利用 NPU 来加速回放性能。

InterDigital 是一家帮助加速设计基于 AI 的编解码器的公司,它拥有 CompressAI 工具包。CompressAI 是一个开源 PyTorch 库和评估平台,用于端到端压缩研究。它为编解码器开发人员提供了创建全新 AI 编解码器或为现有编解码器添加 AI 组件的工具。CompressAI 包括预训练模型,可与最新方法(包括传统视频压缩标准和学习方法)进行同类比较。同样,Facebook 也开发了 NeuralCompression,一个专注于基于神经网络的数据压缩的开源存储库,提供图像和视频压缩工具。该项目包括熵编码、图像扭曲和速率失真评估模型,有助于推动高效数据压缩方法的发展。

AI 移动图像、音频和数据编码(MPAI)组织也在研究 AI 增强型视频编码。其 MPAI-EVC 项目旨在通过改进或用基于 AI 的工具替换传统工具来大幅提高传统视频编解码器的性能,目标是将性能提高至少 25%。自 HEVC 以来,人们很难对新的视频编解码器感到兴奋。2020 年推出的三种 MPEG 编解码器都没有在大规模部署方面取得重大进展,尽管 LCEVC 似乎一直处于大规模推广的边缘。这种延迟与多种因素有关,包括部署硬件解码器所需的时间,以及主要关注人类的视频播放。

基于 AI 的编解码器可能会通过使用 NPU 而不是专用芯片来打破这一僵局。此外,随着自动驾驶汽车、自动化工厂、安防、交通和其他大量应用中的机器回放视频越来越多,基于 AI 的编解码器可以针对这些用例进行手工制作。这两个因素可能会使 AI 编解码器比传统编解码器更快地发挥作用。

超分辨率和升频

随着 AI 技术的出现,超分辨率和升频技术得到了广泛应用,尤其是在增强传统内容方面。这些技术对于拥有大量需要升级以适应现代 1080p 或 4K 显示器的媒体公司来说非常有价值。

Bitmovin 就是一家提供这种功能的公司,该公司至少从 2020 年起就开始研究 AI 驱动的超级分辨率,并在其方法中结合了专有和开源人工智能实现。将 Bitmovin 的 AI 超级分辨率与 FFmpeg 中的标准双三次缩放方法进行直观比较,可以看出两者在清晰度和整体画质方面存在差异。这种增强功能可能改善观众的体验,尤其是对于最初并非以高清格式制作的内容。其他致力于 AI 驱动的升频技术的公司包括拥有视频 AI 增强器的 Topaz Labs 和拥有 DLSS(深度学习超级采样)技术的 NVIDIA。

用于自适应比特率流优化的 AI

有几种技术在自适应比特率(ABR)播放过程中使用 AI 控制比特率切换,以增强观众的体验。亚马逊的 SODA(平滑度优化动态自适应)控制器和 Bitmovin 的 WISH ABR 是两种著名的方法。这两种方法都旨在根据实时网络条件动态选择下载哪些预编码视频片段,从而优化视频流,但它们采用的方法不同,并具有独特的优势。最重要的是,WISH 可供第三方使用,而 SODA 目前还不能。正如亚马逊白皮书所述,SODA 利用基于平滑在线凸优化(SOCO)的算法,为改善 QoE 提供理论保证。白皮书称,SODA 在亚马逊 Prime Video 中的部署已显示出显著的改进,比特率切换减少了 88.8%,平均流观看时长也有所增加。

WISH 旨在通过优化下载视频片段的选择,提供更流畅的观看体验。它侧重于加权决策,以无缝平衡视频质量、缓冲和比特率切换。

AI 在质量评估中的应用

早在 2016 年,机器学习就通过 VMAF 指标首次应用于质量测量。从那时起,Netflix 一直在稳步推进 VMAF,增加了 4K 和手机模型、用于抵御 VMAF 黑客的无增强增益(NEG)模式以及对比度感知多尺度带状指数(CAMBI)。我希望能尽快看到一个升级版本,那就是支持 HDR 的开源版本。

IMAX 的 ViewerScore 是另一项 AI 增强的质量测量技术,已被产品化以扩展功能。这项技术由 IMAX 收购 SSIMWAVE 发展而来,目前有两种产品: StreamAware 和 StreamSmart。StreamAware 提供实时质量监控和报告,而 StreamSmart 则动态调整编码器设置以优化带宽使用。AI 的集成将 ViewerScore 与人类感知之间的相关性从 90% 提高到 94%,考虑到视频质量评估的主观性,这是非常高的。IMAX 声称,StreamSmart 可以在保持感知质量的同时将比特率降低 15%,甚至更多。ViewerScore 采用 0-100 分制,与 VMAF 相似,但提供了更多的功能,如 HDR 支持、特定设备评估以及比较不同帧速率文件的能力。

字幕和可访问性

AI 正在彻底改变视频流中的字幕和可访问性,开源和专有解决方案都取得了长足的进步。其中一个显著的例子是 Interra Systems 的 BATON Captions,它结合了开源和自主开发的 AI 技术来增强字幕功能(见图 4)。

AI 和流媒体:如何改变编码、质量评估、广告技术和货币化等
图 4. BATON Captions 使用自然语言处理技术提供更好的字幕。

BATON Captions 利用自然语言处理(NLP)来提高字幕的可读性和理解力。AI 将字幕分解成更自然的片段,使观众更容易理解。这一微妙而又有影响力的改进表明,AI 可以提高视频内容的可访问性,而不仅仅是转录。

此外,许多公司正在利用 Whisper(OpenAI 的开源语音转文字技术)为其产品或服务添加字幕。例如,NETINT 和 nanocosmos 提供基于 Whisper 的转录功能,并为其平台量身定制了附加功能。这些举措使所有直播流媒体都能为其制作的节目添加字幕,而在过去,除了最高级别的制作外,其他所有直播流媒体的字幕都过于昂贵。

内容分析和用户体验

AI 极大地增强了视频流媒体的内容分析和用户体验,实现了更个性化、更吸引人的观众互动。Media Distillery 就是该领域的一家公司,它利用 AI 改进了内容分割和主题检测。Media Distillery 的技术可以自动将长篇内容分割成有意义的章节,使观众更容易浏览和找到他们感兴趣的片段。例如,在体育直播中,AI可以识别和标记不同的片段,如自行车、曲棍球或大奖赛,让观众可以快速跳到自己喜欢的部分。这通过提供更多控制和定制功能,改善了整体观看体验。IdeaNova 的 AI 场景检测功能可自动识别视频内容中的不同场景,从而提高导航效率。这让用户可以选择特定场景,而不是依赖基于时间的导航,未来可能应用于内容过滤和场景转换改进。

AI 还广泛应用于内容推荐。通过分析观看模式和偏好,AI 可以向用户推荐相关内容,提高用户参与度和留存率。Netflix 和亚马逊 Prime Video 等公司一直在利用 AI 进行个性化推荐,显著提高用户满意度并让观众持续关注各自的平台。

分析

大多数传统分析软件都注重数据,缺乏可操作的见解。流媒体服务正在通过在分析软件包中添加 AI 来弥补这一不足。Bitmovin Analytics 就是一个例子,它提供会话跟踪和分析工具,帮助识别和解决比特率问题、缓冲和质量下降等问题。该系统基于机器学习提供可操作的建议,为所提供的数据提供上下文信息。

程序化广告和广告技术中的 AI

程序化广告利用 AI 和机器学习来实时自动买卖广告资源,已成为数字广告的基石。AI 在程序化广告的各个方面都发挥着至关重要的作用,可提高效率、目标定位和性能。

其中一个关键领域是实时竞价(RTB), AI 算法通过分析大量数据,在瞬间做出广告投放决策。The Trade Desk 和 MediaMath 等公司利用机器学习来优化竞价策略,同时考虑用户行为、上下文和历史表现等因素。

AI 也在加强程序化广告的创意优化。Celtra 和 Flashtalking 等平台利用机器学习,根据用户数据和性能指标动态调整广告创意,从而提高参与度和转化率。

此外,Moloco 基于 AI 的平台通过利用机器学习确保广告的多样性和准确性,帮助小型流媒体公司优化广告投放,提高观众参与度和留存率。通过整合第一方数据,Moloco 可根据个人偏好定制广告,在印度板球超级联赛期间与 JioCinema 的合作就证明了这一点,当时 Moloco 管理了数千个不同语言和地区的广告活动,大大提高了广告相关性,实现了广告收入的最大化。

在有人类参与的情况下,Operative 等公司正在利用 AI 来简化工作流程并加强决策制定。Operative 的 AI 助理 Adeline 演示了生成式 AI 如何自动生成建议书并加快销售任务。例如,销售代表可以向 Adeline 发送语音信息,说明广告客户、预算、目标 CPM 和活动日期等详细信息。然后, AI 会生成一份完整的建议书,包括适当的库存选择和定价。

结论

我们已经看到 AI 如何改变行业的各个方面,如编码、质量评估、广告技术和货币化。流媒体已经就如何评估 AI 对各种技术的贡献提供了一些建议。除此之外,我还想补充 Media Excel 首席执行官 Rajan Narayanan 提供的一些注意事项。在最近的一次谈话中,他谈到了 Media Excel 在产品中加入 AI 之前考虑的五个要点。其中三点是操作方面的:评估计算开销的成本、对总拥有成本的影响以及对延迟的影响。

最后一点是系统级操作风险,Narayanan 对此描述如下: “任何时候,当你考虑在系统层面实施人工智能并在系统层面管理不同的组件时,你都应该问:’系统是完全可预测的吗?是否会出现可能造成灾难的故障情况?”

这提醒我们,虽然人类并非绝对可靠,但每当你试图用一个高度自动化的系统取代人类时,你最好确保供应商已经考虑过最关键和最潜在的故障点的影响。这将是未来几年管理者越来越频繁地考虑的问题。

否则,正如我在本文开头所强调的,至关重要的是要评估整个产品或服务,而不仅仅是其人工智能组件,以确保其满足你所要求的投资回报率或提供可衡量的效益。随着 AI 的不断发展并更深入地融入视频处理工作流程,牢记这些注意事项将有助于你做出明智的决策并有效利用 AI 的潜力。

作者:Jan Ozer
原文:https://www.streamingmedia.com/Articles/Editorial/Featured-Articles/AI-and-Streaming-Media-165141.aspx

后记:

作为 RTC 领域 TOP 厂商,即构也一直在探索、落地结合 AGI 的远程实时互动。即构 RTC 在实时音视频、高频数据传输能力上的独特优势,能无缝融合新一代多模态大模型技术,为用户带来更自然的实时互动体验。推荐阅读:RTC 将成 AGI 远程实时互动的必备能力

即构在 AI 模拟面试、智能客服、情感陪伴、游戏主播等泛娱乐社交场景,以及在线教育、远程医疗等行业场景,RTC + AI 的实时互动正在展现更多新效益。有兴趣了解的朋友可以联系我们👇

AI 和流媒体:如何改变编码、质量评估、广告技术和货币化等

原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-info/1633/

(0)
上一篇 8月 5, 2024 3:39 上午
下一篇 8月 7, 2024 6:34 上午

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注