近些年随着线上通讯需求的增加,关于线上社交、网课学习、在线娱乐等繁多的应用场景,对于通讯质量的要求不断增加,除了音质、画质、稳定等基本的技术硬实力外,越来越多个性化、精细化的需求加入到实时互动浪潮中来,例如,背景替换与虚拟背景。
以游戏主播为例,主播一边共享自己的游戏画面另一边开启自己的摄像头和观众互动已经成为当今的主流玩法,游戏直播的内容固然重要,但主播和观众良性的互动更能降低观众的流失率,然而游戏主播的直播地点大多都在自己的家中,对隐私保密有着一定要求,通过虚拟背景的更换,一方面可以很好的保护主播隐私,另一方面可以让主播置身于虚拟游戏场景,或者电竞场景,观众端的观感体验也会更加良好。
由此可见,线上通讯浪潮带来需求的增加,提供个性化功能与服务是各平台亟需补足的地方。
共享时空,即构发布主体分割能力
ZEGO 即构科技在本次实时互动 RTI 升级的视频能力提升篇中,正式对外推出主体分割与主体传输能力 —— 使用 AI 能力将画面中的主体从原视频中分割出来,将主体外的视频区域填充 Alpha 信息,编码后在RTC网络中传输,实现视觉上只传输主体的效果。拉流端可以将多个主体渲染到统一的画面或者 3D 虚拟场景中,让观众可以观看到同一画面中不同地区下的人或物的集合。
ZEGO 即构科技发布的主体分割能力为客户端主体分割,具体可以细分为两种:实景分割、绿幕分割。
1 实景分割
实景分割是指将主体从实际场景中分割出来,这种实现方式对于主体所处的环境没有太多的要求,用户可随时随地使用。ZEGO 共选取了机场、客厅、办公室、卧室、火车站、剧院等 40 种场景,数万张室内室外图像作为背景数据,从而避免算法过拟合。
因部署平台对功耗、性能的限制,抠图算法往往需要轻量化。而轻量化后的算法通常只包含极少的参数,泛化性能也会出现不同程度的下降,那么在对连续的视频帧进行抠像时就会受到光照和编码压缩的影响,从而出现闪烁效应。即构采集了大量真实数据,制作了 10万+ 规模数据量的大型视频抠像数据集,包含了各种光照变化、各种码率、各种分辨率的视频数据,从而减少闪烁效应的发生。
ZEGO 使用了大量的视频数据作为背景数据,在训练过程中,随机选择背景和前景主题进行叠加,并通过随机颜色偏移、随机灰度化、随机仿射变化、随机高斯模糊、随机噪声进行数据增强,从而降低真实场景中动态对象对抠图效果的影响。
ZEGO 在算法中参考了前后帧的帧间关系,将一连串的视频时序关系嵌入到算法中,使用上一帧的隐式信息限制下一帧,最终达到主体的出现和消失都具备淡入淡出的效果,极大的提升了视觉体验。
2 绿幕分割
绿幕分割是指将主体从绿幕场景中分离出来。相较于实景分割,用户需要先部署一套绿幕,且有更好的边缘处理效果。
在绿幕分割的过程中我们经常会遇到因无法精确预测主体边缘而导致的绿色溢出问题。绿色溢出可能是因为不合理的打光布置、主体的边界难以处理干净导致绿色残留、主体大幅度快速移动产生运动模糊现象,使绿幕颜色和主体颜色进行叠加。
ZEGO 为了解决上述问题,采用 AI 的方式开发极轻量级的绿幕抠图算法,该算法的模型大小只有 1kb,在骁龙 855 平台上,CPU 耗时 2ms,GPU 耗时 1ms。
为了彻底解决绿色抑制问题,在算法内部插入了专门的绿色抑制模块,动态学习不同绿色溢出颜色到正常颜色的映射关系。同时针对黄色和天蓝色的难处理问题,ZEGO 在算法的训练阶段对图像随机贴上不同程度的这两种颜色的色块,强制算法对这些颜色进行保留。
基于以上策略,ZEGO 的绿幕抠图算法彻底解决了绿色溢出,并对绿幕的打光和平整度有着非常高的容忍力,极大的降低了用户的绿幕使用门槛和成本。
ZEGO 主体分割场景应用
关于主体分割能力,我们可以将它的应用场景划分为四个方向:虚拟背景、混合现实背景、多人在线同场景互动、在线教学。
- 虚拟背景:满足用户单人背景虚化、背景更换的需求。
- 混合现实场景:跨区域用户的线上同台互动,面向企业需求,提升场景的沉浸感,例如:线上发布会、线上年会。
- 多人同场景在线互动:面向泛娱乐用户,打破线上用户的空间界限和距离感,提升实时互动的趣味性。
- 在线教学:企业/高校的培训、线上学习,避免主讲人的矩形视频框遮挡屏幕共享的内容。
ZEGO 即构科技通过自研实景抠图和绿幕算法,实现边缘和色彩表现优异的主体分割处理,并将分割出的主体通过 RTC 网络传输到远端,远端可以直接将多个主体如人像渲染进虚拟的背景或者场景中,实现多人同场景的实时互动,在 720p 的视频上能达到毫秒级的处理速度,快速帮助用户实现线上互动的共享时空!
原创文章,作者:ZEGO即构科技,如若转载,请注明出处:https://market-blogs.zego.im/reports-product/672/