大淘宝技术斩获NTIRE视频增强和超分比赛冠军
涵璋2022-05-06

2022年CVPR NTIRE比赛结果公布,大淘宝音视频算法与基础技术团队表现出色,在视频超分与质量增强比赛的三个赛道获得两个赛道冠军一个赛道亚军。

视频增强和2倍超分冠军

近日,2022年NTIRE视频增强和超分比赛成绩揭晓。在三个赛道中,淘宝音视频算法与基础技术团队取得Track1视频增强赛道冠军、Track2视频2倍超分增强赛道冠军、Track3视频4倍超分增强亚军的成绩。CVPR NTIRE(New Trends in Image Restoration and Enhancement workshop and challenges on image and video processing)是全球图像视频增强方面的顶级竞赛。继在MSU世界编码器比赛夺魁后,团队再次在音视频的核心方向的权威比赛中折桂。

本文提出方法在NTIRE 2022压缩视频超分辨率和质量增强挑战赛的三个赛道表现如表所示。

表 淘宝音视频算法(TaoMC2)在NTIRE 2022挑战赛中的成绩

NTIRE比赛:压缩视频增强超分benchmark

NTIRE压缩视频超分和增强比赛预期建立压缩视频增强和超分的benchmark。比赛采用了包含动物、城市、室内、公园等多种场景的视频,帧率从24fps到60fps,视频精心挑选了4k无明显压缩噪声原视频,所以这些都是为了让视频更接近真实应用场景。

三个赛道分别是:

Track1是针对包括视频编码中(如采用HEVC)的高压缩比带来的失真的视频恢复问题。

Track2Track1的基础上,增加挑战性,要求参赛者同时处理高压缩和2倍超分问题。

Track3Track2的基础上进一步探索4倍超分和增强问题。

Track1的视频增强和Track22倍超分增强已经非常接近实际的应用场景。视频增强和2倍超分目前是工业界均有应用,将视频还原到理想视频的质量能够大幅提升人眼感官,吸引人们更愿意观看视频。

今年的NTIRE比赛视频增强和超分比赛云集了国内外十几支参赛团队,包括腾讯、字节、华为等知名科技企业,中科院、北大、港中文、ETH等科研机构都有参赛,其中很多比赛者都有多年的参赛经验,竞争激烈。

NTIRE本次发布了正式比赛报告:https://arxiv.org/abs/2204.09314

经过激烈的角逐,大淘宝技术的音视频算法与基础技术团队最终取得了两冠一亚的成绩。

团队方法(TaoMC2)在Track1赛道上超第二名0.01dB、第三名0.13dB,且在15个测试集中的9个视频上表现最佳,说明方法具有较好的泛化性。同时,团队方法(TaoMC2)在Track2赛道上超过第二名0.1dB,以绝对优势超出其他队伍,在Track3赛道上仅次于第一名0.01dB。

大淘宝技术内容团队

代表阿里巴巴参加本届NTIRE比赛夺魁的参赛团队,出自大淘宝技术内容团队,负责音视频算法和相关基础技术。

团队同时支持大淘宝内容业务,致力于打造业界领先的音视频体验,尤其是视频画质和流畅度,通过视频编码器S265、视频增强方案STaoVideo,以及媒体处理系统TMPS,为直播和短视频提供核心技术。相关算法技术目前服务于包括直播、逛逛、点淘、首猜等大淘宝业务并可被集团其它业务复用。通过持续的技术打磨和算法创新力求高质量、低成本赋能淘宝内容业务。团队在视频增强STaoVideo方面引入差异化的智美高清和普惠高清算子,分别针对高热视频和大盘视频提升画质并降低转码过程中的算力成本开销。团队既关注人眼主观体验,同时积极探索能够提升客观指标的方法。此次比赛的冠军方案:渐进式训练的两阶段视频恢复方法就是团队同学在日常业务研发中探索出的新方法,并成功应用于此次比赛。

团队负责人认为大淘宝内容业务足够复杂,包含多样化的真实场景,为算法同学提供了持续迭代技术,实时赋能业务,创造价值的舞台,团队亦可籍此沉淀技术领先性。依托当前技术储备,适当投入高水平的国际赛事,对团队来说是一个很好的练兵和面向业界前沿学习和交流的机会。

内容化正在驱动互联网进入新周期,音视频技术是其中重要的技术板块。此次在NTIRE取得出色成绩,是大淘系技术长期以来对音视频领域的持续投入和不断创新的阶段性成果。随着以淘宝直播、逛逛、点淘为代表的内容化业务的发展,内容场和电商场的双重复杂度不断叠加,未来不仅是音视频技术,大淘系技术在多模态、3D XR、认知计算与知识图谱等技术领域的迭代长期都会处在加速状态。

冠军方案:渐进式训练的两阶段视频恢复方法

比赛中,淘宝音视频算法与基础技术团队提出了一种基于循环网络和Transformer的两阶段视频恢复框架。具体来说,第一阶段用于粗恢复视频帧,并减少帧间质量波动。第二阶段对第一阶段的恢复结果进行逐帧精调,可以有效恢复受损严重的区域。这两个模型分别进行训练,以节省内存资源,进一步提高精度。此外,在这两个阶段的训练过程中采用了迁移学习和渐进训练策略,不仅加快了收敛速度,还提高了最终的视频恢复性能。详细介绍参考相关workshop论文(https://arxiv.org/abs/2204.09924)。