直播技术的背景和窄带高清技术的相关内容
署名2021-01-11

在疫情的影响下,直播技术从传统的秀场应用逐渐渗透到行业的各个领域。包括在线课堂,旅游,政企,房车销售等等,可以说是全民直播时代已经到来。在这样的一个大背景下,过去一年淘宝直播得以快速发展。2019年,淘宝直播拥有了4亿+的年度用户规模,有100万+年度主播入驻,2000亿+年度直播成交以及4000万+直播商品。春节期间,钉钉在线课堂更是有350万+的教师主播,为1.2亿+中小学生提供了在线课程服务。  

直播痛点分析:在这么大的一个业务体量下,我们将会面对非常多的难点与挑战。总的来说,包含以下三个部分,首先是成本,包括带宽、存储和转码三个方面。其次是用户体验,例如画质,音质,秒开、卡顿和延时。最后是效率方面,例如开播的效率、审核的效率和理解分发的效率。接下来我们就来看一下淘宝在成本和体验优化方面做了哪些工作。  

一、淘宝直播窄带高清技术  

(1)淘宝直播窄带高清  

淘宝直播有三大核心技术,第一大核心技术是端上窄带高清。我们采用HEVC编码实现了720p,25fps,800kbps的压缩,并且PSNR>43db/VMAF>90。端上窄带高清技术主要应用有三个方面:第一是音视频增强,采用基于AI的图像增强、美颜和语音增强来提高生产质量。第二是感知处理,采用信源信道联合自适应编码。第三是S265编码器,S265编码器是业界领先的HEVC编码器。  

第二大核心技术是零转码系统,我们实现了端到端原始流生产的和播放,成功的解决了两个核心的痛点问题:不同网络速度的兼容和不同播放设备的兼容,后者主要通过高性能解码器实现iOS,Android和H5三端的100%解码。  

第三大核心技术是低延时技术,我们实现了端到端秒级延时。主要依靠两个技术,一个是基于RTC的实时直播系统,第二个是S265低延时编码技术。  

(2)淘宝直播系统架构  

如图所示淘宝直播的系统架构,从生产侧来看,有采集、增强、感知处理、S265编码四个环节。云端我们有边缘的接入,有中心接入、切片录制和CDN分发以及边缘分发。在播放端有拥塞控制、解码、渲染和显示。除此之外,在云端还有内容审核,质量监控,内容理解和智能分发。  

(3)端上窄带高清  

生产侧的第一个环节是图像增强,为了提升主观质量,我们引入了图像增强技术,对编码前的视频做去噪、去抖、纹理增强以及美颜、美型的功能。除此以外,在后处理部分,我们还引入了适时超分和HDR技术来提高观看质量。在美颜、美型以及图像处理等方面,我们引入了GPU的技术,包括内存带宽优化、shader优化、Pipeline优化等等以减少GPU的开销。  

针对音质的优化,我们采用了智能降噪技术。无论是在STO还是PESQ的指标上都显著高于传统WebRTC算法,在性能和包大小方面也都可以实现普通设备的覆盖。下面播放的三段音频,分别是原始音频、RTC降噪和阿里降噪音频。原始音频我们可以明显听到马路上车呼啸而过的声音非常强烈。RTC降噪音频中降噪产生了一定的效果,但是汽车飞驰而过的呼啸声还是非常明显。而在阿里降噪音频中,我们可以听到汽车呼啸而过的声音已经基本消失。  

生产的第二个环节是感知处理。我们采用信源信道联合自适应编码技术。感知处理分为5个方面。  

首先是ROI区域的感知,我们基于PixelAI人脸检测加商品检测,对ROI区域进行提取和重点编码。  

第二是场景的感知,不同的场景适合不同的编码参数,我们通过对场景进行分类,对于不同的场景赋予不同的编码参数来提高压缩质量。  

第三个是智能码控CARC,我们采用机器学习的码率控制,对简单场景赋予较低的码率,对复杂的场景赋予较高的码率来实现对带宽的节省。  

第四个是网络带宽的感知,在网络比较好的时候,我们会采用比较高的码率来实现画质的提升,在网络不太好的时候,会降低码率,避免发生带宽拥塞,由于cdn采用峰值收费,峰谷时间段还可以采用不同码率策略。  

最后是设备算力的感知,不同的设备拥有不同的算力,我们可以实时检测设备的算力情况及时调整编码的档次,以此来实现对算力和质量的平衡。  

生产的第三个环节是编码,这又要讲到我们核心的S265编码器,得益于S265编码器的编码压缩技术,我们实现了淘宝直播的720p、800kbs、25fps编码,相比于业界常见的720p1600kbps节省了50%的带宽。钉钉的在线课堂我们更是把码率压缩到了200kbs,并实现了43db以上的质量。S265是淘宝和阿里云共同发起的HEVC编码器,目前已经实现集团内部的开源,并落地在点播、直播会议等各个场景中。相比起业界优秀的HEVC编码器,S265在PSNR指标上有比较大的优势。首先在编码工具提升方面,我们做了大量工作,实现了HierarchyB、GPB、Bi-Search、Longterm、RDOQ、AdaptGOP等编码工具,并且对这些工具进行了大量的算法和速度优化。  

我们还设计了50多种快速算法,比如说Deblock的优化,编码速度对比X265有1倍以上的提速。在工程上的优化,我们做了浮点转定点、位宽的缩减、SIMD的优化、冗余去除、访存效率提升及循环展开等等来提升我们的编码速度。在框架方面,我们还做了线程调度优化等等。在码率控制方面,我们对帧级别码控和块级别码控分别进行了优化,并且对2pass编码进行了原创性的优化来提高2pass编码的质量。在块级别码控中,我们设计了新的CUTree和AQ算法。  

下面来看一下S265的几个典型优化,首先是CU划分决策,我们把CU划分决策模块分成两个步骤,一是纹理强度决策,通过计算CU的纹理梯度来判别平坦块和复杂块,如果是平坦块就直接退出,如果是复杂块就继续向下划分。

第一步可以解决大部分块划分的决策问题,但是对于模棱两可的块,则需要依靠CNN模型来辅助划分。我们使用了一个5层网络的小模型把决策的准确度从72%提升到了96%。  

第二个方面的优化是运动搜索方面的优化。运动搜索是从参考帧寻找最佳匹配块的过程,包含整像素搜索和分像素搜索,分像素需要做7抽头或8抽头插值滤波,计算量大;整像素搜索已经有比较多的快速算法,比如菱形搜索、六边形搜索及分层搜索,但分像素搜索一直没有什么好的方法。比如在图中矩形的整像素周围,分布着60个分像素点,如果要对分像素点进行全部搜索的话,需要60次,经过优化之后一般需要搜4个、8个或16个点,但搜索次数还是比较多的。  

我们采用一个二元二次误差平面方程,用9个整像素点的预测误差来求解方程的5个系数,再对方程求偏导,可得到最佳分像素点的位置。只需对这个最佳分像素点计算1个1/4差值,就可以完成我们的搜索过程。这个技术在编码器的整个提速有12%,但bd-PSNR只有-0.016db。这些成果在VCIP2016上可以看到。  

第三个是我们的码率控制。ABR是较适合直播的一种码率控制方法。但HM中基于模型的码率控制方法没有考虑图像块与块之间的参考强度,有些块会被后续帧参考有些不会,应该根据一个块被参考的强度来决定它的量化系数。x265,x264中引入了MB-Tree技术,但是由于帧的QP定制不合理,编码效率不高且码控准确度比较差,我们测过平均只有90%左右。  

我们根据“每1个bit被分配到任何一个CU,产生的边际价值都相同”这样一个原则,对MB-Tree方法进行了理论创新,使得编码精度提升到了97%,且编码质量提升了0.65db,对应17%的码率节省。  

这里有包含三个技术,第1个,I帧的QP推导,x265使用了一个经验值,没有考虑到视频本身的特性,这样做很不合理,我们用预分析中低分辨率图像的复杂度和目标码率,经过多次迭代搜索得到准确的QP;  

第2个,随着时间的推移,历史帧的复权重越来越高,新产生的帧权重越来越低,导致其不能很快的响应复杂度的变化,我们根据新产生的帧的参考强度计算出一个QP,跟原来的QP做加权得到真正的QP,可以及时的反应新产生帧及其后续帧的复杂度;  

第3个,x265采用基于Viterb的P帧决策方法,每个帧都需要跟历史帧比较,复杂度很高,并在判决P帧时没有考虑QP的影响,准确率也不高。我们的算法只需要计算相邻帧的变化率,并引入QP来作为判决阈值,大幅降低了计算复杂度并提高了准确度。  

第四点我们来看一下S265智能码控技术(CARC)。ABR追求码率控制的精准度,但是它忽略了场景的平均复杂度。如果设定一个统一的码率目标,简单的场景会出现码率过剩,复杂场景会出现码率不足。  

另一个方面,人眼对失真的敏感度存在衰减效应,高于一定阈值敏感度下降,此时存在码率过剩。我们采用一个CNN模型对场景进行分类,计算出场景的复杂度因子,根据复杂度因子调节编码码率,可消除简单场景下的码率过剩(>42db),并提高复杂场景的质量。  

平均下来,我们可以节省15-30%的码率,以钉钉在线课堂为例,大部分时间画面是静止或慢速运动的,少数时间会播放教学影片,CARC可以保证播放影片时的质量,同时在静止场景节省大量码字,经过后台统计,钉钉在线课堂720p码率在200kps,且PSNR保持在43db以上。  

最后,我们还有一个画质评价环节。业界常见的客观评价指标有PSNR,SSIM,VMAF,但这些指标只适合于有源场景;但淘宝内容存在大量的无源场景,比如商家上传的视频,手机硬编码的直播视频,这样的视频,都没有参考对象。针对这种场景,我们训练了基于CNN的VQA无源评价模型来对视频图像的质量进行评价,并实现对大盘质量的监控,此外,为了指导线下开发,我们还有一个主观评价系统。  

接下来让我对淘宝的S265编码器做一个简单的总结。MSU国际编码器大赛是大家所熟知的一个比赛。在去年的比 赛中有100个序列,同时有1080p和4k两种测试,有3种速度档次,还包括主观和客观测试。我们用S265对MSU20191080p的测试序列进行了测试,我们的PSNR的指标三个档次上平均节约了42.1%的码率,对比2019年第一名是37.3%,说明S265的PSNR指标在业界领先。下面的两张图片,左边是X265的结果,右边是S265的结果,S265在主观质量上也有比较大的提升。