淘宝直播端到端音视频评测方案首次公开
冰心2022-03-11

淘宝直播质量团队建立线下评测体系,覆盖端到端的多网络环境,包括视频和音频多个指标,支持手工及自动化执行。本文将重点介绍部分指标及自动化方案。

背景

4G时代以来音视频技术快速发展和规模化应用,孵化并催化内容短视频,直播,社交通讯,在线教育,远程会议等互联网业态成熟。淘宝通过不断积累演化自身音视频技术体系,支撑并驱动淘宝直播创新性的内容电商消费场景,快速发展给用户带来更好的体验。直播业务音视频用户体验显得尤为重要,质量团队需要进一步思考如何用更接近用户体感的方式来评价音视频质量,并不断演进标准化、多维度、高效率的音视频评价体系。

问题和挑战

早期淘宝直播线上经常有用户反馈模糊,卡顿等问题,为了防止问题遗留到线上,在产品发布上线前需要进行音视频的线下评测。为了更真实的反馈用户的音视频体感,我们希望通过还原用户肉眼观测过程来评价音视频体验。时延、码率、画质、流畅度等体验指标往往是个此消彼长的过程,复杂的调控策略和多样化的网络场景给评测效率和精准性带来了极大的挑战。人工评测方法不旦费时费力,且难以达到标准化测试的要求,因此我们还希望引入自动化方案来进行评测。

端到端线下评测体系

淘宝直播质量团队建立的线下评测体系,覆盖端到端的多网络环境,包括视频和音频多个指标,支持手工及自动化执行。下面重点介绍下部分指标及自动化方案。

音视频评测

视频首帧时长

视频首帧时长是指从用户从点击视频入口的封面开始到视频画面渲染成功的时间间隔。

通常方式是通过监听代码返回的首帧事件减去播放事件的触发时间得到首帧时长,但是实际结果可能与用户主观感受可能有差异。

线下评测方案基于录屏的形式通过评测算法计算返回结果,优点是结果与用户主观感受一致。但难点在于对不同场景的起始画面到首帧画面的识别。进入视频流的场景非常多样,不同打开路径动画、缓存策略、是否有封面图占位等对于识别都会带来不确定性和识差。

在推流时插入SEI帧并使用ocr算法来识别首帧时间是一种可靠的方案,但一方面这这种方案需要预先对视频进行处理,每次操作成本较高;另一方面,对于无法控制被测视频的内容的场景并不适用。

为了兼容识别得到不同场景的起始、首帧画面时间,需要结合多种策略来判断起始位置,目前淘宝直播质量团队自研了一套智能算法能精准计算各种播放场景切换的首帧时长。

端到端时延

端到端时延指从源主机到目的主机的总共时延,在直播过程中每个节点或多或少会产生时延。

在电商场景时延大了可能会影响用户体验和业务效果,尤其在会议和连麦场景用户对延时容忍度更低,根据T-REC-G.114国际标准规定,延时超过150毫秒表示已经开始影响用户体验,用户可以容忍的最高延时是400毫秒。

基于SEI传输的图像编解码时延比较可靠的测试方法,在推流时插入SEI帧,在播放端解码拿到SEI帧与当前系统时钟相减得到时延,但是此方法是侵入式。

无侵入的获取时延方案:

  1. 音频时延测试方法:制造尖锐声音,通过电脑采集两个终端的音频,计算音频峰值差。
  2. 视频时延测试方法:推流终端对准计时器,同拍摄秒表和播放终端画面,获取同步的源时间和播放时间快照,计算时间差。

由于网络及缓冲等引起的卡顿和快播追帧会导致播放过程中时延是动态变化的,因此我们需要获得一段时间内的时延序列值。利用声卡屏蔽环境噪音,结合自动化拍摄拓扑可以程式化拍摄在一段固定时间之后稳定的被测特征视频,获得端到端的图像和音频的时延序列。

清晰度

视频的清晰度是衡量视频质量优劣的重要指标,它能够较好的与人的主观感受相对应,清晰度不高表现出视频图像的模糊。从模糊的物理来源来分析,分为:拍摄失真(运动模糊、对焦模糊、昏暗等)、传输失真(x264、jpeg等压缩模糊)、编辑失真(resize、美颜、滤镜、裁剪等带来的模糊),渲染失真等。

视频质量评价,按有没有人参与的角度,可以分为主观评测和客观评测。

客观评测主要使用数学模型,根据对原始视频参与的程度,又分为全参考、部分参考、无参考模型。其中,全参考评价是目前发展应用最为成熟的部分,多用于评估编码技术的质量和性能效率。无参考质量评测方法因无需额外信息就能直接进行评价,适用于线上监控或不便于控制源输入内容的质量评价,是当前研究热点。

关于主观评测,ITU-R-BT.500,ITU-R-BT.1788和ITU-T-P.910标准,详细的描述了主观评测的环境,设备,素材,人员,流程,结果等细节。因参与人数多,开销大,人的主观疲劳等缺点,主观评测无法高频投入,但其评测结果最接近人主观评价,准确度最高,经常被用来作为客观评价的指导性标注值和质量补充。

考虑到当前客观评价方法的局限性,音视频评测平台从不同需求出发,接入全参考和无参考客观评价算法,以及建立主观评价系统。

全参考评价

有代表性的全参考评价算法,包括PSNR、SSIM、VMAF等。

PSNR是视频处理领域应用最广的性能量化方法,计算复杂度小,实现速度快,数值范围在20~50之间,数值越小表示损失越大,但是局限性很明显,受像素点的影响比较大,与主观评价一致性比较低。

SSIM是一种基于亮度、对比度和结构三个相对独立的主观度量,用于衡量图像间的结构相似度,较PSNR 更符合人眼对图像品质的判断,取值范围0-1,越大质量越好。

VMAF由 Netflix 开发并开源,利用大量的主观数据作为训练集,通过使用机器学习算法(SVM),能得到一个更接近人眼主观感受的评价结果,得分范围在0~100分之间,越大质量越好。如下图所示,VMAF与人眼Mos分匹配度高达90%以上。

全参考评价方法需要提供一个无失真的原始视频,经过对比得到一个对处理后视频的评价结果。音视频评测平台目前支持实时流的全参考评价,通过截取转推实时流地址中的部分时长数据,存储并处理为与源视频同格式视频,进一步做帧对齐处理,从而获取全参考评价算法的两个输入,平台所使用的vmaf算法经淘宝直播训练集训练产出。

无参考评价

在直播场景应用过程中绝大多数为实景拍摄,在无侵入改造的条件下实际上很难获取无损的源视频。因此,无参考评价具有更广泛的适用性,无参考方法无需参考视频,根据视频的自身特征来估算视频的质量。一般常用的传统的客观评价可以用梯度、信息熵、QP等算法,其优点是适应性强,对于任意内容视频也有较高的准确度,缺点是评价维度比较单一。例如QP考虑块效应,信息熵反馈信息复杂程度但对噪声比较敏感,梯度计算相邻元素梯度变化,使用不同算子对不同失真类型敏感度程度不同,都有一定的局限性。

淘宝音视频评测平台接入了多种梯度计算算法,经过多个版本测试,发现在实验条件相对固定(拍摄内容和光源)的情况下,梯度算法和信息熵等评测数值,比较符合主观对于不同端侧清晰度排序的结果。因客观数值能更好的描述图片之间细小的差别,对于清晰度的评价还是有很强的参考意义。

但是,线上直播内容场景众多。淘宝音视频团队将不同编码参数应用于不同视频内容,对重点关注区域做了画质增强。如美妆类关注人脸,服饰类关注色差和纹理,玉石类关注亮度等。现实中每个人对噪声、纹理、色彩、亮度、流畅度等体感是不一样的,综上全参考评价算法或梯度等无参考算法应用上都有一定的适用范围,而目前在无参考评价算法领域,还缺乏类似于有参考评测PSNR,SSIM,VMAF等具备公信力的指标算法。

目前学术界主流的无参考评价算法,是使用深度学习来预测视频的主观质量。淘宝音视频团队自研视频画质评价算法MD-VQA,同时考虑了语义特征和失真特征,通过多层语义信息以及相邻帧语义信息的差异来表征视频语义信息的退化情况。失真特征则考虑了清晰度、噪声、块效应、过曝/欠曝和彩度五个质量相关的不同维度的失真指标,作为视频语义特征的补充。二者结合来评价视频的整体失真情况。目前音视频评测平台已接入MD-VQA算法,结合主观评测及月度版本评测持续观测算法效果。

主观评测

根据ITU标准,主观评测有多种方法,受测者经过一定训练后,在预先安排好的环境中观看待评价视频序列,以主观感受参考事先规定的评价尺度对测试视频序列按视觉效果的优劣进行打分,最后对所有观察者给出的分数进行计算,得到测试视频序列的主观质量评价值。根据实际使用场景,平台主要实现了以下两种评测方法:

方法一:激励比较法(Stimulus-comparison methods),显示两个图像或图像序列,由受试者给出一个指标,表示两个演示之间的关系,根据左右视频播放的整体观感打分,好的打1,不好的打0。在比较两组视频的显著性时候,采用t-test(单样本的t检验)检测方案。

方法二:单刺激法(Single Stimulus Methods, SS),以随机的形式显示多个测试视频,并且对于不同观测者,视频序列的随机显示顺序也不同。受试者观看测试视频后,对其质量进行1到5分的打分。

评分结束后计算每个测试素材平均分数和标准差,以及每个视频样本峰度,根据一定规则剔除打分结果异常的受试者的测试数据,取剩余受试者的打分均值作为视频的MOS分。

以下是主观评测的部分结果展示:

在PC高清直播质量评测项目中,我们的测试集结合开发的特征算法优化采集了多种场景的视频内容,评价画质优化效果。

音频3A综合体验

在推流采集时不可避免会采集到环境或设备噪声,另外扬声器的声音经房间空间反射被麦克风捕捉采集到系统当中,易形成回声,这是一种非常不好的体验。因此在音频编码之前会会经混音消除、降噪、自动增益控制等音频的前处理过程。噪声抑制(AEC,Acoustic Echo Cancelling),将噪声和人声分成2个频道处理,实现噪声抑制,人声增强。回声消除(ANC,Active Noise Control),识别并消除声学、线路回声。增益控制(AGC,Automatic Gain Control),可为输入的音频数据带来明显的质量优化,如提高信噪比,避免输入信号溢出等。音频数据完成回声消除(AEC)与噪声抑制(ANS)的处理后一般会进行AGC。

我们希望有一个客观的评价方法来反馈音视频前置处理的效果。

在对音频进行评测分析前,需要先了解时域图、频域图、语谱图等概念。时域分析与频域分析是对模拟信号的两个观察面。

  1. 时域图:表现的是一段音频在一段时间内音量的变化,其横轴是时间方向,纵轴是振幅方向。
  2. 频谱图:表现的是一段音频在某一时刻各个频率的音量的高低,其横轴是频率方向,纵轴为振幅方向。
  3. 语谱图:先将语音信号作傅里叶变换,然后以横轴为时间,纵轴为频率,用颜色表示幅值即可绘制出语谱图。在一幅图中表示信号的频率、幅度随时间的变化,故也称“时频图”。


我们在音频评测方面目前支持了音频卡顿率,频宽,延时,3A算法,PESQ和主观评测。下面重点介绍一下3A算法(降噪ANS、自动增益AGC、回声消除AEC控制)的评测方法。

噪声抑制ANS

噪声抑制评估主要包括以下几个方面:1)噪声的收敛情况,即噪声是否收敛以及收敛的速度。2)降噪后的音质是否损伤,即音质情况。3)降噪算法的性能消耗情况(如cpu、内存)。

降噪效果评估采用真实噪声场景、稳态噪声(如白噪声、粉红噪声等)、非平稳噪声、噪声变化等不同场景的噪声素材,以尽量覆盖各种噪声场景和分析算法的自适应能力。由于淘宝直播主要的使用场景是人声类场景(主播卖货),我们主要关注降噪后的语音质量。在此,我们使用不同信噪比的音频素材作为测试集,并采用主观评测和客观评测两种方式来评测降噪后音频的质量。客观评测主要采用PESQ(Perceptual evaluation of speech quality)和STOI(Short-Time Objective Intelligibility)两种方式来对比推流前和ANS处理后的音频质量。主观评测主要参考音质增强算法的评估标准(ITU-T P.835,ITU-R BS.1284-2, EBU subjective assessment),采用有源多元算法(不同App)对比,制定打分规则并进行打分。主观评测可以看不同算法的降噪后的效果。

回声消除AEC

在音视频会议或连麦场景中,远端传过来的语音信号经会议设备的扬声器或者音响设备放出后,经房间墙壁等一系列的反射,最后又被麦克风采集并传到远端。这样,远端用户就不仅听到了本地用户讲话的声音,也听到了自己讲话的声音回传,也就是“回声”。

回声消除算法效果评测主要是模拟单讲和双讲的场景下是否有回声,以及回声的收敛效果。将带有特征脉冲序列音频语音作为输入数据集,再利用Audition分析录制的单讲(或双讲)场景下的音频,来判断回声是否收敛和收敛时长。

自动增益AGC

现实场景中,因主播采集设备差异、距离麦克风的距离不同等因素,导致采集到的声音忽大忽小。AGC的主要作用就是平滑这些差异,当输入语音音量过小时,将其适当放大;当输入语音信号音量过大时,则将适当降低幅度,避免削波失真和较差的音频体验。

AGC算法评测主要包括:

  1. 增益的大小和增益的平滑度;
  2. 噪声场景下,AGC是否将噪声放大。AGC测试素材包括大音量音频、小音量音频、噪声音频、以及音量变化音频。将输入和输出的音频做时域对齐,然后分段对比AGC前后幅度计算出平均增益幅度及平滑度。

自动化评测

从生产端到播放端的线下音视频评测自动化方案,包括硬件拓扑装置和软件流程,支持多个音视频指标评测。自动化评测拓扑,包括硬件拓扑和流程控制组件,图中硬件拓扑主要有被测素材自动化,推拉流端自动化,机械臂拍摄自动化,网络控制四部分。

展望

淘宝直播质量团队建立的线下标准化评测体系,覆盖端到端的多网络环境,通过手工、自动化等手段非侵入式的获取首帧/卡顿/帧率/端到端时延/画质/音画同步/音视3A算法评测等多个指标结果。质量团队通过与音视频、直播研发团队的持续评价和优化,不断提升直播音视频观看体验,在今年双11大促大规模用户直播在线下做到了低延时,低卡顿,画质好的更佳体验。

音视频质量评价是一个需要长期持续深耕的项目,后续我们还需要继续探索,如多网络综合体验客观评估mos分与主观评价数据拟合,AR/VR/MR等未来场景特性指标探索支持等等。