抖音作为短视频社区,拥有海量的用户和短视频内容,日活用户规模超过6亿,日均视频搜索次数突破亿,因此多媒体内容处理的成本与体验之间的平衡,不断为我们带来了新的挑战和新的惊喜。
画质对用户影响随着基础设施的提升,5G的到来,可以看到,09-00一年时间5G设备数量翻了8倍多,越来越高的画质诉求,目前我们也在不算的提升分辨率;码率,帧率,位深度,以及支持HDR等视频全链路采集,编辑,播放等等;
下面我将介绍哪些因素会影响高画质,主要从分辨率,位深度,帧率,色域,亮度五个方向展开介绍。
.分辨率=图像细节的精细程度
分辨率指图像中的像素数量。在特定屏幕尺寸下,分辨率越高,像素越多,显示的细节更精细。K超高清分辨率是80x60,这意味着显示的图像数据是标准全高清的四倍。
.位深度=色彩渐变的精细程度位深度指每个像素可以显示的颜色数量。位深度越大,可显示的颜色越多,从而使渐变更平滑、更自然。例如,8位显示器可以显示大约万种颜色,而0位显示器可以显示大约0.7亿种颜色。.帧速率=运动的平滑程度帧速率指一秒内显示的图像数量。电影的帧速率一般是p(张图片,或每秒帧数),而标准电视的帧速率通常是60i或0p(每秒0帧)。8K广播标准BT.00包含帧速率(最高可达0p)的定义,该帧速率下的运动平滑程度几乎和真实世界一样。.色域=色彩的生动程度色域指可以显示的所有颜色的范围。右侧图表显示了人眼能够感知的所有RGB值的范围。三角形表示色域:三角形越大,可以显示的颜色越多。K/8K广播标准BT.00(Rec.00)比现有全高清广播标准BT.(Rec.)涵盖了的颜色范围更广泛。5.亮度=图像照明的强度亮度指可以显示的图像照明强度的范围。人类眼睛所能感知的最暗和最亮物体之间的差异范围(动态范围)通常为0,而传统显示设备最多只能显示0的动态范围。HDR将动态范围扩展到05—比目前的显示设备高出00倍—允许以一种更接近人眼所能感知的方式呈现光与影。抖音端到端全链路抖音端到端全链路路径十分复杂,各个环节都会对画质产生很大的影响;下面我们从安卓端大概梳理一下目前的链路,可以看到我们拿到手机拍摄就要经过sensor进行光电转换,然后电信号经过ISP的处理,这个过程中厂商都会加入很多增强算法,多帧HDR,超分,降噪等等;然后通过安卓的camera,API的采集,一些大的厂商也会提供SDK,我们可以通过这些SDK调用到和系统相机一样的图像处理能力;在经过抖音的生产端业务逻辑,比如特效SDK,增强算法SDK,编辑SDK,上传SDK等等,这里经过了美颜,磨皮等特效算法,以及编辑过程的软硬编解码,还有各类softwaISP的画质增强算法最终传给了服务端;服务端又要经过重重的处理,包括视频的基本信息分析,然后进行增强处理,最后转码成各个档位,通过CDN分发下去,这个过程服务端核心处理就是图像增强算法前处理和转码;下发到消费端有播放器有需要做很多处理,解封装,解码,通过算法增强SDK处理,最终上屏渲染处理,比如HDR,超分等等;可以看到上面整个大致的链路已经十分复杂了,因此对各个环节的画质效果的线下评测就应运而生,我们会通过多媒体实验室进行主客观评测,提前洞悉用户对算法效果的喜好,及时调整画质调试方向,来保证算法能够在上线之前到达最优效果;目前我们已经在抖音整个链路上线了超分,降噪,插帧,HDR等画质增强算法,画质上取得了令人瞩目的收益。画质评测业界痛点目前业界的痛点在于客观指标不能很好的映射到主观质量,举个例子,比如PSNR高的视频画质一定就好吗,不一定,因为PSNR只是一个相对参考的指标,如果视频源的质量很差,PSNR再高也没什么用,另外很多时候我们看PSNR很多时候只是看整体视频所有帧数的均值,但是如果其中某些少数帧出现badcase,比如转场出现大量的马赛克,也是会非常影响用户的主观体验,而这些从PSNR的数值上都不能很好的体现出来,同时如果在服务端经过锐化,超分,降噪,插帧等等一些前处理的算法的话,那么全参考的指标基本无法使用了,综合来看,PSNR等全参考客观指标有很大的局限性;主观质量和用户行为不存在必然正向关系。即使在测试阶段对主观质量有了一定的评估,主观质量的变化首先需要被用户感知或感受之后,才会对用户的行为产生影响,这种影响对单个用户或单次行为可能是非常微小的,比如多看了一个视频或者某个视频多看了几秒,但现阶段学术界对人类视觉系统的运作规律依然知之甚少;再举个举个极端的例子,我们现在大幅提高码率和分辨率,用户的画质必然会变好,但是用户的播放流畅度,耗电量等指标必然无法接受;所以我们需要通过不断的AB实验来观察用户的QoE/QoS指标,从侧面反映及理解用户的真实行为,找到一个最佳的平衡点,就是画质带来的视觉体验的正向收益大于对于用户手机性能带来额外消耗的负向体验,使得整体的业务数据整体呈现正向。QoE指标核心:画质正向其他负向;AB实验的核心QoE指标如下:用户量、内容浏览量、人均播放时长、人均播放量、人均完播数、人均点赞数、多日留存等等。一般在算法开发阶段我们会分三个阶段:算法仿真tuning阶段工程化测试阶段线上AB实验阶段因此线下算法仿真开发阶段,我们会重度依赖主客观质量的评估,来确保算法各方面的效果尽可能的达到最优状态,后面会展开介绍目前我们的算法迭代流程。视频质量评估什么是图像质量?图像信息技术被广泛应用的情况下,对图像质量的评估变成一个广泛而基本的问题。由于图像信息相对于其它信息有着无可比拟的优点,因此对图像信息进行合理处理成为各领域中不可或缺的手段。在图像的获取、处理、传输和记录的过程中,由于成像系统、处理方法、传输介质和记录设备等不完善,加之物体运动、噪声污染等原因,不可避免地带来某些图像失真和降质,这给人们认识客观世界、研究解决问题带来很大的困难。比如,在图像识别中,所采集到的图像质量直接影响识别结果的准确性和可靠性;又如,远程会议和视频点播等系统受传输差错、网络延迟等不利因素影响,都需要在线实时的图像质量监控;因此,图像质量的合理评估具有非常重要的应用价值。对于图像质量有两种定义。定义一:不同成像系统采集,处理,储存,压缩,传输信号的准确度。定义二:符合人眼感知的角度评价图像质量:图像所有视觉上重要属性的加权混合。定义一是从信号处理的角度,