在介绍 HDR 的生产流程之前,我们先介绍下视频制作与传输的一些基本知识。
- 内容类型:
- 直播内容( live content) ------所谓的直播内容即没有后处理过程以及创作者意图。分发给用户的信息是实时产生并且实时制作并派发的。常见的应用节目类型包括体育类比赛,新闻等。
- 预先录制内容( pre-recorded content) ------该类内容并不是采集后实时处理并派发的。它们需要进行后期处理,并可能被加入创作者意图, 录制的视频全部制作好之后再将其分发给用户。
- 视频服务类型:
- 实时节目服务------实时节目服务内容包括直播内容和与线路之内容,分发时会将这类内容实时汇集并叠加 logo 等文字图形类信息,然后实时将内容派发到用户。
- 点播服务( VOD) ------点播服务顾名思义是根据用户的需求分发相应的内容,而不是让用户被动式的接受根据节目表分发的内容。
下图为一个传统的 SDR 视频内容制作的基本流程图。图中包括了制作,后期处理、内容分发及多类型发行等过程,同时包含了实时制作和离线制作,包含了卫星、地面广播、广域网、光盘等常见的内容分发途径, 以及 IPTV、电脑、移动设备等终端显示设备。
与 SDR 类似,从 HDR 的拍摄到最终的显示,也包括了拍摄、制作、后期处理、传输、显示等多个环节,是一个端到端的完整系统。
下图所示为兼容 SDR 的 HDR 端到端系统示意图,其描绘了 HDR 制作从输入端到头端显示的整个流程。该制作流程的输入端有三个来源,包括 HDR 摄像机、 SDR 摄像机以及传统的 SDR 内容。 HDR 摄像机采集到的视频为原生 HDR,通常经过简单处理和编码后就可以输送到电视机或者 STB 等进行内容呈现。 SDR 摄像机拍摄的内容直接将其上变换为 HDR 后再进行类似的处理。而对于目前占比非常大的传统的 SDR 视频源,由于其并不像 SDR 摄像机拍摄的原生素材那样保留很多较多的信息,因此其需要更加复杂和精细的处理以获得质量较好的 HDR 片源。该类输入需要使用播出伺服器将其进行映射或者上变换,以获得 HDR 格式的内容。其中, SDR 到 HDR 的上变换过程称为 inverse tonemapping (ITM),会在本书的第七章中详细介绍。 HDR 使用的是 HEVC Main10 编码器,在SDR 编码的基础上对一些参数进行了调整,并对 HDR 进行了专门的优化处理,该部分将会在本书的第三部分分为几章进行详细描述。
1 实现 HDR 的条件
在介绍 HDR 的生产流程前,需要介绍下 HDR 制作的一些前置条件。首先, HDR 使用的拍摄设备与传统的 SDR 设备相比有更高的要求,需要能够达到至少 16.7 档光圈的动态范围,并且支持的色域范围应该远大于 BT.709。其次, HDR 的制作都是基于 10 比特或者 12 比特的,因此 HDR 显示面板至少要支持 10 比特或者 12 比特。
其次,为了能完美再现真实场景,显示面板的动态范围也要至少在 16.7 档光圈以上,并且绝对亮度应大于 1000 尼特,而事实上市面上普通的 LCD 显示面板的绝对亮度一般在 400 尼特左右。超高清联盟提出的" Ultra HD Premium"标准是对 HDR 显示面板的一个认证标准,可以保障消费者更够购买到真正达标的 HDR 设备。在该标准中,对HDR 显示面板做出如下规定:图像分辨率 3840x2160,色深 10 比特,支持 BT.2020 格式的信号输入并且可以再现 DCI-P3 色域的 90%,支持 SMPTE ST2084 电光转换曲线,以及相应的峰值亮度和背光水平(规定共有两种:一种是峰值亮度高于 1000 尼特,背光水平低于 0.05 尼特;另一种是峰值亮度高于 540 尼特,背光水平低于 0.0005 尼特)。
关于内容制作,超高清联盟要求图像分辨率达到 3840x2160,色域深度不小于 10 比特,颜色空间 BT.2020,支持 SMPTE ST2084 EOTF。如果要制作用于制作数字电影发行版的电影的数字电影母版,则需要相应的提高要求。
考虑到目前 HDR 的市场占比仍然非常小,因此在 HDR 的生产流程中兼容到现有的SDR 设备和内容是非常有必要的。这就要求需要从 HDR 的内容制作到内容分发,再到显示端都要考虑到 SDR 的兼容性。
2 HDR 内容制作
该部分开将详细介绍 HDR 生产流程的每一部分。 HDR 的拍摄一节会首先介绍一些HDR 相关的基础知识,以便于对后续内容的理解。其次,该节中会介绍一些 HDR 拍摄常用的设备以及一些 HDR 拍摄的技巧或注意事项。在设备及制作一节中,我们会先对市面上常用的监视器,接着介绍完整的 HDR 内容制作的设备及流程,然后会详细介绍一些在缺少一些高端设备时低成本制作 HDR 视频的实践方案。内容分发会介绍不同的HDR 内容分发方式以及 HDR 传输相关的一些方案。后期制作主要介绍一些调色相关的知识。解码和渲染则主要介绍部分 HDR 显示器以及 HDR 的适配方案等。最后,在兼容性一节中,我们会介绍 HDR 与传统 SDR 的兼容性解决方案、 HDR10 与 HLG10 兼容性解决方案等。
该部分以理论知识讲解为基础,并介绍一些可行的实践方案,旨在提供一些 HDR 内容制作的实践指导。
2.1 拍摄
所谓的 HDR 摄影学主要是通过提升图像的局部对比度,同时将同场景下同时刻不同曝光水平的图像进行叠加以达到同时保持图像亮部和暗部细节的目的。这种方法是最早的 inverse Tone Mapping 方法,主要用于图像,一般手机的照相机中都有 HDR 的功能,其基本原理就是通过多曝光图像的叠加以获得具有 HDR 特性的图像。 HDR 摄影学记录的是 SDR 图像,与 SDR 视频拍摄一样,都将真实场景中的自然光进行了动态范围压缩,该过程中丢失了部分信息,因此在动态范围、色域等方面无法与真实的 HDR 相比。虽然这种方法可以一定程度上提升图像的视觉质量,但有时得到的图像往往不自然,影响视觉体验。
HDR 视频的拍摄则与上述的 HDR 摄影学完全不同。 HDR 视频拍摄的初衷是尽可能真实地记录自然场景,而不对动态范围进行压缩,以便后期制作时有较大的调整余量,也能更加真实地呈现在显示设备上。同时, HDR 视频位深一般为 10 比特或者 12 比特,位深的对图像动态范围和颜色数的提升都有很大帮助。 10 比特可以记录的颜色数可以达到 10241024 1024,而 8 比特的 SDR 可以记录的颜色数仅为 256256 256;而位深为 10 比特的视频的灰阶过渡效果显然要比 8 比特的 SDR 平滑。人眼可察觉的动态范围一般在 0.0001~10000 之间,当使用 HDR 摄像机记录场景,同时显示设备支持 HDR 时,那么就可以在终端真实再现自然场景。
图 5-3 拍摄于显示过程中的动态范围
HDR 摄像机比较多,常用的有 Sony F65、 Sony PMW-F55、 Arri 的 ALEXA 65 等。 HDR摄像机首先必须支持比 BT.709 更广的色域,其次,拍摄的 HDR 素材可以采用 Log 或者RAW 格式记录,能比线性格式保持更多的暗区细节,使得暗区更加深邃,同时保持高光区域的亮度,从而使整体画面更加真实动人。在条件允许的情况下,使用极可能多的比特数记录更多的信息,这样可以为后期处理和调色留下更大的余量。( Polyfill:如果你只有 8 比特的相机,并且想要体验 HDR 的效果,那么你可以外接 Avid DNxHR 或者 AppleProRes 进行处理,以减小多次生成造成的质量退化。因为 DNxHR 和 ProRes 会将这些RAW 格式的序列存储为 Log 格式,同时使用 10 比特的比特深度)。需要注意的是,不同摄像机的动态范围有所不同,有些会在高亮区域分配更多的比特数,但是有些则会在暗区分配更多的比特数,因此可以根据实际的拍摄场景决定相机的使用,或者可以在拍摄时进行光补偿。
HDR 的特点,或者说是优势就是在高光区域和暗部细节的表现力。由于传感器物理特性的限制,所有相机记录曝光度的能力都是有限的,超过该限制则会被截断,不会被记录。因此, HDR 拍摄的关键就是如何根据摄像机的特性,更好的获取并且保持这些区域的信息。如果可能,现场使用 HDR 监视器能够及时的查看真实曝光情况并进行相应的调整。另外,需要注意的是高的对比度带来的噪声放大等问题也要有相应的处理。
2.2 设备及制作
在 HDR 专业制作流程中一般需要使用到专业级的参考显示器(监视器)。 HDR 监视器的价格普遍比较昂贵,在 HDR 相关的测试中使用较多的是 DR-37P,但是市面上比较容易购买到的是 Sony 的 BVM-X300 和 Dolby PRM-4220,两者皆覆盖了 100%的 DCI-P3 颜色空间。其中 BVM-X300 的第二代已经发售,市价在 30 万元人民币左右; Dolby PRM-4220 的分辨率为 1920*1080,屏幕大小为 42 英寸,最大亮度仅为 600nits,市场价为$40000。
如要将拍摄的图像渲染到 HDR 专业监视器上,需要借助一些相应的软件。此处先讲述使用相关软件从拍摄端到最终的渲染到 HDR 专业级监视器上的具体流程。
目前使用较多的是 Davinci Resolve。 DaVinci Resolve Studio 可以将 HDR 和 BT.2020 的标志注入 DeckLink 或 UltraStudio 硬件的 HDMI 输出。使用具有 HDMI 输入功能的 HDR电视机对 HDR 进行分级时,只需将 HDMI 显示器连接起来,切换 DaVinci 设置中的选项,显示屏将自动切换到 HDR 模式:
HDR 专业监视器价格昂贵,加上相应的调色台和配套的商业软件,并不是任何团队和个人能负担得起的。那么,如何在没有 HDR 监视器的情况下仿真出 HDR 视频的效果呢?
如果只有 SDR 显示器,并且不支持 BT.2020 色域,并且想要获得 HDR 的效果,可以考虑在输出上使用 LUT 进行映射。 Davinci Resolve Studio 软件中可以使用多个 LUT,其中一个作用于自身额输出,另一个作用于 HDR 监视器。作为最后的手段,您甚至可以为不同的颜色分级随意附加任意数量的 LUTs。当然,使用 Scratch 或者 Nuke 等相应的颜色分级软件也可以达到你的目的。
一个基本的离线 HDR 生产流程应当如下图所示,包含以下设备: HDR 相机、 HDR监视器、调色台及 HDR 显示器。调色台功能强大,操作方便灵活,同时赋予了调色师最大限度的创作和调整空间。借助调色台和 HDR 监视器,你可以在较短时间内很轻松高效地制作出一个在 HDR 消费级显示器上渲染效果很好的 HDR 视频,有效地避免了不必要的中间产物和繁琐的离线反复调整查看过程。
图 5-4 HDR 与 LDR 平行制作系统
目前市场中很多的 LCD、 OLED 等显示器的最大显示亮度早已突破 100 尼特,有的可以到达 300-400 尼特,部分也已经支持 BT.2020 色域。因此我们可以使用这类高亮度的消费级的 HDR 显示器仿真 HDR 视频的效果。
当既没有调色台,也没有专业级的 HDR 监视器,仅有一些高端或者消费级的 HDR电视机时,可以使用 ATEME TITAN KFE Job Composer 等一类商业级的编辑软件进行 HDR视频的制作。目前该类软件已经能够较好的支持 HDR 视频制作的工作,不仅提供 HDR相关的多种详细的编码参数设置选项,而且也可以选择和调整静态元数据,同时其可以支持 PQ 和 HLG 曲线,并且处理速度也非常可观,
一些开源的工具和软件也可以用于制作 HDR 视频。 HDRTools 是由国际电信联盟电信标准化部门( ITU-T)和 ISO/IEC 提供的开源软件,将 HDR 相关的格式转换、编辑、制作和评价等相关功能集成在一起,可以满足大多数的 HDR 编辑需求。其可以接受的输入序列的格式包括 EXR、 DPX、 TIFF 等,可以进行 YUV 的降采样、位深转换、缩放等,可以进行不同颜色空间的转换及不同并且提供了 mPSNR、 RPSNR、 MS-SSIM、 VIF 及 HDRVQM 等质量评价度量标准。
2.3 后期制作
后期制作一般包括调色、特效制作、声音制作、字幕制作等步骤。 HDR 后期处理的工作流程其实与 SDR 的后期处理差异并不大。
后期调色的第一步是将拿到的素材通过 Gamma 校正进行线性化,然后进行颜色分级处理。颜色分级包括了颜色校正和添加创作者意图,用于改变和增强视频序列的颜色表现。颜色分级通常是调色师根据不同的观看环境进行个人意图的颜色调整,调整的过程是调色师根据自己的经验进行的。当然, ACES( the Academy Color Encoding System)也提出了一个更加统一的工作流程用于指导调色过程,同样可以适用于 HDR 的调色过程。 电影制作中常用的调色系统有达芬奇调色系统、英国 Film Light 公司出品的Baselight Eight 调色系统等。
特效制作是指通过数字影像合成技术制作出现实中不存在的事物或者实现难度很大的场景。特效制作的文件导出格式应当与调完色的拍摄素材使用相同格式,然后与后者进行叠加。
按照其存在方式,字幕一般可以分为三类:硬字幕、外挂字幕和软字幕。硬字幕是将字幕直接烧在视频中,制作完成后不可修改调整。外挂字幕是指将字幕制作成一个单独的文件,后期进行载入并可进行编辑和调整。软字幕则是将外挂字幕和视频一块打包,使用时直接选择即可。
在电影制作中,通常需要发行不同格式和版本的发行片,因此通常会引入一些方便制作的中间格式。 IMF( Interoperable Master Format),可交互模板格式,是一项 SMPTE的媒体文件标准,用于后期发行时输出不同文件格式、分辨率或者音频和字幕等。
DI( digital intermediate):数字中间片指的是将拍摄的电影素材进行素材编辑、色彩调整、 后期合成、特效处理、字幕混合等一系列处理时采用数字化处理,其通常在拍摄完片和放映出片之间,因此被称为数字中间片。
目前常用的 HDR 母版标准主要有 HDR10、 Dolby Vision 和 HLG10。同时,为了考虑兼容性问题,一般需要制作相应的 SDR 版本。这些不同格式的、考虑兼容性的相应版本都需要在后期制作中进行相应的处理。关于兼容性的问题,将会在本章第 6 小节中详细介绍。
2.4 内容分发
后期调色完成后,我们相当于得到了可以用于制作不同应用场景的不同格式的 IMF文件,然后可以进一步制作成适用于影院、广播、电视等不同应用场景的视频文件。然后,将这些文件通过相应的途径分发给相应的用户群体。
一般调色后输出的成品主要包括三中类型:胶片输出、数字电影包( DCP, DigitalCinema Package)。胶片输出主要是用于使用胶片的老电影,但在现在的数字电影时代已经近乎淘汰; DCP 输出是提供给数字影院进行放映的一种数字文件集;根据不同的应用场景,后期的视频输出通常有许多版本,而处理不同版本之间的交互是一个高成本的重复性工作。基于此, SMPTE 提出了 IMF 格式,这是一个通用的标准化的文件格式,相当于所有交互文件的母版。 IMF 的每个包就是以恶文件夹,里边存储量数据流、用于创建不同版本的合成播放列表( CPL, Composition Play Lists)、资源映射( Asset Map)、打包列表以及包含转码参数的 XML 格式的输出配置文件列表( OPL, Output Profiles Lists)。因此,后期可以通过 IMF 转码得到适应不同应用场景的文件格式(不同分辨率、帧率、码率、字幕等)。
下图描述了 IMF 在 HDR 制作流程中的作用。可以使用 IMF 导出 ProRes、 MPEG2、H264、 H265 等多种格式。
图 5-5 IMF 在 DI 流程中的作用_支持 4K 电影制作的新技术
下图所示为可以适用于是是节目服务和点播服务的内容分发流程图,成片制作完成后交付给广播中心或者网络媒体,然后进一步交付给多频道视频内容传输商( MVPD)、OTT 等内容服务运营商,最后通过不同的途径到达用户的终端设备(电视机、机顶盒、电脑、移动设备等)。不同的分发方式对视频的格式以及编码等要求也不尽相同。
图 5-6 HEVC 编码质量与花费
2.5 解码&渲染
HDR 的解码和渲染主要有两种方式。一种是使用支持 HDR 解码功能的 STB,同时将其连接到电视机上;另外一种是直接将将支持 HDR 解码的解码器集成到电视机中,即HDR 电视机。
第一种方法是目前从 SDR 主导的视频生产流程平滑过渡到 HDR 的一种有效解决方案。根据统计显示, 2016 年中国 IPTV 用户总数已经超过 9000 万用户,而 IPTV 服务提供的内容主要是传统的 SDR 内容。如果运营商想要提高用户体验,将部分内容升级到HDR,那么必须要考虑到这些用户的利益。让所有 IPTV 用户直接更换 HDR 电视机,显然是成本巨大并且不宜实行的。因此,在终端使用 STB 实现 SDR 与 HDR 的兼容性可以说是一种成本较低并切实可行的方案。而这里提到的 STB 根据功能又可以分为两类,一类是支持 SDR 转 HDR 的 STB,可以将现有的 SDR 内容通过一定的处理转换为带有 HDR效果的视频,支持 SDR 视频,可以连接 SDR 或者 HDR 电视机。另外一种则是支持 HDR转 SDR 的 STB,支持 HDR 视频,并可以根据显示器类型自动判断是否转为 SDR。 2017年 5 月,由中国电信和中国联通及国内业界领先的多家机顶盒厂商组成的"全 4K 联盟"在上海交通大学电子系图像所进行了业内的第一次 HDR 转 SDR 芯片标准化测试,推动着 IPTV 向 HDR 方向的过渡。
第二种方案比较直接,当然代价比较高,个人用户可以按需选择。
2.6 兼容性
这里提到的 HDR 的兼容性涉及到两方面,一方面是由于 HDR 多标准引起的 HDR 格式兼容性问题,主要有 HDR10、 HLG10 以及 Dolby Vision;另一方面是 SDR 与 HDR 的兼容性问题。
目前,国内应用较多的 HDR 格式为 HDR10 和 Dolby Vision, Dolby Vision 的双层编码方案由于涉及到商业版权及动态元数据等,目前普及程度并不高。 HDR10 与 HLG10 的转换的实质是 PQ 曲线与 HLG 曲线的相互转换, MPEG 已经有相应的解决方案[JCTVCX0049: Conversion between PQ and Hybrid Log-Gamma (HLG)],或者可以参考 ITU 的 BT.2390标准。下图所示为 HLG 与 HDR10 之间的相互转换,有图可以看到, HDR10 与 HLG 的转换可以在内容分发前进行处理,当然也可以直接把这个任务交给 STB 完成。
由于兼容性问题还涉及到 HDR 的编码方案,包括传输时使用 SDR 还是 HDR,是否使用元数据以及使用何种元数据等,都与兼容性相关。因此更多关于兼容性的内容可以参见本书第三部分。
图 5-7 UHD_Forum Master
2.7 显示适配
由于后期处理和调色时,生成的 HDR 内容都是根据参考监视器和相应的参考观看环境制作的。 HDR 监视器可以支持的动态范围更大,可以达到 0.005-4000nits 或者更大,同时支持更宽的色域。显然,普通的 HDR 显示器不管是背光水平还是峰值亮度均不能与 HDR 监视器匹敌,并且用户的观看环境迥异。如果将参考 HDR 监视器制作的内容直接让用户的 HDR 显示器显示,超过动态范围的信息都会发生截断,显然达不到理想的效果。因此, HDR 的显示特征需要相应的调整。
对于 HDR10 的内容,显示适配是通过电-电转换函数( EETF, electrical-electrical transfer function) 实现的。如下图所示, HDR10 格式的视频通常是按照 0 - 10000cd/m2的动态范围制作的,通过将 EETF 曲线的暗区和高亮区域进行非线性压缩,使 EETF 由线性转为 S 型,能够使内容的动态范围映射到 0.01 - 1000cd/m2。这样不仅能够很好的保留创作者的创作意图,同时也能保持图像细节,是一个折衷的解决方案。
图 5-8 显示适配------BT.2390
EETF 与 EOTF 及 OETF 的关系如下图所示。 EETF 处于 OETF 和 EOTF 的中间阶段,而PQ 又是 display-referred,因此可以将 EETF 的映射合并到 PQ 中一块处理。关于 EETF 的计算及相关知识,可以查看 BT.2390 标准。
图 5-9 EETF------BT.2390