针对未来的视频编码标准,提出了一种新的运动矢量表达方法,即Merge mode with MVD(MMVD)。在先前的标准中,两种方法通常用于运动矢量表示。在第一种方法中,运动矢量从相邻块中导出,并直接用于运动补偿(HEVC中的Merge模式),在另一种方法中用MVP和MVD(自适应运动矢量预测;HEVC中为AMVP)表示运动矢量。Merge模式通过节省用于表示运动信息的比特而受益。AMVP表示更精确的运动信息,但它需要用信号发送MVD,这会消耗额外的比特。MMVD为运动矢量精度及其开销之间的权衡提供了折衷的解决方案。MMVD可以通过引入简化的运动向量表示来提高运动向量精度。结果表明,该方法提高了VVC的编码效率,平均节省了0.51%的BD码率。
1. INTRODUCTION
与先前的压缩标准H.264/AVC(高级视频编码)[1]相比,最新的视频压缩标准高效视频编码(HEVC)显示出编码效率的显著提高。得益于HEVC,从全高清(FHD)到超高清(UHD)的视频分辨率广播服务的新市场可能会成为下一代广播标准(如ATSC3.0[2])的主要特征。然而,随着先进显示技术的出现,对各种大型视频内容的需求不断增加,如8K UHD、360度虚拟现实、高动态范围(HDR)和宽色域(WCG)。为了满足这些需求,自2014年以来,已经讨论了支持多种视频内容的新视频编码标准[3]。
最终,ITU-T SG 16 Q.6(VCEG)和ISO/IEC JTC 1/SC 29/WG 11(MPEG)的联合视频专家组(JVET)于2018年开始开发新的视频编码标准,即通用视频编码(VVC)[4]。
大约在同一时间,中国AVS(音频视频标准)工作组启动了另一种新的视频编码标准AVS3[5]的开发,作为先前视频标准AVS2的继任者,AVS2在中国广泛用于4K广播[6]。最后,自2019年1月以来,MPEG正在开发MPEG-5基本视频编码(EVC),以更明确地解决许可问题[7]。
在上述三种标准中,与先前的编码标准(如HEVC和AVS2)相比,已观察到显著的编码性能改进。为了提高编码性能,三种标准化中的一种常见方法是减少帧间冗余及其在信令中的表示。仿射运动模型和几何分割的应用可以是减少基于块的平移运动无法覆盖的冗余的新方法的示例。为了改进运动表示,MMVD模式和扩展的Merge模式可以被认为是已经研究过的节省比特的新工具。
在本文中,我们介绍了一种具有简化表达式的运动矢量编码的新方法,该方法已被上述三种正在开发的视频编码标准所采用。
2. MOTIVATION
2.1 Merge and AMVP modes
在HEVC中,Merge和AMVP模式可以被视为典型的运动向量预测工具,其利用相邻编码块的空间运动相似性来进行运动向量预测。通常,单预测帧的运动信息由运动向量(水平和垂直坐标信息)、参考帧索引和预测方向组成。在双向预测的情况下,要编码的运动信息量加倍。
HEVC中新引入了Merge模式。Merge模式生成由从空间相邻块和时间相邻块收集的运动信息组成的候选列表。仅用信号通知解码器应该用于预测的来自列表的候选的索引。
AMVP模式是为HEVC中的非Merge块设计的。AMVP模式使用更精确的运动向量执行运动补偿预测,这有利于减少残差。然而,由于运动差信息是编码器侧搜索处理的结果,并且不能在解码器侧导出,因此需要用信号通知MVD信息。尽管AMVP模式也使用预测器进行运动矢量编码,但要编码的相应侧运动信息仍然很大,包括预测方向、参考帧索引和运动矢量差(MVD)。
2.2 Motion Vector Inaccuracy of Merge mode
Merge模式的运动信息可能是不准确的,因为它直接从相邻块获得运动信息。相邻块的运动向量可能不是真实的运动,但它可以为速率失真优化提供最佳成本。
在运动参数相似性方面,存在针对HEVC的一系列序列和编码条件的观察结果。根据结果,与具有完全相同运动的先前编码块相邻的块平均占所有像素的40%[8]。其余块具有与相邻块不同的运动参数集。图1显示了2K序列的MVD分布。x轴和y轴的坐标表示AMVP模式下运动向量相对于其运动向量预测器的偏移。大小表示命中率,可以将其视为在相应运动向量偏移处发生的概率。这些MVD应以AMVP模式发出信号。MVD是当前块和相邻块之间的运动差,并且暗示预测精度的不足。这种分布类似于二维高斯分布。大多数MVD位于坐标平面的x轴和y轴上。此分布形状为摄像机拍摄的自然视频序列的特征。此外,更靠近中心的MVD的命中率大于更远离中心的MVDs的命中率。
8K序列的这些差异更明显,因为大分辨率序列的运动通常比小分辨率序列的大得多。因此,运动向量与其对应的预测器之间的差异也变得更大。HEVC中的MVD是用指数Golomb码编码的,占据了比特率的很大一部分。
对于典型运动向量的表示,在下一节中提出了一种新的运动向量表达方法。此表达式为更频繁出现的运动向量生成更短的码字。
3 MERGE MODE WITH MOTION VECTOR DIFFERENCE
在HEVC中,Skip模式也与Merge模式一起定义。Skip模式只是没有任何残差编码的Merge模式,即在Skip模式编码块的运动补偿之后没有重建阶段。以类似的方式,MMVD也可以是Skip模式编码或Merge模式编码。MMVD将额外的新运动向量视为Skip模式或Merge模式的候选。
3.1 Proposed Motion Vector Expression Method
所提出的运动矢量表达方法包括三个部分,即起点、距离和方向。由于运动矢量差也是运动矢量的一种形式,因此它也可以通过所提出的新的运动矢量表达方法来表示。
第一个分量是起点,它被用作进一步细化的绝对运动矢量位置。在MMVD中,用信号通知基本候选索引以指示来自候选列表的Merge候选中的哪一个被用作起点。候选索引的定义如表1所示。
第二个分量是运动向量的大小。该大小是运动向量沿坐标平面的x轴和y轴与起点的距离。预定义的对数缩放距离用于构建MMVD距离列表。如表2所定义的距离索引使用截断一元编码方案进行编码,以缩短频繁出现的距离的码字。
第三个分量是运动向量的方向。如图1所示,大多数MVD沿x轴和y轴分布。因此,仅允许沿x轴和y轴的四个方向。方向索引(如表3所示)将符号分配给相对于起点的MVD的每个分量。它采用固定长度编码方案进行编码。
3.2 MMVD for VVC
本节介绍在VVC的Skip和Merge模式中使用新的运动矢量表达方法。如果用Skip或Merge模式对当前块进行编码,并且如果在当前片中启用了MMVD,则发信号通知MMVD标志以指示MMVD模式是否应用于当前块。运动向量的推导过程基于如下所述使用的基础候选的预测方向而变化。
3.2.1 Uni-prediction
当基本候选是单预测运动向量时,用于MMVD推导的中心位置是基本候选的MV,与基本候选的距离如表2所示,图2显示了可以表达出的各种可能的MV。
3.2.2 Bi-prediction
当基本候选是双预测运动向量时,MMVD应用于具有相同信息的两个参考帧,如图3所示。当当前图片位于时间轴上的两个基准图片帧之间时,可以通过镜像另一个参考帧上MVD的方向来导出一个参考框上的MVD
3.3 MMVD for EVC and AVS3
虽然VVC中的MMVD从Merge候选列表中的基础候选继承预测方向,但EVC中的MMVD另外用信号通知预测方向。每个基础候选有三个可能的预测方向。如果基础候选是单预测的,则通过使用镜像方法导出相反的预测方向。结合两个单预测因子,合成双预测因子作为预测方向的第三候选。如果基础候选是双预测的,则可以将其分为两个单预测因子,用于每个单预测。
AVS3中的MMVD生成其自己的基本候选列表,该列表由相邻块的运动信息组成。其余过程类似于VVC中的MMVD。