VVC的 MIP 模式代表了通过数据驱动方法设计的帧内预测器的新概念。整个MIP过程的概述如图6所示。W和H表示给定块的宽度和高度,MIP的输入由直接位于块上方的W个参考样本refT和直接位于块左侧的H个参考样本refL组成。从这个输入中,MIP帧内预测样本是通过应用平均化、矩阵矢量乘法和线性插值来生成的。
给定变换块上支持的MIP模式的数目nMIP对于mipSizeId=0为16,对于mipSize Id=1为8,对于mipSizeId=2为6。这里,对于4×4个块,mipSizeId设置为0,对于8×8个块和正好具有长度为4的一侧的块,mipSizeId设置为1,对于所有其他块,设置为2。每个MIP模式可以被转置,这是由标志mipTranspose确定的。
1) Averaging
在平均步骤中,上边界样本refT和左边界样本refL被减少到较小的边界redT和redL,对于4×4个块,boundarySize=2,对于所有其他块,boundarySize=4。如果W=boundarySize·2n,则redT定义为:
\(\operatorname{redT}[i]=(\sum_{j=0}^{2^n-1}\operatorname{refT}[2^n\cdot i+j]+(1\ll(n-1)))\gg n,\)
其中0≤i<boundarySize。类似地定义了左简化边界redL。两个边界redT和redL连接到单个简化边界pTemp。这里,如果模式没有转置,则先取redT,否则先取redL。为了减小其对于典型信号特征的幅度,pTemp被转换为一个向量通过
\(\text{p}[0]=2^{B-1}-\text{pTemp}[0];\quad\text{p}[i]=\text{pTemp}[i]-\text{pTemp}[0],\)
其中B表示比特深度,0<i<2·boundarySize。
2) Matrix Vector Multiplication
在第二步中,在缩减边界之外,通过矩阵向量多重叠加生成大小为predSize·predSize的缩减预测信号predMip,如果mipSizeId(W, H)∈{0,1},predSize(W, H))=4,否则predSize(W, H)=8。对于第k个MIP预测模式,0≤k<nMIP,计算(9)
\(\text{predMip}=(A_k\cdot\text{p+32}\cdot1)\gg6+\text{pTemp}[0]\cdot1.\)
在这个等式中,Ak是一个矩阵,其行数为predSize·predSize,列数等于p的大小。此外,“·”表示矩阵向量乘法,1表示大小为predSize.predSize的一个矩阵的向量,并且按元素应用右移。之后,对predMip的分量应用范围[0,2B−1)的clip。
如果水平和垂直上采样因子被设置为 upHor=W/predSize并且upVer=H/predSize,则信号predMip分别在块的每个upHor和upVer采样位置定义最终预测信号pred。更准确地说,如果 0≤x<predSize 和 0≤y<predSze,对于mipTranspose=0,pred定义为:
\(\begin{aligned}\text{pred}[(x+1)\cdot\text{upHor}-1,(y+1)\cdot\text{upVer}-1]\\=\text{predMip}[y\cdot\text{predSize }+x].\end{aligned}\)
对于mipTranspose=1,pred是通过交换最后一个方程右侧的x和y来定义的。
3) Linear Interpolation
在最后一个步骤中,在剩余的样本位置,通过线性插值导出pred的值,其中首先执行水平插值,然后执行垂直插值。这里,对于水平插值,通过参考样本将预测扩展到左侧。
4) Specification of the MIP Matrices
(9)中出现的每个矩阵Ak由 mipSizeId 和 MIP 模式 k 唯一地确定。其条目可以使用7位精度来表示。此外,对于mipSizeId=2,每个Ak的第一列是零,因为对应的MIP模式将恒定边界信号映射到相同值的恒定预测信号。因此,总的来说,为MIP指定了16个大小为16×4的矩阵,用于mipSizeId=0,8个大小为16*8的矩阵,用作mipSizeId=1,以及6个大小为64×7的矩阵,用来mipSizeId=2。
5) Computational Complexity and Memory Requirement of MIP
生成MIP预测所需的每个样本的平均乘法次数最多为四次,因此不大于VVC的传统帧内预测模式。因此,可以观察到,尽管MIP用于超过20%的帧内块,但不会产生任何解码器运行时开销。此外,根据前一节,存储所有MIP矩阵Ak的条目的总存储器需求为4144字节。
6) MIP as a Video-Coding Tool Designed by Data-Driven Methods
VVC中MIP模式的最终设计可以被视为最初提出的基于神经网络的帧内预测模式的低复杂度变体。虽然数据驱动训练算法的关键方面也被用于确定矩阵Ak的参数,但最终用于VVC的设计代表了与初始变体不同的增益复杂度权衡的操作点。复杂度降低的中心步骤是预测的输入的下采样和输出的上采样。通过这种方式,矩阵的大小可以显著减小,并且相同的矩阵可以用于不同的块形状。