前言

论文地址:Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation
GitHub:https://github.com/avinashpaliwal/Super-SloMo

super_slomo

基于光流反向变换的框架,整体的结构如图所示:
20230420155215
首先橙色部分使用Unet网络输入$I_{0},I_{1}$,输出$F_{0 \rightarrow 1}, F_{1 \rightarrow 0}$的双向光流。第二个网络也是Unet,但是输入部分和网络输出后需要经过计算得出最后的$I_{t}$。我们着重讲一下第二个网络。

输入部分公式

super_slomo通过第一个橙色网络输出了双向光流$F_{0 \rightarrow 1}, F_{1 \rightarrow 0}$,那么中间流$F_{t \rightarrow 0},F_{t \rightarrow 1}$如何计算呢?
我们可以近似为以下公式:
$$
F_{t \rightarrow 0} = -(1-t)tF_{0 \rightarrow 1}+t^{2}F_{1 \rightarrow 0}
$$
$$
F_{t \rightarrow 0} = (1-t)^{2}F_{0 \rightarrow 1}-t(1-t)F_{1 \rightarrow 0}
$$
其中,$t$代表的是需要插值的中间时刻。

输出部分计算

$$
I_{t} = \alpha_{0} \odot g(I_{0},F_{t \rightarrow 0})+(1- \alpha_{0})\odot g(I_{1},F_{t \rightarrow 1})
$$
其中,$g(\ ,\ )$表示向后warping函数,可以使用双线性插值实现。$\alpha_{0}$控制两张输入图片的贡献。为了解决遮挡问题,论文中提出了可见图的概念$V_{t \leftarrow 0}$和$V_{t \leftarrow 1}$。$V_{t \leftarrow 0}(p) \in [0,1]$表示当从T = 0移动到T = t时,像素p是否保持可见(0被完全遮挡)。由此,我们可以得出新的公式:
$$
I_{t} = \frac{1}{Z} \odot ((1-t)V_{t \leftarrow 0}\odot g(I_{0},F_{t \rightarrow 0})+tV_{t \leftarrow 1}\odot g(I_{1},F_{t \rightarrow 1}))
$$
其中$Z = (1-t)V_{t \rightarrow 0} + tV_{t \rightarrow 1}$为归一化因子。