视频插帧之DVF
前言
2017年的视频插帧算法,使用的是类似于Unet的网络模型。整体结构比较简单,适合对视频插帧领域入门学习。
论文地址:Video Frame Synthesis using Deep Voxel Flow
项目主页: https://liuziwei7.github.io/projects/VoxelFlow
github代码:Pytorch版本
TensorFlow版本
DVF
传统的基于光流的解决方案往往在流量估计具有挑战性的情况下失败,而直接产生像素值的基于神经网络的方法往往会产生模糊的结果。DVF结合这两种方法的优点,该方法可以通过以连续三帧图像作为训练数据,以1,3帧作为输入,中间第二帧作为输出无监督训练网络。训练好的模型可以通过连续两帧图像直接生成中间图像(也可以生成两帧外的图像,即外插帧)。
模型pipeline
算法首先通过两张连续图片作为输入,通过卷积层和max pooling层多次encoder,再通过多次反卷积还原图像维度(很想unet的结构)。此时输出的时两张图像的体素流数据voxel flow layer,是一种3D的时空光流向量(其实个人认为就是光流估计中间流数据加上时间维度数据的变形)。紫色部分使用体素流和三线性插值方法对两张原始图像进行还原输出中间帧。
体素流和三线性插值方法可参考本博客中的文章。
论文中还介绍了一种多尺度的插值方法,可以自己去看。
参考
Video Frame Synthesis using Deep Voxel Flow
https://zhuanlan.zhihu.com/p/404590100
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 LP瞎逼逼!
评论