研究人员提出了可以提高任何视频质量的人工智能

黎固德
导读 研究人员越来越多地使用人工智能将历史镜头(如阿波罗16号登月和卢米尔兄弟1895年年拍摄的电影《抵达拉乔塔特站的火车》 )转换成高分辨率

研究人员越来越多地使用人工智能将历史镜头(如阿波罗16号登月和卢米尔兄弟1895年年拍摄的电影《抵达拉乔塔特站的火车》 )转换成高分辨率、高帧率的视频,看起来像是用现代设备拍摄的。对于贸易保护主义者来说,这是一个好消息。此外,同样的技术可以应用于安检、电视制作、电影制作等类似的视频。为了简化这一过程,罗切斯特大学、东北大学和普渡大学的研究人员最近提出了一个框架,可以从低帧率和低分辨率视频中生成高分辨率的慢动作视频。他们说,他们的方法——时空视频超分辨率(STVSR)——不仅在质量和质量上优于现有方法,而且比以前的高级人工智能模型快三倍。

在某种程度上,它促进了英伟达在2018年发布的作品,该作品描述了一种可以将慢动作应用于任何视频的人工智能模型——无论视频的帧速率如何。类似的高分辨率技术已经应用于电子游戏领域。去年, 《最终幻想》 的粉丝使用了一款100美元的软件,名为AI千兆像素,来提高《最终幻想VII》 背景的分辨率。

STVSR学习时间插值(即如何在原始帧之间合成不存在的中间视频帧)和空间超分辨率(如何从相应的参考帧及其相邻的支持帧重建高分辨率帧)。此外,由于伴随的卷积长期和短期记忆模型,它可以使用视频上下文和时间对齐从聚集的特征重建帧。

研究人员使用Vimeo的七帧片段的6万多个数据集训练STVSR,并使用单独的评估语料库将它们分为快速运动集、中等运动集和慢速运动集,以测量各种条件下的性能。在实验中,他们发现STVSR在快速移动的视频中取得了"显著"的改进,包括那些具有挑战性动作的视频(例如篮球运动员在球场上快速移动)。此外,它展示了"视觉上有吸引力"的帧重建能力,具有更精确的图像结构和更少的模糊伪像,同时比基线模型小四倍,至少快两倍。

预印论文的合著者写道:"通过这种单阶段设计,我们的网络可以很好地探索任务中时间插值和空间超分辨率之间的内在关系。"它使我们的模型能够自适应地学习使用有用的局部和全局时间上下文来缓解大规模运动问题。大量实验表明,我们的…框架比现有的…网络更有效和高效,所提出的特征时间插值网络和可变形[模型]可以处理非常具有挑战性的快速移动视频。"

标签:

免责声明:本文由用户上传,如有侵权请联系删除!