滑大团队打造视频编辑框架,完全无需训练,能自由更换视频背景和修改天气

科技 2024-06-11 17:12 阅读:

对于 AI 视频编辑框架来说,目前主要有“文字生成影像”大模型和“图像生成影像”大模型。

比如,来自 OpenAI 的 Sora 便是一种 T2V 大模型,来自 StabilityAI 的 Stable Video Diffusion 则是一种 I2V 大模型。

但是,人们发现此前依然很难训练同等大小的“影像生成影像”大模型。

一是没有大量成对的资料,二是训练同等级别的模型非常吃运算资源。

因此,如能做出无需训练的视频编辑框架,就能节省大量运算资源和数据,也能为视频编辑带来革命性的进展。

对于以往的 V2V 研究来说,要么非常依赖 T2I 模型,要么需要进行微调。

同时,此前鲜少有人考虑利用视频模型,比如利用 T2V 模型和 I2V 模型的可能性。

由于视频模型使用大量的影片数据进行训练,因此它对影片生成的理解,一定会比图像模型理解得更加深入。

而从创作者的角度来看,仅仅跟从文本提示的要求进行创作,通常无法满足他们成就感。

很多创作者对 AI 感到抗拒的原因在于,他们认为 AI 仅仅使用简单文字就能生成图像和影像,这扼杀了创作者的努力,失去了展示自身技能的空间,更稀释了作品的原创性。

因此,很有必要通过影片编辑来提供精确的控制,从而增强创造上的自由性。

基于此,加拿大滑铁卢大学团队发明了一款名为 AnyV2V 的视频编辑框架,它不仅无需训练,而且能将视频编辑简化为两个主要步骤:

第一步,利用现成的图像编辑模型修改、或手动修改视频的第一帧。

第二步,将修改之后的第一帧图像,输入 I2V 模型之中,从而生成剩下的帧数,同时保留原影片的语义内容。

滑大团队打造视频编辑框架,完全无需训练,能自由更换视频背景和修改天气 第1张

AnyV2V 的原理在于:利用视频模型的空间特征注入机制,就能保留视频中的运动。

即配合空间特征和时域特征的注入机制,能显著增强编辑后视频的背景一致性和整体结构一致性。

这样一来,任何人都能通过简单指令来对视频进行编辑,只需修改一帧图像即可生成剩下的帧数。

AnyV2V 的重要特色在于,把图像编辑和视频编辑融合在一起。

它允许人类与 AI 的努力互相结合,在保持创作者的创意和原创性的同时,更高效地达到预期效果。

同时,由于兼容性比较高,AnyV2V 除能支持一般的文本指令视频编辑之外,还能支持大量新的视频编辑任务,包括风格迁移、指定物件编辑、身份操纵等。

总的来说,AnyV2V 有望成为视频编辑的新范式。

首先,有望用于电影和视频制作。

由于 AnyV2V 能极大地提升制作效率和创作自由度。这让视频制作团队能在没有实际拍摄的情况下,先使用 T2V 模型合成类似影像,再用使 AnyV2V 针对场景进行大幅度修改或重建。

而在真实拍摄的情况下,即使天气不佳或找不到合适的背景,都可以在拍摄之后通过 AnyV2V 来更换背景和修改天气条件,甚至能在视频中修改物品和现有角色。

这样一来,就能有效降低电影制作者的成本,实现传统制作流程所难以实现的视觉效果。

其次,有望用于游戏和虚拟现实。

对于游戏开发者来说,AnyV2V 能创造更加丰富和更具动态感的游戏世界。

它能让游戏中的场景和角色,根据玩家的互动或游戏发展,来进行实时编辑和变化,从而为玩家提供独特的游戏体验。

例如,在一个开放世界的游戏中,玩家的选择将能够影响季节转换、影响建筑风格变化等。

此外,对于虚拟现实设备来说,则可以利用 AnyV2V 来根据用户偏好或用户行为,来实时地定制环境,从而增强沉浸感和个性化体验。

再次,有望用于社交媒体、娱乐和个性化内容创作。

AnyV2V 技术能为普通用户提供新的创作工具,让用户可以将自己的创意,通过视频的形式表达出来,从而无需受限于传统视频编辑软件的复杂操作。

例如,用户可以将自己的视频变成特定风格的艺术作品,或将日常视频转换成具有特殊视觉效果的影片。

与此同时,研究团队发现 AnyV2V 的图像编辑阶段非常灵活,可以由任何图像编辑模型完成,也可以由人类通过传统软件来完成。

对于剩下帧数的生成来说,则可由任何 I2V 模型完成,甚至也能完成指定物件的编辑任务。

这表明 AnyV2V 具有非常大的潜力,是一个具备进化能力的视频编辑范式。

滑大团队打造视频编辑框架,完全无需训练,能自由更换视频背景和修改天气 第2张

日前,相关论文以《AnyV2V:适用于任何视频到视频编辑任务的即插即用框架》为题发在 arXiv[1],加拿大滑铁卢大学硕士生古永丰是第一作者。

图 | 相关论文

此外,AnyV2V 的代码也已经开源 https://github.com/TIGER-AI-Lab/AnyV2V。

滑大团队打造视频编辑框架,完全无需训练,能自由更换视频背景和修改天气 第3张

图 | 古永丰

另据悉,在研究人员的努力之下,目前 AnyV2V 已能进行 128 帧视频的剪辑。

参考资料:

1.https://arxiv.org/pdf/2403.14468

排版:溪树

01/ 上交大-MIT联合团队将膜蛋白变成非膜蛋白,可用于合成生物学和新药研发

02/ 科学家研发微纳生物电子纤维,触碰手指即可读取他人心电信号,可用于智能健康和人机交互

03/ 科学家研发硅光传算处理芯片,实现片间多模复用光互连,可兼容硅光流片工艺

04/ 科学家研发新型共振光声光谱,具有63dB的大动态范围,可用于痕量气体检测和无创医疗诊断

05/ 中科大团队构筑“三电极”光电二极管,频带带宽提升60%,大幅缩小光通信系统体积

滑大团队打造视频编辑框架,完全无需训练,能自由更换视频背景和修改天气 第4张