滑大团队打造视频编辑框架，完全无需训练，能自由更换视频背景和修改天气-金财在线

对于 AI 视频编辑框架来说，目前主要有“文字生成影像”大模型和“图像生成影像”大模型。

比如，来自 OpenAI 的 Sora 便是一种 T2V 大模型，来自 StabilityAI 的 Stable Video Diffusion 则是一种 I2V 大模型。

但是，人们发现此前依然很难训练同等大小的“影像生成影像”大模型。

一是没有大量成对的资料，二是训练同等级别的模型非常吃运算资源。

因此，如能做出无需训练的视频编辑框架，就能节省大量运算资源和数据，也能为视频编辑带来革命性的进展。

对于以往的 V2V 研究来说，要么非常依赖 T2I 模型，要么需要进行微调。

同时，此前鲜少有人考虑利用视频模型，比如利用 T2V 模型和 I2V 模型的可能性。

由于视频模型使用大量的影片数据进行训练，因此它对影片生成的理解，一定会比图像模型理解得更加深入。

而从创作者的角度来看，仅仅跟从文本提示的要求进行创作，通常无法满足他们成就感。

很多创作者对 AI 感到抗拒的原因在于，他们认为 AI 仅仅使用简单文字就能生成图像和影像，这扼杀了创作者的努力，失去了展示自身技能的空间，更稀释了作品的原创性。

因此，很有必要通过影片编辑来提供精确的控制，从而增强创造上的自由性。

基于此，加拿大滑铁卢大学团队发明了一款名为 AnyV2V 的视频编辑框架，它不仅无需训练，而且能将视频编辑简化为两个主要步骤：

第一步，利用现成的图像编辑模型修改、或手动修改视频的第一帧。

第二步，将修改之后的第一帧图像，输入 I2V 模型之中，从而生成剩下的帧数，同时保留原影片的语义内容。

滑大团队打造视频编辑框架，完全无需训练，能自由更换视频背景和修改天气第1张

AnyV2V 的原理在于：利用视频模型的空间特征注入机制，就能保留视频中的运动。

即配合空间特征和时域特征的注入机制，能显著增强编辑后视频的背景一致性和整体结构一致性。

这样一来，任何人都能通过简单指令来对视频进行编辑，只需修改一帧图像即可生成剩下的帧数。

AnyV2V 的重要特色在于，把图像编辑和视频编辑融合在一起。

它允许人类与 AI 的努力互相结合，在保持创作者的创意和原创性的同时，更高效地达到预期效果。

同时，由于兼容性比较高，AnyV2V 除能支持一般的文本指令视频编辑之外，还能支持大量新的视频编辑任务，包括风格迁移、指定物件编辑、身份操纵等。

总的来说，AnyV2V 有望成为视频编辑的新范式。

首先，有望用于电影和视频制作。

由于 AnyV2V 能极大地提升制作效率和创作自由度。这让视频制作团队能在没有实际拍摄的情况下，先使用 T2V 模型合成类似影像，再用使 AnyV2V 针对场景进行大幅度修改或重建。

而在真实拍摄的情况下，即使天气不佳或找不到合适的背景，都可以在拍摄之后通过 AnyV2V 来更换背景和修改天气条件，甚至能在视频中修改物品和现有角色。

这样一来，就能有效降低电影制作者的成本，实现传统制作流程所难以实现的视觉效果。

其次，有望用于游戏和虚拟现实。

对于游戏开发者来说，AnyV2V 能创造更加丰富和更具动态感的游戏世界。

它能让游戏中的场景和角色，根据玩家的互动或游戏发展，来进行实时编辑和变化，从而为玩家提供独特的游戏体验。

例如，在一个开放世界的游戏中，玩家的选择将能够影响季节转换、影响建筑风格变化等。

此外，对于虚拟现实设备来说，则可以利用 AnyV2V 来根据用户偏好或用户行为，来实时地定制环境，从而增强沉浸感和个性化体验。

再次，有望用于社交媒体、娱乐和个性化内容创作。

AnyV2V 技术能为普通用户提供新的创作工具，让用户可以将自己的创意，通过视频的形式表达出来，从而无需受限于传统视频编辑软件的复杂操作。

例如，用户可以将自己的视频变成特定风格的艺术作品，或将日常视频转换成具有特殊视觉效果的影片。

与此同时，研究团队发现 AnyV2V 的图像编辑阶段非常灵活，可以由任何图像编辑模型完成，也可以由人类通过传统软件来完成。

对于剩下帧数的生成来说，则可由任何 I2V 模型完成，甚至也能完成指定物件的编辑任务。

这表明 AnyV2V 具有非常大的潜力，是一个具备进化能力的视频编辑范式。

滑大团队打造视频编辑框架，完全无需训练，能自由更换视频背景和修改天气第2张

日前，相关论文以《AnyV2V：适用于任何视频到视频编辑任务的即插即用框架》为题发在 arXiv[1]，加拿大滑铁卢大学硕士生古永丰是第一作者。

图 | 相关论文

此外，AnyV2V 的代码也已经开源 https://github.com/TIGER-AI-Lab/AnyV2V。

滑大团队打造视频编辑框架，完全无需训练，能自由更换视频背景和修改天气第3张

图 | 古永丰

另据悉，在研究人员的努力之下，目前 AnyV2V 已能进行 128 帧视频的剪辑。

参考资料：

1.https://arxiv.org/pdf/2403.14468

排版：溪树

01/ 上交大-MIT联合团队将膜蛋白变成非膜蛋白，可用于合成生物学和新药研发

02/ 科学家研发微纳生物电子纤维，触碰手指即可读取他人心电信号，可用于智能健康和人机交互

03/ 科学家研发硅光传算处理芯片，实现片间多模复用光互连，可兼容硅光流片工艺

04/ 科学家研发新型共振光声光谱，具有63dB的大动态范围，可用于痕量气体检测和无创医疗诊断

05/ 中科大团队构筑“三电极”光电二极管，频带带宽提升60%，大幅缩小光通信系统体积

滑大团队打造视频编辑框架，完全无需训练，能自由更换视频背景和修改天气第4张

滑大团队打造视频编辑框架，完全无需训练，能自由更换视频背景和修改天气

相关推荐：

最近发表

previous