图像编辑缺训练数据?直接从视频中取材,仅用1%训练数据实现近SOTA效果

量子位
2025-12-06 11:18 来自北京

Video4Edit团队 投稿

量子位 | 公众号 QbitAI

图像编辑缺训练数据怎么办?百度的研究人员决定直接从视频中取材。

传统的AI图像编辑方法依赖大量监督数据训练,数据成本高昂且难以覆盖多样化的编辑意图。百度的研究团队提出了一种全新的理论视角:将图像编辑视为退化的时间过程(Degenerate Temporal Process)

Video4Edit通过利用视频预训练模型中的单帧演化先验(Single-Frame Evolution Prior),实现了从视频生成到图像编辑的知识迁移。实验结果表明,仅需主流编辑模型约1%的监督数据,即可达到与当前第一梯队模型相当的性能。

当前的「数据稀缺」与「权衡困境」

现有的基于扩散模型的图像编辑方法通常需要大规模的高质量三元组数据(指令-源图像-编辑后图像)进行训练。这种数据依赖不仅成本高昂,且难以覆盖多样化的用户编辑意图。

现有方法在结构保持(Structure Preservation)纹理修改(Texture Modification)之间也存在根本性的权衡难题:过度强调结构保持会限制编辑的灵活性,而追求大幅度的语义修改又容易导致几何失真。

为此,Video4Edit项目团队提出:将图像编辑任务重新定义为视频生成的特殊退化形式

从时序建模的角度看,视频本质上是图像序列在时间维度上的演化。如果将源图像视为视频的第0帧,编辑后的图像视为第1帧,那么图像编辑任务可以自然地建模为一个2帧的极短视频生成过程

按照这个思路,模型可以在视频中抽取的两帧图像上学习如何进行图像编辑,这样就可以快速大量获取无监督数据辅助进行模型训练。训练数据量的充足又在很大程度上得以改善结构保持与纹理修改间的权衡问题,让模型基于更充足的经验来处理图像,做到从心所欲而不逾矩。

从「灵光一现」到「工程实现」

基于以上思路,团队利用视频预训练模型中蕴含的单帧演化先验(Single-Frame Evolution Prior)。视频生成模型在大量视频数据上预训练后,学习到了强大的时序一致性约束和帧间演化规律,这些先验知识天然地包含了结构保持与语义变化之间的平衡机制。

1. 时间退化建模

Video4Edit将图像编辑过程建模为从t=0(源图像)到t=1(编辑后图像)的时序演化。通过这种建模,原本需要显式学习的结构保持约束,转化为视频生成中成熟的时间注意力机制(Temporal Attention),该机制天然倾向于在相邻帧之间保持高频细节和几何结构。

2. 先验知识迁移

在潜在空间(Latent Space)中,视频模型学习到的zt→zt+1转移概率分布,可以通过文本指令进行条件化引导,从而将通用的时序演化能力重新导向为特定的编辑意图。

这种设计实现了参数的高效复用:模型主要学习编辑意图的对齐,而非从零学习图像生成能力。

3. 数据效率分析

从信息论角度看,引入视频先验极大地降低了假设空间的熵,提供了更强的有效泛化能力。

相比于从静态图像对中学习复杂的非线性映射,基于时序演化的微调具有更高的样本效率,这解释了为何仅需约1%的监督数据即可收敛。

效果展示

Video4Edit在多种图像编辑任务上进行了系统性评估,包括风格迁移(Style Transfer)物体替换(Object Replacement)属性修改(Attribute Modification)

以下展示了不同编辑指令下的效果:

Instruction: Replace the text ‘TRAIN’ with ‘PLANE’.(将英文文本“训练”替换为“飞机”)

打开凤凰新闻客户端 提升3倍流畅度

Instruction: Restore and colorize this old photo in high definition.(以高清晰度还原和着色这张老照片)

打开凤凰新闻客户端 提升3倍流畅度

Instruction: Remove his beard.(剃掉他的胡子)

打开凤凰新闻客户端 提升3倍流畅度

Instruction: Replace background with snowy mountain.(将背景换成雪山)

打开凤凰新闻客户端 提升3倍流畅度

Instruction: Erase the stop sign.(清除停车标志)

打开凤凰新闻客户端 提升3倍流畅度

Instruction: Transform to sketch style.(转换为草图样式)

打开凤凰新闻客户端 提升3倍流畅度

在风格迁移任务中,Video4Edit能够准确捕捉目标风格特征(如油画风格、赛博朋克风格),同时有效保留源图像的结构信息。在物体替换任务中(如将“猫”替换为“狗”,或改变车辆颜色),Video4Edit实现了自然的语义融合,边缘处理质量高,无明显伪影。

对于复杂的自然语言编辑指令,Video4Edit能够准确理解语义意图,并生成符合指令要求的编辑结果。这表明单帧演化先验在语义对齐方面具有良好的泛化能力。

用百分之一的“教材”,交出满分答卷

在标准评估协议下,Video4Edit使用的监督数据量约为MagicEdit等基线方法的1%,但在关键评估指标上达到了可比较甚至更优的性能。

CLIP Score(衡量语义对齐质量)和Structure Score(衡量结构保持能力)等指标上,Video4Edit与使用全量数据的基线方法性能相当,部分场景下实现了性能提升。这表明通过利用视频预训练先验,可以显著降低对监督数据的依赖,同时保持高质量的编辑效果。

相比传统方法需要大规模标注数据,Video4Edit通过先验知识迁移实现了极高的数据利用效率。这种范式为图像编辑任务提供了一种更经济、更可扩展的训练方案。

论文题目: Video4Edit: Viewing Image Editing as a Degenerate Temporal Process

arXiv链接:https://arxiv.org/abs/2511.18131

项目主页:https://shalfun.github.io/video4edit/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

感兴趣的小伙伴欢迎关注 👉 了解详情

🌟 点亮星标 🌟

科技前沿进展每日见

热点新闻