单卡4090也可以使用高质量的视频进行编辑!这是West Lake Agi实验

作者: 365bet体育投注 分类: 科技 发布时间: 2025-06-17 10:09
第一组是来自中央南大学的软件工程的本科生Li Guangzhao,与西湖大学AGI实验室的助理教授张奇相对应。这项工作是由李广州(Li Guangzhao)访问西湖大学AGI实验室期间完成的。通常有很高的视频和编辑障碍,通常鼓励新手从视频工作中的各种复杂的工作流程中撤退。在开发人工智能技术中,AIGC视频编辑简化了这一复杂的工作流程。只需在输入框中键入自然语言即可将原始视频转换为新图片几分钟。但是,当前的视频编辑程序通常采用复杂的技术来增强编辑之前和之后无关对象的一致性,从而导致许多不必要的开销,尤其是计算资源的消耗,并且仍然会导致严重的破坏来无关区域。同时,它还将防止编辑对象的对象的效果,从而使用户难以接受。为了解决上述困境,西湖大学AGI实验室团队建议FlowDirector:无视频编辑的全新视频。流程导演是在“流匹配”范式下进行的,并且可以将基于一代的基于一代的视频模型转换为有效的视频编辑工具,而无需任何重新培训。与其他视频编辑方法相比,流程导演:1。质量更高:流程导演可以执行更多的MASSISE对象编辑,从而可以进行大变形。 2。更广泛的操作:不仅支持编辑,还支持各种复杂的编辑编辑,例如加法,删除,纹理和过渡。 3。底部开销:在编辑过程中,除了使用的基本生成模型带来的视频内存外,没有其他视频记忆痕迹。一张卡4090可以实现高质量的视频Editing。 Paper Title: Flowdirector: Training-Free Flow Steering for accurate text-to-video Paper Edit Link: https://arxiv.org/abs/2506.05046 Project Address: https: //flowdirector-dit.github.iogithub: https://github.com/westlake-lab/flowdirectorHuggingface: https://huggingface.co/spaces/westlake-agi-lab/flowdirekratedit结果视频视频:视频和挑战的背景由视频驱动的背景和挑战的背景近年来取得了迅速的进展,现有的视频编辑方法基于旋转技术,通过旋转技术,通过恢复了ddim的噪声和频率的频率,以及对用户的噪声以及对应的噪音,以及对相应的噪音,以及相应的噪声,以及相应的噪声。失真 - 视频的高维动力很难重建,背景是背景,背景是背景,背景是背景,背景是背景和背景,易于“漂移”; 3。有限的振幅教育 - 它是不可能考虑相同的大规模语义变化和忠诚度的细节。 “旁路”流动导演选择了许多错误旋转的阶段,并直接生成了数据域的颂歌进化路径,以允许原始视频正确切换到目标语义,从而开始减轻上述问题。健康贡献方向的方法1:空间流动导演的直接演变和校正使传统的乏味的处理过程将视频应用于扩散模型的潜在空间然后进行编辑,但构成了特征空间中“视频资源→目标视频”的进化路径。编辑通过这种直接进化途径产生的流对整个视频的属性作用,这将导致无关区域的意外变化,并严重影响视频编辑的忠诚度。结果,研究小组建议在空间上进行专门的流动校正(SAFC),以防止S通过定位和限制空间区域来干扰无关区域的通道编辑,在编辑视频中发现了主要因素。 Tiyak的建议是基于注意图生成二进制掩码,而只需将流演化应用于语义相关区域(例如要替换或修改的对象和字符)。背景部分而不是目标是完全“冻结”的,以确保编辑视频的结构和纹理不受影响。贡献2:平均差异指南 - IT:为编辑流提供指南的自动方法。在没有旋转的场景中,原始视频通常将太强的“控制信号”应用于最终效果,从而产生了明显的原始对象轮廓或修订视频中留下的文物的细节。结果,作者团队提出了平均指南的多样性(DAG),并进行了“高质量采样”和“快速基线抽样”,以获取ANG真正必要的优化通过比较两者之间的差异来指示。这样,系统不仅可以维护足够的语义细节,从而确保目标区域与文本信号完全匹配,而且有效地防止了原始视频中不必要的信息中断。最终,DAG允许流程导演确保较高的忠诚度,同时避免由长期造成的计算瓶颈下降,并实现“图像质量首先和效率首先”的双重升级。主要思想如下:1。高质量采样和基线抽样平行于每个方差的扩散。首先,在掩盖校正后的速度场变化中执行高质量采样(例如4次),并获得平均结果,以获得速度准确,详细的估计值;同时,提出一组样品的样品(例如2次)基线2的速度。计算变异信号以抑制原始残基减去每个基本E速度从高质量速度到获得。这些自定义信号准确地表明了“从原始视频到目标样式”所需的更改所需的更改,并且可以有效防止原始框架中剩余的强控制组件(即伪像)。 3。融合指南的海关构成了最终速度。随后将所有变化信号组合在一起:然后根据一定的重量和质量速度进行平均,以获得这种集成的结果,不仅可以维护De-Kasampling带来的细节和语义一致性,而且还使用各种指南信号来实现自动指南,从而进一步降低了原始视频的中断。实验突出显示:不仅是一个简单的交换,还支持任意添加,删除和替换视频中的对象或元素。流程导演可以准确获取并显示样式的关键特征(例如颜色,材料等)指定d在即时,这提供了优先级,以确保文本语义和视觉效果的高度对齐。同时,我们的过程可以确保输出视频完整性的整体布局和结构,同时确保对目标区域的预期变化:如果它替代了主题,角色的变化或局部添加和去除,那么时间纹的背景纹理以及时机的连贯性仍然相同。与各种SOTA的视频编辑技术(例如Fatezero,Tokenflow,Videodecorter等)相比,流动导演在对象的变形,文本一致性,视觉细节和运动运动方面具有剩余性能,并且都具有全面的主观主观和客观测试的最高水平。在结果的数量中,流程导演将SOTA变为不同的指标(WarPSIM中的最高指标,因为流程导演可以实现更大的语义转换,从而导致像素级的光学屈曲f稍低。低),超过现有的视频编辑方法。结论流导向器显示了视频编辑的新想法:直接进行流式编辑而无需旋转。我们期待着这个情节在电影和电视后期制作,简短的视频创建,AR/VR内容的生成等领域都包装好的情节,我们探索了更多的社区可能性。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!