EasyCache:无需训练的视频扩散模型推理加速—视频生成提速方案
zhezhongyun 2025-09-13 12:46 3 浏览
论文作者团队简介:本文第一作者周鑫,共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学陈楷锦、冯天瑞、林鸿凯,旷视科技陈习武、丁宜康、谭飞杨和香港大学赵恒爽助理教授。
在HunyuanVideo上,EasyCache在复杂场景下保持与原视频的一致外观,同时显著加速
1. 研究背景与动机
近年来,随着扩散模型(Diffusion Models)和扩散 Transformer(DiT)在视频生成领域的广泛应用,AI 合成视频的质量和连贯性有了飞跃式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型,已经能够生成结构清晰、细节丰富且高度连贯的长视频内容,为数字内容创作、虚拟世界和多媒体娱乐带来了巨大变革。
但与此同时,推理慢、算力消耗高的问题也日益突出。以 HunyuanVideo 为例,生成一个 5 秒、720P 分辨率的视频,单次推理在单张 H20 上需要 2 小时。这种高昂的资源代价,极大限制了扩散视频生成技术在实时互动、移动端和大规模生产场景的应用落地。
造成这一瓶颈的核心原因,是扩散模型在生成过程中需要多次迭代去噪,每一步都要进行完整的神经网络前向推理,导致大量冗余计算。如何在不影响视频质量的前提下,大幅提升推理效率,成为亟需突破的难点。
- 论文标题:
- Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching
- 论文地址:
- https://arxiv.org/abs/2507.02860
- 代码地址(已开源):
- https://github.com/H-EmbodVis/EasyCache
- 项目主页:
- https://h-embodvis.github.io/EasyCache/
2. 方法创新:EasyCache 的设计与原理
本论文提出的 EasyCache,是一种无需训练、无需模型结构改动、无需离线统计的推理加速新框架。它的核心思想非常直接:在推理过程中,动态检测模型输出的 「稳定期」,复用历史计算结果以减少冗余推理步骤。
2.1 扩散过程的 「变换速率」 规律
扩散模型的生成过程可以理解为 「逐步去噪」:每一步都从当前潜变量出发,预测噪声并更新状态,逐渐还原出清晰的视频内容。将一个 step 内的全部 DiT blocks 看做一个函数,可以考虑某个 step 的 「方向导数」 的一阶近似:
为了便于分析,将其求均值和范数以简化为数值(变换速率,Transformation rate):
通过对扩散 Transformer 的内部特征分析,发现:
- 在去噪初期,模型输出变化剧烈,可能需要完整推理以捕捉全局结构;
- 但在中后期,模型的 「变换速率」 趋于稳定,行为近似线性,细节微调为主。
这种 「稳定性」 意味着,许多步骤的输出可以用之前某一步的结果做近似,大量冗余计算可以被跳过。
2.2 EasyCache 的自适应缓存机制
EasyCache 的具体实现流程如下:
(1)变换速率度量
定义每一步的 「变换速率」
,用于衡量当前输出对输入的敏感度。我们惊讶地发现,尽管整个模型的输入输出在时间步层面变化剧烈且呈现不同的变化模式,Kt在去噪后期却能保持相对稳定。
(2)自适应判据与缓存复用
- 设定累计误差阈值,动态累计每步的输出变化率(误差指标Et)。具体而言,假定Kt在局部为常数,可以通过下一个 step 的输入变化与Kt一起协同判断输出的变化率(局部稳定性判断),将预估的输出变化率累加可以作为累计误差估计。
- 只要Et低于τ,就直接复用上一次完整推理的变换向量,否则重新计算并刷新缓存。
- 前 R 步为 warm-up,全部完整推理,确保初期结构信息不丢失。
(3)无需训练与模型改动
EasyCache 完全在推理阶段生效,不需要模型重训练,也不需修改原有网络结构,可以做到 「即插即用」。
3. 实验结果与可视化分析
论文在 OpenSora、Wan2.1、HunyuanVideo 等多个主流视频生成模型上进行了系统实验,考察了推理速度与生成质量的平衡。
3.1 定量实验结果
- EasyCache 在 HunyuanVideo 上实现 2.2 倍加速,PSNR 提升 36%,SSIM 提升 14%,LPIPS 大幅下降,视频质量几乎无损。在 Wan2.1 上也取得了超过 2 倍的加速比。
- 在图像生成任务(如 FLUX.1-dev)同样可带来 4.6 倍加速,并提升 FID 等指标。
- EasyCache 与 SVG 等稀疏注意力技术可叠加,平均可达 3.3 倍加速,总体推理时长从 2 小时缩短到 33 分钟。
3.2 可视化对比
论文展示了不同方法生成的视频帧对比:
- 静态缓存和 TeaCache 等方法在细节、结构和清晰度上均有不同程度损失;
- EasyCache 生成的视频在视觉效果上与原始模型几乎一致,细节保留优秀,且无明显模糊或结构错乱。更多可视化请见:https://h-embodvis.github.io/EasyCache/
在Wan2.1-14B上,EasyCache成功地保留了文字
EasyCache能够在SVG的基础上进一步将加速倍数提高到三倍以上
4. 总结与未来展望
EasyCache 为视频扩散模型的推理加速提供了一种极简、高效、训练无关的新范式。它通过深入挖掘扩散过程的内在规律,实现了大幅提速且几乎无损的高质量视频生成,为扩散模型在实际应用中的落地提供了坚实基础。未来,随着模型和有关加速技术的持续提升,我们期望能进一步逼近 「实时视频生成」 的目标。
文中视频链接:
https://mp.weixin.qq.com/s/25Q7n0ufpwj972xdC-vGcw
相关推荐
- perl基础——循环控制_principle循环
-
在编程中,我们往往需要进行不同情况的判断,选择,重复操作。这些时候我们需要对简单语句来添加循环控制变量或者命令。if/unless我们需要在满足特定条件下再执行的语句,可以通过if/unle...
- CHAPTER 2 The Antechamber of M de Treville 第二章 特雷维尔先生的前厅
-
CHAPTER1TheThreePresentsofD'ArtagnantheElderCHAPTER2TheAntechamber...
- CHAPTER 5 The King'S Musketeers and the Cardinal'S Guards 第五章 国王的火枪手和红衣主教的卫士
-
CHAPTER3TheAudienceCHAPTER5TheKing'SMusketeersandtheCardinal'SGuard...
- CHAPTER 3 The Audience 第三章 接见
-
CHAPTER3TheAudienceCHAPTER3TheAudience第三章接见M.DeTrévillewasatt...
- 别搞印象流!数据说明谁才是外线防守第一人!
-
来源:Reddit译者:@assholeeric编辑:伯伦WhoarethebestperimeterdefendersintheNBA?Here'sagraphofStea...
- V-Day commemorations prove anti-China claims hollow
-
People'sLiberationArmyhonorguardstakepartinthemilitaryparademarkingthe80thanniversary...
- EasyPoi使用_easypoi api
-
EasyPoi的主要特点:1.设计精巧,使用简单2.接口丰富,扩展简单3.默认值多,writelessdomore4.springmvc支持,web导出可以简单明了使用1.easypoi...
- 关于Oracle数据库12c 新特性总结_oracle数据库12514
-
概述今天主要简单介绍一下Oracle12c的一些新特性,仅供参考。参考:http://docs.oracle.com/database/121/NEWFT/chapter12102.htm#NEWFT...
- 【开发者成长】JAVA 线上故障排查完整套路!
-
线上故障主要会包括CPU、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍。同时例如jstack、jmap等工具也是不囿于一个方面的问题...
- 使用 Python 向多个地址发送电子邮件
-
在本文中,我们将演示如何使用Python编程语言向使用不同电子邮件地址的不同收件人发送电子邮件。具体来说,我们将向许多不同的人发送电子邮件。使用Python向多个地址发送电子邮件Python...
- 提高工作效率的--Linux常用命令,能够决解95%以上的问题
-
点击上方关注,第一时间接受干货转发,点赞,收藏,不如一次关注评论区第一条注意查看回复:Linux命令获取linux常用命令大全pdf+Linux命令行大全pdf为什么要学习Linux命令?1、因为Li...
- linux常用系统命令_linux操作系统常用命令
-
系统信息arch显示机器的处理器架构dmidecode-q显示硬件系统部件-(SMBIOS/DMI)hdparm-i/dev/hda罗列一个磁盘的架构特性hdparm-tT/dev/s...
- 小白入门必知必会-PostgreSQL-15.2源码编译安装
-
一PostgreSQL编译安装1.1下载源码包在PostgreSQL官方主页https://www.postgresql.org/ftp/source/下载区选择所需格式的源码包下载。cd/we...
- Linux操作系统之常用命令_linux系统常用命令详解
-
Linux操作系统一、常用命令1.系统(1)系统信息arch显示机器的处理器架构uname-m显示机器的处理器架构uname-r显示正在使用的内核版本dmidecode-q显示硬件系...
- linux网络命名空间简介_linux 网络相关命令
-
此篇会以例子的方式介绍下linux网络命名空间。此例中会创建两个networknamespace:nsa、nsb,一个网桥bridge0,nsa、nsb中添加网络设备veth,网络设备间...
- 一周热门
- 最近发表
-
- perl基础——循环控制_principle循环
- CHAPTER 2 The Antechamber of M de Treville 第二章 特雷维尔先生的前厅
- CHAPTER 5 The King'S Musketeers and the Cardinal'S Guards 第五章 国王的火枪手和红衣主教的卫士
- CHAPTER 3 The Audience 第三章 接见
- 别搞印象流!数据说明谁才是外线防守第一人!
- V-Day commemorations prove anti-China claims hollow
- EasyPoi使用_easypoi api
- 关于Oracle数据库12c 新特性总结_oracle数据库12514
- 【开发者成长】JAVA 线上故障排查完整套路!
- 使用 Python 向多个地址发送电子邮件
- 标签列表
-
- HTML 教程 (33)
- HTML 简介 (35)
- HTML 实例/测验 (32)
- HTML 测验 (32)
- JavaScript 和 HTML DOM 参考手册 (32)
- HTML 拓展阅读 (30)
- HTML文本框样式 (31)
- HTML滚动条样式 (34)
- HTML5 浏览器支持 (33)
- HTML5 新元素 (33)
- HTML5 WebSocket (30)
- HTML5 代码规范 (32)
- HTML5 标签 (717)
- HTML5 标签 (已废弃) (75)
- HTML5电子书 (32)
- HTML5开发工具 (34)
- HTML5小游戏源码 (34)
- HTML5模板下载 (30)
- HTTP 状态消息 (33)
- HTTP 方法:GET 对比 POST (33)
- 键盘快捷键 (35)
- 标签 (226)
- HTML button formtarget 属性 (30)
- opacity 属性 (32)
- transition 属性 (33)