ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

本文第一作者是自南洋理工大学的博后朱贝尔和西湖大学的博士生王若禹,主要研究方向分别是 Robust Machine Learning 和 Diffusion Model,该论文已被 ICCV 2025 录用。

近年来,扩散模型(Diffusion Models)凭借出色的生成质量,迅速成为图像、视频、语音、3D 内容等生成任务中的主流技术。从文本生成图像(如 Stable Diffusion),到高质量人脸合成、音频生成,再到三维形状建模,扩散模型正在广泛应用于游戏、虚拟现实、数字内容创作、广告设计、医学影像以及新兴的 AI 原生生产工具中。

其背后的核心机制是 「逐步去噪」 过程:从一张完全随机的图开始,模型通过上百次迭代逐步还原出清晰、真实的图像。这种逐步精化的策略虽然保证了生成质量,却也带来了显著的推理延迟,成为制约其部署效率的瓶颈,尤其在移动设备、实时生成和大规模应用中表现尤为明显。

为了解决这一问题,研究者提出了三种主要的加速思路:一是通过数值求解器(ODE Solvers)减少迭代步数;二是采用模型蒸馏(Distillation)将多步过程压缩为少步甚至一步;三是借助并行计算(Parallelism)加速多个计算路径的推理。然而,每种方法都存在局限:数值求解器在迭代步数极少时往往会损失生成质量;蒸馏方法则需重新训练模型,成本高昂;并行方法虽具潜力,但在低步数场景下仍未被充分挖掘。

为此,西湖大学 AGI 实验室提出了一种融合三类优势的创新方案 ------Ensemble Parallel Direction Solver(EPD-Solver)。该方法以数值求解器为骨架,通过轻量级蒸馏学习获得少量可学习参数,并在每次迭代中并行计算多个方向的梯度,再以加权方式融合,从而有效减少数值积分误差。这种方式不仅无需对模型进行大规模改动,也不会带来额外的延迟开销,成功实现在 3--5 步采样下仍能生成高质量图像。

更进一步,EPD-Solver 还能以 「插件」 的形式应用于现有的主流求解器中,显著提升其生成质量和效率。大量实验表明,在相同计算延迟下,该方法在 CIFAR-10、FFHQ、ImageNet 等多个基准测试中取得了领先的图像生成效果,展示出其在低延迟高质量生成任务中的巨大潜力。

相关推荐
189228048612 分钟前
NY379固态MT29F32T08GSLBHL8-36QA:B
大数据·服务器·人工智能·科技·缓存
Adair_z2 分钟前
[SEO艺术重读] 第9篇 熊猫算法、企鹅算法和惩罚机制
人工智能·熊猫算法·企鹅算法·谷歌算法恢复·网站seo诊断·高质量内容创作·e-e-a-t原则
叶小鸡3 分钟前
小鸡玩算法-力扣HOT100-动态规划(上)
算法·leetcode·动态规划
ZZH_AI项目交付4 分钟前
我把 AI 最容易改坏真实 App 的地方,整理成了 skills
人工智能·ios·app
忆~遂愿5 分钟前
从文字应答到具象共情:Agent 交互的底层革新
人工智能·深度学习·目标检测·microsoft·机器学习·ar·交互
Ai.den6 分钟前
Windows 安装 MinerU 3.x 实现本地批量解析 PDF
人工智能·windows·ai
LuminousCPP9 分钟前
数据结构 - 线性表第三篇:基于顺序表实现 C 语言通讯录(基础功能篇)
c语言·数据结构·经验分享·笔记·算法
枫叶林FYL12 分钟前
【强化学习】长上下文可验证奖励强化学习:原理推导与系统架构
人工智能·系统架构
Teable任意门互动12 分钟前
深度解析:AI 赋能开源多维表格,实现企业全场景数据整合与高效应用
数据库·人工智能·低代码·信息可视化·开源·数据库开发
_日拱一卒13 分钟前
LeetCode:114二叉树展开为链表
java·开发语言·算法