统一虚拟试穿框架OmniTry:突破服装局限,实现多品类可穿戴物品虚拟试穿无蒙版新跨越。

在虚拟试穿(VTON)领域,现有研究多聚焦于服装,这在一定程度上限制了其应用范围。浙江大学团队提出了一个统一框架 OmniTry,该框架将 VTON 的应用范畴拓展至服装之外的各类可穿戴物品,像珠宝、配饰等,还提供无蒙版设置以贴合实际应用场景。面对扩展物品类型时数据管理获取配对图像的难题,团队设计了独特的两阶段流程,巧妙利用大规模未配对图像和少量配对图像训练微调模型。经基于综合基准的评估,OmniTry 在物体定位和身份保存上表现卓越,且代码、模型权重和评估基准即将公开,有望推动该领域发展。

试穿结果

在包含 12 个主要可穿戴物品类别的 OmniTry-Bench 上进行评估的结果。

与现有方法的比较

将 OmniTry 扩展到不常见的类。

相关链接

论文介绍

虚拟试穿 (VTON) 是一项实用且应用广泛的任务,现有研究大多侧重于服装。本文提出了一个统一的框架 OmniTry,它将 VTON 的范围从服装扩展到任何可穿戴物品,例如珠宝和配饰,并提供无遮罩设置,以实现更实际的应用。当扩展到各种类型的物品时,获取配对图像(即物品图像和相应的试穿结果)的数据管理具有挑战性。

为了解决这个问题,论文提出了一个两阶段流程:

  1. 利用大规模未配对图像(即带有任何可穿戴物品的肖像)来训练模型进行无遮罩定位。论文重新设计了修复模型,使其能够在给定空遮罩的情况下自动将物品绘制到合适的位置。

  2. 使用配对图像进一步微调模型,以迁移物品外观的一致性。即使只有少量配对样本,第一阶段后的模型也能快速收敛。

OmniTry 的评估基于一个包含 12 类常见可穿戴物品的综合基准,其中包含店内和野外图像。实验结果表明,与现有方法相比,OmniTry 在物体定位和身份保存方面均表现出色。

方法概述

OmniTry 的两阶段训练流程。 第一阶段基于自然场景人像图像,以无口罩的方式将可穿戴物品添加到人物身上。第二阶段引入店内配对图像,旨在控制物体外观的一致性。

实验结果

结论

OmniTry 是一个统一的无遮罩试穿框架,它将现有的服装试穿扩展至任何可穿戴物体。为了解决许多类型物体缺乏丰富的配对样本(即物体和试穿图像)的问题,在 OmniTry 中提出了一个两阶段训练流程。

  • 第一阶段,利用大规模未配对图像来监督模型进行无遮罩物体定位。

  • 第二阶段,则对模型进行训练以保持物体的一致性。

论文详细阐述了 OmniTry 的设计,包括用于避免捷径学习的无痕擦除、用于无遮罩生成的基于图像修复的重新利用策略以及用于身份迁移的带遮罩全注意力机制。提出了一个针对统一试穿的新基准,并证明了 OmniTry 与现有方法相比的有效性。大量的实验也验证了 OmniTry 即使使用少量配对图像进行训练也能实现高效的学习。

相关推荐
zhangfeng11332 小时前
国家超算中心 scnet.cn 跨用户文件分享流程总结 多个用户之间 文件共享 不需要反复下载上传
人工智能·语言模型·大模型
ting94520005 小时前
Tornado 全栈技术深度指南:从原理到实战
人工智能·python·架构·tornado
怕浪猫5 小时前
决定命运的,从来不是市场,而是你看待市场的方式
aigc·ai编程
果汁华5 小时前
Browserbase Skills:让 Claude Agent 真正“看见“网页世界
人工智能·python
ZhengEnCi5 小时前
04-缩放点积注意力代码实现 💻
人工智能·python
2zcode5 小时前
基于LSTM神经网络的金属材料机器学习本构模型研究(硕士级别)
神经网络·机器学习·lstm·金属材料
小碗细面6 小时前
13种Agent、129套设计系统:Open Design 开源项目完全指南
aigc·ai编程
HackTwoHub6 小时前
AI大模型网关存在SQL注入、附 POC 复现、影响版本LiteLLM 1.81.16~1.83.7(CVE-2026-42208)
数据库·人工智能·sql·网络安全·系统安全·网络攻击模型·安全架构
段一凡-华北理工大学6 小时前
【高炉炼铁领域炉温监测、预警、调控智能体设计与应用】~系列文章08:多模态数据融合:让数据更聪明
人工智能·python·高炉炼铁·ai赋能·工业智能体·高炉炉温
万粉变现经纪人6 小时前
如何解决 pip install llama-cpp-python 报错 未安装 CMake/Ninja 或 CPU 不支持 AVX 问题
开发语言·python·开源·aigc·pip·ai写作·llama