开源新基准!OmniGen2 文本图像对齐度提升 8.6%,视觉一致性超越现有开源模型15%

OmniGen2 是北京人工智能研究院(BAAI)于 2025 年 6 月 16 日发布的开源多模态生成模型,旨在为多种生成任务提供统一的解决方案,包括文本到图像生成、图像编辑和上下文生成。与 OmniGen v1 不同,OmniGen2 为文本和图像模态设计了两条独立的解码路径,采用了非共享参数和分离的图像分词器。这一设计使得 OmniGen2 能够在现有的多模态理解模型基础上进行构建,而无需重新适应 VAE 输入,从而保留了原有的文本生成能力。其核心创新在于双路径架构和自我反思机制,成为当前开源多模态模型的新标杆。相关论文成果为「OmniGen2: Exploration to Advanced Multimodal Generation」。

教程链接:go.openbayes.com/oCWcX

使用云平台: OpenBayes

openbayes.com/console/sig...

首先点击「公共教程」,在公共教程中找到「OmniGen2:探索高级多模态生成」,单击打开。

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「 API 地址」,即可进入界面。若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

具体参数:

  • Height:高度
  • Width:宽度
  • Text Guidance Scale:文本引导尺度
  • Image Guidance Scale:图像引导尺度
  • CFG Range Start: 范围起始
  • CFG Range End:范围结束
  • Scheduler:调度器
  • Inference Steps:推理步骤
  • Number of images per prompt:每条提示的图像数量
  • Seed:种子
  • max_input_image_side_length:最大输入图像边长
  • max_pixels:最大像素

官方在这里给出了很多案例,大家可以自行尝试。

我们首先使用文本生成图片功能,输入 prompt「The girl by the sea」后点击「Generate」,可以看到它快速生成了一张在海边的女孩。

接下来可以保存图片,进行图片编辑,输入 prompt「Put a hat on her.」后点击「Generate」,可以看给女孩戴了一顶帽子。

相关推荐
孤狼灬笑几秒前
机器学习四范式(有监督、无监督、强化学习、半监督学习)
人工智能·强化学习·无监督学习·半监督学习·有监督学习
第七序章2 分钟前
【C++】AVL树的平衡机制与实现详解(附思维导图)
c语言·c++·人工智能·机器学习
ajassi20004 分钟前
开源 C++ QT QML 开发(十九)多媒体--音频录制
c++·qt·开源
取酒鱼食--【余九】7 分钟前
机器人学基础(一)【坐标系和位姿变换】
笔记·算法·机器人·开源·机器人运动学·机器人学基础
晨非辰13 分钟前
【面试高频数据结构(四)】--《从单链到双链的进阶,读懂“双向奔赴”的算法之美与效率权衡》
java·数据结构·c++·人工智能·算法·机器学习·面试
阿里云大数据AI技术16 分钟前
云栖实录 | 通义实验室基于MaxCompute进行大模型数据管理及处理
大数据·人工智能
玉树临风江流儿20 分钟前
关于pkg-config的使用示例--g++编译过程引入第三方库(如Opencv、Qt)
人工智能·opencv
struggle202522 分钟前
AxonHub 开源程序是一个现代 AI 网关系统,提供统一的 OpenAI、Anthropic 和 AI SDK 兼容 API
css·人工智能·typescript·go·shell·powershell
后端小肥肠29 分钟前
公众号对标账号文章总错过?用 WeWe-RSS+ n8n,对标文章定时到你的邮箱(下篇教程)
人工智能·agent
Gloria_niki41 分钟前
目标检测学习总结
人工智能·计算机视觉·目标跟踪