联合理解生成的关键拼图？腾讯发布X-Omni：强化学习让离散自回归生成方法重焕生机，轻松渲染长文本图像

本论文作者团队来自腾讯混元X组，共同一作为耿子钢和王逸冰，项目Lead为张小松，通讯作者为腾讯混元团队杰出科学家胡瀚，Swin Transformer作者。

在图像生成领域，自回归（Autoregressive, AR）模型与扩散（Diffusion）模型之间的技术路线之争始终未曾停歇。大语言模型（LLM）凭借其基于「预测下一个词元」的优雅范式，已在文本生成领域奠定了不可撼动的地位。然而，当这一范式被应用于视觉领域时，却暴露出诸多瓶颈：生成图像细节失真、语义理解偏差，尤其在复杂文本渲染任务中表现尤为乏力。目前，统一视觉理解和生成的主流研究工作在图像生成部分往往采用扩散模型来建模，使得视觉理解和生成任务依然只是松散的耦合在一起。

近日，腾讯混元团队的最新研究成果 X-Omni 模型通过强化学习大幅提升了自回归图像生成方法的生成质量，这一模型能生成具有较高美学品质的图像，同时展现出强大的遵循指令和渲染长文本图像的能力。该模型已开源：

论文链接：https://arxiv.org/pdf/2507.22058
GitHub链接：https://github.com/X-Omni-Team/X-Omni
项目主页：https://x-omni-team.github.io
Hugging Face 模型：https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982
Hugging Face Space：https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7

强化学习大幅提升------图像生成质量和指令遵循能力

基于离散自回归方法监督微调后图像生成的质量相对较低，表现为文本生成错误、身体特征失真以及无法遵循复杂指令。引入强化学习后，生成图像的审美质量逐渐提高，遵循指令的能力和渲染长文本的能力稳步提升。如图 2 所示，经过 200 步强化学习，X-Omni 模型展示了图像生成的高质量视觉效果、强大的遵循复杂指令的能力，以及准确渲染中英文长文本的能力。

奖励系统

我们构建了一个综合性的奖励模型系统，其包含多个专门的模型，从人类美学偏好、文本 - 图像语义对齐以及文本渲染准确性等维度来评估图像生成质量。最终奖励分数通过各个奖励信号的加权融合得出。

人类偏好分数：采用 HPSv2 模型评估人类美学偏好。该模型在多种图像分布上均表现出优异的泛化能力，能够可靠地预测人类对生成图像的偏好排序。
Unified Reward 分数：引入 Unified Reward 对图像进行整体质量评估。该奖励函数将多维度质量指标聚合为一个统一的分数，为强化学习提供整体反馈。
文本 - 图像语义对齐分数：为确保输入提示和生成图像间的语义一致性，我们利用 Qwen2.5-VL-32B 来计算对齐奖励。借助该模型强大的图像理解能力，我们评估生成图像是否准确反映了提示描述的内容。对齐分数量化了文本描述和视觉内容之间的对应关系，鼓励生成与上下文相关的图像，同时最大限度地减少语义幻觉。
OCR 准确性分数：文本渲染准确性是文本到图像生成中的一个关键挑战。对于需要在图像中生成文本的提示，我们联合 GOT-OCR 2.0 与 PaddleOCR 对生成图像进行双重 OCR 解析，计算文本渲染的准确性分数。该奖励信号为增强文本渲染能力提供了关键指导，使我们的模型能够可靠地生成清晰准确的文本。