前两天才盘点图生图的开源大模型,2025年12月8日,美团就发布了其开源图像生成与编辑模型LongCat-Image。作为一款仅60亿参数的轻量化模型,它在文生图和图像编辑两大核心能力上却达到了开源领域的SOTA水平,甚至逼近头部闭源模型。LongCat-Image最大的创新在于实现了"生成与编辑一体化",通过统一架构处理多元任务,避免了传统模型在生成与编辑切换中的能力损耗。对于技术社区而言,这不仅是一个高性能的图像生成工具,更是一次对中文图像生成生态的重要突破。

一、模型概述:轻量化设计下的能力跃迁
LongCat-Image是美团LongCat团队研发的图像生成与编辑基础模型,参数规模为6B(60亿),属于轻量化大模型。与之前动辄百亿参数的主流模型相比,它通过创新架构设计和系统性训练策略,在保持高生成质量的同时大幅降低了计算资源需求。模型已在GitHub和Hugging Face平台开源,遵循MIT许可协议,这意味着开发者可以自由地用于个人研究或商业应用,只需保留原始版权声明。
技术架构上,LongCat-Image采用文生图与图像编辑同源的混合骨干架构(MM-DiT+Single-DiT),并整合了视觉语言模型(VLM)条件编码器 。这种设计使模型能够通过一套架构同时处理文本生成图像和自然语言指令编辑任务,避免了传统模型在生成与编辑切换中的能力损耗。在训练策略上,团队构建了全流程质控体系:预训练阶段过滤AIGC数据并引入千万量级合成文字数据,SFT阶段采用人工精筛数据对齐大众审美,RL阶段创新性地引入AIGC内容检测器作为奖励模型,引导模型学习真实世界的物理纹理与光影质感 。
从应用场景来看,LongCat-Image展现出跨领域潜力:电商领域可快速生成商品展示图与促销海报,餐饮场景能制作食材宣传素材,传统文化领域可实现古籍插图与对联的数字化创作,游戏行业能辅助生成场景与角色初稿 。美团通过开源释放技术能力,既为自身业务的智能化升级储备工具,也为全行业提供了中文场景下的AIGC解决方案。
二、图生图功能深度解析:15类编辑任务的精准掌控
LongCat-Image的图生图功能(即图像编辑)是其最大亮点之一。模型支持物体增删、风格迁移、视角转换、文本修改等15类细分编辑任务,并在多轮编辑中能保持图像风格、光照与原图的高度一致性,避免了"拼接感"问题 。这一能力源于其独特的技术实现机制。
首先,模型采用"文生图 Mid-training阶段初始化+多任务联合学习"机制,既继承了生成模型的美感基础,又保障了编辑指令的多样性响应能力 。通过在中期训练阶段冻结部分参数并引入编辑任务数据,模型能够更好地理解复杂多样的指令,同时保持生成质量。
其次,针对中文文本渲染这一行业痛点,LongCat-Image通过课程学习策略提升字符覆盖度和渲染精准度。预训练阶段基于千万量级合成数据学习字形,覆盖通用规范汉字表的8105个汉字;SFT阶段引入真实世界文本图像数据,提升在字体、排版布局上的泛化能力;RL阶段融入OCR与美学双奖励模型,进一步提升文本准确性与背景融合自然度 。此外,模型对prompt中指定渲染的文本采用字符级编码,大幅降低模型记忆负担,实现文字生成学习效率的跨越式提升。
在性能方面,LongCat-Image在GEdit-Bench中英文评测中获7.60/7.64分,ImgEdit-Bench评测中获4.50分,均达到开源SOTA水平,且逼近头部闭源模型 。在多轮编辑质量评估中,尽管与Nano Banana、Seedream 4.0等商业模型存在一定差距,但显著超越了其他开源方案 。 
三、与之前图生图模型的对比:中文渲染与编辑一致性的突破
与之前的图生图模型相比,LongCat-Image在综合编辑质量、视觉一致性这两个用户体验的维度显著超越了其他开源方案,虽然与 Nano Banana、Seedream 4.0 等商业模型存在一定差距。

四、应用场景:从电商到传统文化的全领域覆盖
LongCat-Image的应用场景广泛,尤其在中文环境下表现出色。以下是几个主要领域的应用案例:
电商领域:模型可快速生成商品展示图与促销海报,支持商家通过简单提示词即可调整商品布局、文字信息等。例如,输入"一张以蓝色为主色调的促销海报,宣传的是宠爱季活动,右上角品牌为 'MAOMAO'。画面中央,特写一只非常可爱的大眼睛橘猫从克莱因蓝色的撕开的纸中探出..."等复杂指令,模型能够精准生成符合电商需求的高质量图像 。目前,LongCat APP已提供24个零门槛玩法模板,让普通用户也能一键生成专业海报,实现"专业AI创作零门槛"。
餐饮领域:模型能够生成食材宣传素材,如"海报以浅米色为背景,中央展示几颗荔枝,其中一颗剥开,露出洁白多汁的果肉..."等场景,自动适配文字排版与食材场景融合,提升餐饮营销素材的生产效率 。
传统文化领域 :模型特别适合古诗词插图、对联、门店招牌、文字Logo等设计场景。其能够处理生僻字和书法字体渲染,自动根据古风文案适配书法字体,实现文字与场景的自然融合 。例如,输入"一座古色古香的传统中式门楼,平摄视角,上方悬挂着一块写有..."等指令,模型能够生成符合传统文化审美的图像。
下图是使用LongCat APP对图片处理的效果图,总体上效果还是很不错的。 
游戏领域:模型可辅助生成游戏场景与角色初稿,支持通过自然语言指令进行多轮编辑,如调整角色服装、改变场景风格等,为游戏开发者提供高效的创作工具。
五、开源意义与技术贡献:中文AIGC生态的新机遇
美团选择将LongCat-Image开源并采用MIT许可协议,具有重要的行业意义。MIT协议允许开发者自由用于个人研究或商业应用,只需保留原始版权声明,这大大降低了企业应用的法律门槛 。相比之下,Stable Diffusion采用Apache 2.0协议,虽然也允许商业使用,但需要更复杂的合规流程。
LongCat-Image的技术贡献主要体现在三个方面:
首先,模型证明了通过架构创新与数据优化,轻量化模型同样能承载复杂场景需求,降低了AIGC技术的落地成本 。这为中小企业和开发者提供了更经济高效的选择。
其次,模型填补了中文图像生成与编辑领域的优质开源资源空白,特别是其在中文文本渲染方面的优势,为传统文化数字化、商业广告创作等场景提供了技术支撑 。
第三,模型采用的混合骨干架构和渐进式训练策略,为图像生成与编辑一体化提供了新的技术路径,可能启发未来更多创新模型的诞生。
六、总结:轻量化模型的生态价值
LongCat-Image的发布标志着美团在AIGC领域完成关键技术布局,其6B参数的轻量化设计、中文场景的深度适配与开源策略的组合,为行业提供了新的发展范式 。相较于动辄百亿参数的重型模型,它证明了通过架构创新与数据优化,轻量化模型同样能承载复杂场景需求,降低了AIGC技术的落地成本 。
对于开发者社区而言,LongCat-Image的开源填补了中文图像生成与编辑领域的优质开源资源空白,有望吸引更多开发者参与共建,推动中文AIGC技术的标准化与产业化 。而对于普通用户与企业来说,"简单提示词即可高效出图"的特性,让AI创作从专业工具转变为人人可用的生产力助手,为内容创作行业带来效率革命 。
随着LongCat系列模型的不断迭代与开源,美团正在构建一个完整的大模型技术生态,从文本到图像再到视频,覆盖多模态生成与编辑能力。这对于中国AI技术的发展具有重要意义,也为各行业数字化转型提供了新的技术路径。
资源链接:
Hugging Face:
GitHub: