阶跃星辰开源NextStep-1.1图像模型:告别“鬼影”与“马赛克”?

目录

前言

一、从"能用"到"好用":NextStep-1.1修了啥?

[1.1 用强化学习(RL)给画质"磨皮"](#1.1 用强化学习(RL)给画质“磨皮”)

[1.2 治好了数值的"抖动病"](#1.2 治好了数值的“抖动病”)

二、技术深挖:为什么要走"自回归"这条窄路?

[2.1 传统架构的"割裂感"](#2.1 传统架构的“割裂感”)

[2.2 自回归的"原生融合"](#2.2 自回归的“原生融合”)

三、行业观察:静水流深的技术博弈

[3.1 "六小龙"的分化](#3.1 “六小龙”的分化)

[3.2 开源生态的布局](#3.2 开源生态的布局)

结语


🎬 攻城狮7号个人主页

🔥 个人专栏 :《AI前沿技术要闻》

⛺️ 君子慎独!

🌈 大家好,欢迎来访我的博客!

⛳️ 此篇文章主要介绍 阶跃星辰开源NextStep-1.1图像模型

📚 本期文章收录在《AI前沿技术要闻》,大家有兴趣可以自行查看!

⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝!

前言

**2025年的大模型赛道,到了年底依然火药味十足。**智谱、MiniMax忙着冲刺IPO,Kimi和DeepSeek在推理模型上打得不可开交。相比之下,"六小龙"之一的阶跃星辰显得有些过于安静。

但安静不代表停滞。就在大家以为他们"闭关锁国"的时候,阶跃星辰悄悄丢出了一个小更新------NextStep-1.1

这次更新没有铺天盖地的宣传,却精准地解决了一个让技术人员头秃的问题:怎么让自回归模型生成的图片,不再满屏"鬼影"和"马赛克"?

一、从"能用"到"好用":NextStep-1.1修了啥?

要理解1.1版本的改进,我们先得回顾一下它的前身NextStep-1。

NextStep-1采用了一种很新颖的架构------自回归流匹配(Autoregressive Flow-Matching)。简单来说,它试图用一种模型(Transformer)同时搞定文本和图像,不像传统方法那样,文本归文本,画图归画图(扩散模型)。

理想很丰满,但现实很骨感。NextStep-1虽然能画图,但经常"翻车"。用户最直观的感受就是:生成的图片有时候会出现莫名其妙的色块、网格状的纹理,甚至结构崩坏的"鬼影"。

这就是所谓的"可视化失败"(Visualization Failures)。

NextStep-1.1的核心任务就是"修Bug"。它通过两大手段,把这些毛病给治好了:

1.1 用强化学习(RL)给画质"磨皮"

在图像生成领域,强化学习通常是用来对齐人类偏好的。NextStep-1.1把RL用在了"磨皮"上。它通过后训练(Post-training),强行修正了模型生成的纹理细节。

结果就是,图片里的噪点变少了,边缘更锐利了,那些讨厌的"马赛克"和伪影也大幅减少。现在的图,看起来终于像一张专业的摄影作品,而不是显卡过热时的花屏截图。

1.2 治好了数值的"抖动病"

之前的模型之所以会画崩,根本原因是在高维空间里算数时"手抖"了(数值不稳定性)。NextStep-1.1优化了底层的计算逻辑,让模型在处理复杂的连续图像Token时更稳。这就好比给手抖的画家装了个防抖云台,每一笔都画在它该在的地方,拼缝和接头处自然就严丝合缝了。

二、技术深挖:为什么要走"自回归"这条窄路?

可能有人会问:现在Stable Diffusion、Flux这些扩散模型(Diffusion Model)已经很成熟了,阶跃星辰为什么非要死磕"自回归流匹配"这条难走的路?

这其实是一场关于"大一统"的豪赌。

2.1 传统架构的"割裂感"

目前主流的文生图模型,大多是"拼凑"出来的。你需要一个语言模型来理解提示词,再需要一个扩散模型来生成图片。这两部分是割裂的,计算量大,且很难真正理解图文之间的深层逻辑。

2.2 自回归的"原生融合"

阶跃星辰选择的自回归路线(Autoregressive),是想让一个模型(Transformer)直接"学会"画图,就像它学会写诗一样。

在NextStep-1.1的架构里:

* 大脑:一个140亿参数(14B)的Transformer,负责统一思考。

* 左手:一个标准的语言头,负责输出文字。

* 右手:一个轻量级的"流匹配头",负责输出图像。

这种架构极其简洁。它不需要庞大的扩散去噪模块,只需要预测"下一个Patch(图像块)长什么样"。如果这条路走通了,未来的多模态模型(能看、能听、能画、能写)将不再是缝合怪,而是一个浑然天成的整体。

三、行业观察:静水流深的技术博弈

NextStep-1.1的发布,虽然没有SOTA(刷榜)那么吸睛,但透露出的信号却很耐人寻味。

3.1 "六小龙"的分化

曾经的"大模型六小龙",现在已经名存实亡。有的转型做应用,有的甚至已经掉队。依然坚持在牌桌上自研基础大模型的,只剩下智谱、MiniMax、Kimi和阶跃星辰这几家。

阶跃星辰的策略很明显:不跟风刷榜,专注啃硬骨头。

无论是之前的Step-1V视频模型,还是现在的NextStep-1.1,他们都在尝试突破现有架构的瓶颈(如扩散模型的计算效率问题),试图找到下一代模型的"版本答案"。

3.2 开源生态的布局

这次NextStep-1.1直接在GitHub和Hugging Face开源,并没有藏着掖着。结合之前开源的端侧模型GELab-Zero和数学模型PaCoRe,阶跃正在构建一个从云端到终端、从通用到垂直的完整生态。

对于开发者来说,这意味着在传统的Diffusion架构之外,多了一种"自回归生成"的新选择。虽然它现在可能还不如Flux那么完美,但它代表了另一种可能性------一种更轻量、更统一的可能性。

结语

NextStep-1.1或许不是那种让你一眼惊艳的"爆款",但它绝对是一个扎实的"补丁"。

它证明了在图像生成领域,除了"堆步数"的扩散模型,自回归+强化学习这条路也是走得通的。对于阶跃星辰来说,这不仅是一次产品的迭代,更是在为未来的原生多模态大模型积累技术拼图。

在喧嚣的AI江湖里,这种死磕底层架构的"笨功夫",或许才是通往决赛圈最稳的门票。

GitHub开源地址:
https://github.com/stepfun-ai/nextstep-1

Hugging Face开源地址:
https://huggingface.co/stepfun-ai/NextStep-1.1

看到这里了还不给博主点一个:
⛳️ 点赞☀️收藏 ⭐️ 关注

💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持!
你们的点赞就是博主更新最大的动力!

相关推荐
罗西的思考2 小时前
AI Agent框架探秘:拆解 OpenHands(10)--- Runtime
人工智能·算法·机器学习
冬奇Lab3 小时前
OpenClaw 源码精读(2):Channel & Routing——一条消息如何找到它的 Agent?
人工智能·开源·源码阅读
冬奇Lab3 小时前
一天一个开源项目(第38篇):Claude Code Telegram - 用 Telegram 远程用 Claude Code,随时随地聊项目
人工智能·开源·资讯
格砸4 小时前
从入门到辞职|从ChatGPT到OpenClaw,跟上智能时代的进化
前端·人工智能·后端
可观测性用观测云4 小时前
可观测性 4.0:教系统如何思考
人工智能
sunny8655 小时前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
小笼包包仔5 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能
smallyoung5 小时前
AgenticRAG:智能体驱动的检索增强生成
人工智能
_skyming_5 小时前
OpenCode 如何做到结果不做自动质量评估,为什么结果还不错?
人工智能
南山安5 小时前
手写 Cursor 核心原理:从 Node.js 进程到智能 Agent
人工智能·agent·设计