阶跃星辰开源NextStep-1.1图像模型:告别“鬼影”与“马赛克”?

目录

前言

一、从"能用"到"好用":NextStep-1.1修了啥?

[1.1 用强化学习(RL)给画质"磨皮"](#1.1 用强化学习(RL)给画质“磨皮”)

[1.2 治好了数值的"抖动病"](#1.2 治好了数值的“抖动病”)

二、技术深挖:为什么要走"自回归"这条窄路?

[2.1 传统架构的"割裂感"](#2.1 传统架构的“割裂感”)

[2.2 自回归的"原生融合"](#2.2 自回归的“原生融合”)

三、行业观察:静水流深的技术博弈

[3.1 "六小龙"的分化](#3.1 “六小龙”的分化)

[3.2 开源生态的布局](#3.2 开源生态的布局)

结语


🎬 攻城狮7号个人主页

🔥 个人专栏 :《AI前沿技术要闻》

⛺️ 君子慎独!

🌈 大家好,欢迎来访我的博客!

⛳️ 此篇文章主要介绍 阶跃星辰开源NextStep-1.1图像模型

📚 本期文章收录在《AI前沿技术要闻》,大家有兴趣可以自行查看!

⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝!

前言

**2025年的大模型赛道,到了年底依然火药味十足。**智谱、MiniMax忙着冲刺IPO,Kimi和DeepSeek在推理模型上打得不可开交。相比之下,"六小龙"之一的阶跃星辰显得有些过于安静。

但安静不代表停滞。就在大家以为他们"闭关锁国"的时候,阶跃星辰悄悄丢出了一个小更新------NextStep-1.1

这次更新没有铺天盖地的宣传,却精准地解决了一个让技术人员头秃的问题:怎么让自回归模型生成的图片,不再满屏"鬼影"和"马赛克"?

一、从"能用"到"好用":NextStep-1.1修了啥?

要理解1.1版本的改进,我们先得回顾一下它的前身NextStep-1。

NextStep-1采用了一种很新颖的架构------自回归流匹配(Autoregressive Flow-Matching)。简单来说,它试图用一种模型(Transformer)同时搞定文本和图像,不像传统方法那样,文本归文本,画图归画图(扩散模型)。

理想很丰满,但现实很骨感。NextStep-1虽然能画图,但经常"翻车"。用户最直观的感受就是:生成的图片有时候会出现莫名其妙的色块、网格状的纹理,甚至结构崩坏的"鬼影"。

这就是所谓的"可视化失败"(Visualization Failures)。

NextStep-1.1的核心任务就是"修Bug"。它通过两大手段,把这些毛病给治好了:

1.1 用强化学习(RL)给画质"磨皮"

在图像生成领域,强化学习通常是用来对齐人类偏好的。NextStep-1.1把RL用在了"磨皮"上。它通过后训练(Post-training),强行修正了模型生成的纹理细节。

结果就是,图片里的噪点变少了,边缘更锐利了,那些讨厌的"马赛克"和伪影也大幅减少。现在的图,看起来终于像一张专业的摄影作品,而不是显卡过热时的花屏截图。

1.2 治好了数值的"抖动病"

之前的模型之所以会画崩,根本原因是在高维空间里算数时"手抖"了(数值不稳定性)。NextStep-1.1优化了底层的计算逻辑,让模型在处理复杂的连续图像Token时更稳。这就好比给手抖的画家装了个防抖云台,每一笔都画在它该在的地方,拼缝和接头处自然就严丝合缝了。

二、技术深挖:为什么要走"自回归"这条窄路?

可能有人会问:现在Stable Diffusion、Flux这些扩散模型(Diffusion Model)已经很成熟了,阶跃星辰为什么非要死磕"自回归流匹配"这条难走的路?

这其实是一场关于"大一统"的豪赌。

2.1 传统架构的"割裂感"

目前主流的文生图模型,大多是"拼凑"出来的。你需要一个语言模型来理解提示词,再需要一个扩散模型来生成图片。这两部分是割裂的,计算量大,且很难真正理解图文之间的深层逻辑。

2.2 自回归的"原生融合"

阶跃星辰选择的自回归路线(Autoregressive),是想让一个模型(Transformer)直接"学会"画图,就像它学会写诗一样。

在NextStep-1.1的架构里:

* 大脑:一个140亿参数(14B)的Transformer,负责统一思考。

* 左手:一个标准的语言头,负责输出文字。

* 右手:一个轻量级的"流匹配头",负责输出图像。

这种架构极其简洁。它不需要庞大的扩散去噪模块,只需要预测"下一个Patch(图像块)长什么样"。如果这条路走通了,未来的多模态模型(能看、能听、能画、能写)将不再是缝合怪,而是一个浑然天成的整体。

三、行业观察:静水流深的技术博弈

NextStep-1.1的发布,虽然没有SOTA(刷榜)那么吸睛,但透露出的信号却很耐人寻味。

3.1 "六小龙"的分化

曾经的"大模型六小龙",现在已经名存实亡。有的转型做应用,有的甚至已经掉队。依然坚持在牌桌上自研基础大模型的,只剩下智谱、MiniMax、Kimi和阶跃星辰这几家。

阶跃星辰的策略很明显:不跟风刷榜,专注啃硬骨头。

无论是之前的Step-1V视频模型,还是现在的NextStep-1.1,他们都在尝试突破现有架构的瓶颈(如扩散模型的计算效率问题),试图找到下一代模型的"版本答案"。

3.2 开源生态的布局

这次NextStep-1.1直接在GitHub和Hugging Face开源,并没有藏着掖着。结合之前开源的端侧模型GELab-Zero和数学模型PaCoRe,阶跃正在构建一个从云端到终端、从通用到垂直的完整生态。

对于开发者来说,这意味着在传统的Diffusion架构之外,多了一种"自回归生成"的新选择。虽然它现在可能还不如Flux那么完美,但它代表了另一种可能性------一种更轻量、更统一的可能性。

结语

NextStep-1.1或许不是那种让你一眼惊艳的"爆款",但它绝对是一个扎实的"补丁"。

它证明了在图像生成领域,除了"堆步数"的扩散模型,自回归+强化学习这条路也是走得通的。对于阶跃星辰来说,这不仅是一次产品的迭代,更是在为未来的原生多模态大模型积累技术拼图。

在喧嚣的AI江湖里,这种死磕底层架构的"笨功夫",或许才是通往决赛圈最稳的门票。

GitHub开源地址:
https://github.com/stepfun-ai/nextstep-1

Hugging Face开源地址:
https://huggingface.co/stepfun-ai/NextStep-1.1

看到这里了还不给博主点一个:
⛳️ 点赞☀️收藏 ⭐️ 关注

💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持!
你们的点赞就是博主更新最大的动力!

相关推荐
_codemonster2 小时前
BERT中的padding操作
人工智能·深度学习·bert
笙枫2 小时前
基于AI Agent框架下的能源优化调度方案和实践 | 架构设计
人工智能·能源
杭州泽沃电子科技有限公司2 小时前
面对风霜雨雪雷电:看在线监测如何为架空线路筑牢安全网
运维·人工智能·在线监测·智能监测
小真zzz2 小时前
Nano Banana Pro与Banana系产品全面解析,深度集成Nano Banana Pro的编辑能力标杆
人工智能·ai·powerpoint·ppt·nano banana pro
睡醒了叭2 小时前
图像分割-深度学习-FCN模型
人工智能·深度学习·计算机视觉
汤姆yu3 小时前
基于深度学习的摔倒检测系统
人工智能·深度学习
qq_12498707533 小时前
基于深度学习的蘑菇种类识别系统的设计与实现(源码+论文+部署+安装)
java·大数据·人工智能·深度学习·cnn·cnn算法
wp123_13 小时前
射频设计中的无磁空心电感抉择:Coilcraft A01TKLC VS 国产替代TONEVEE FTA01-2N5K
人工智能·制造
泰迪智能科技3 小时前
新疆高校大数据人工智能实验室建设案例
大数据·人工智能