技术栈
大模型自回归
TGITCIC
4 天前
人工智能
·
自回归
·
扩散
·
deepseek
·
大模型自回归
·
大模型扩散
7B斗671B:扩散模型能否颠覆自回归霸权?
DeepSeek V3以6710亿参数稳坐自回归模型的“巨无霸”地位,而70亿参数的Dream 7B却在多项测试中与其不分伯仲。例如,在需要复杂规划的“倒计时任务”中,Dream 7B的解题成功率比DeepSeek V3高出12%,甚至超越了同参数量级的Qwen2.5和LLaMA3。这种“以小搏大”的表现,让研究者重新审视模型架构的底层逻辑。