技术栈

复古大模型

RedAnts110
4 小时前
泛化能力·复古大模型·预训练范式·数据迷信
1931年的大模型能写代码?GPT之父的“穿越“实验,撕开了AI界最大的谎言摘要GPT之父Alec Radford团队用百年前的数据训练了一个130亿参数的"古董"大模型talkie-1930-13b。这个从未见过计算机的模型,仅用250个样本微调后就能为现代Python库打补丁,在SWE-bench基准达到4.5%通过率,与"吃下整个互联网"的现代模型仅差1个百分点。这场"穿越"实验揭示了一个惊人真相:大模型的能力,或许根本不是来自海量数据,而是来自某种更深层的东西。
我是有底线的