能和爸妈讲明白的大模型原理

当我们谈起大模型的原理,迎面而来的是一系列专有名词,例如Transformer 架构、自注意力机制 (Self-Attention)、预训练 (Pre-training)、有监督微调 (SFT)、人类反馈强化学习 (RLHF)、Token 化 (Tokenization)、嵌入向量 (Embeddings)、上下文窗口 (Context Window)、检索增强生成 (RAG) 和缩放法则 (Scaling Laws)。

这些专有名词是那么的多,以至于理解大模型的底层原理变得很困难,更不用说讲解清楚了。本文不涉及任何一个专有名词,用最朴实无华的文字和例子来阐述大模型

相信你看完也能将大模型的原理解释给自己的爸妈听,过年回家和亲戚们吹牛逼,特别好用。 🐶

开篇:从一个问题开始,凭什么说羊听不懂人话

不知道你是否思考过这样一个问题:如果你对一只羊说吃草,羊就能照做;说停止,羊就能停止。那你凭什么说羊听不懂人话

尽管羊能根据我的指令进行行动,但是如果我说"左蹄子刨地3下再吃草",羊就会茫然不知所措,或者直接低头吃草。羊无法理解这种新的组合指令,所以初中生物课本告诉我们:这种行为叫做条件反射------一种针对于特定情况的反应。

那么,现在一个更宏大的问题摆在我们面前: 大家都用过大模型,哪怕输入一本书,它都能快速总结和沉淀中心思想。大模型总能识别我们言语中的各种复杂表达。那么,大模型是懂人话吗?

大模型的核心原理:多维向量映射匹配

大模型也不懂人话。大模型只是在做一种语义匹配 。可以假想大模型中有无数张卡片,每张卡片代表一个词或者字,上面记录了它所有潜在的关联关系

当我们输入:"中国的首都是哪里?" 大模型会找出"中国"和"首都"两张卡片,并计算它们共同指向哪个词的关联度最高。从多个维度上,大模型会发现"北京"这个词的关联度得分最高。

然后,大模型会先吐出得分最高的第一个字:"北"。然后,再将"北"也加入到联想中,继续计算:在"中国、首都、北"的关联度最高的下一个字,也就是"京"。

发现了吗?在人类的大脑中,我们认为"北京"是一个整体;但是对于大模型,北京两个字是单独吐出的,只不过它们组合起来恰好是正确答案而已。

因为大模型和人类的思考方式不同,它压根儿不关心"北京"两个字的合并意义,所以大模型也不懂人话。

但是妙就妙在尽管大模型完全不懂,但是通过它内部非常复杂的匹配计算逻辑,最终还能返回正确的答案。在1957年J.R. Firth提出这个天才想法时,这一切还被当作是天方夜谭,但是这个想法今天已被实现。

大模型与人脑不同的思维方式

不同于人脑的渐进式、有顺序的思维,大模型是批量的、直接的检索 。当被询问滕王阁序的第2句是什么?我们潜意识的是从第一句开始,"豫章故郡,洪都新府。星分翼轸,地接衡庐..."。OK,第2句是星分翼轸,地接衡庐。而大模型通过注意力机制,会把注意力集中在"滕王阁序"和"第2句"上 它不需要像人脑一样从第一句开始想,而是直接找到并逐字吐出"星""分""翼""轸"等字,最终拼成结果返回给你。

如果把人类社会的所有知识,都比做y = 2x这样一条线。那大模型就是用了一个复杂了成千上万倍的公式,来恰好拟合了这条线。人类社会中输入x = 1, 计算得到y = 2 * 1 = 2。而在大模型里,输入 x = 1,经过了复杂了无数倍的计算,y还是恰好等于2。

两个公式完全不同,但是得到的结果相同。就好像一个地球人和一个外星人,接受的教育完全不同,但是最终都用自己的手段计算出了 1 + 1 = 2。这种殊途同归的现象,表明了宇宙真理的恒定,而不依赖特定的实现方式,真是让人惊叹。

花了大量的篇幅,我们终于知道大模型是一种基于复杂单元匹配的模型。越是能力优秀的模型,越是能恰好匹配人类世界的知识。这让它看起来懂人话,实际上只是匹配的准而已。而如果匹配不准,即没有返回正确答案------例如说在大模型的初期,大模型总是编造一些回复------我们就说大模型出现了幻觉。

大模型的发展方向

那么大模型的发展方向也就昭然若揭了------即吸收足够多的知识,成为一位全知全能的神 。当然,考虑到大模型只是对过去所有信息的匹配,也没有自我的主观能动性。它既没法知道未来的情况,也没有办法理解人类历史上从来没有出现过的情况。叫神肯定是过分了,但是它仍可以尝试成为冻结在此时此刻的、人类知识快照中的、极速运转的百科全书 + 推理机。

在模型能力无限强悍、算力无限充足、且全部知识模型都已了解的理想情况下,人类提出的任何不需要创造性、只需要计算的问题,大模型瞬间就能给出答案。

例如DNA测序瞬间就能解决、PB级别的数据瞬间就能分析、几百亿种情况的推衍瞬间就能结束。只需要出一个想法,大模型就能遍历人类已有的方法来验证,人类将在基础科学上取得长足的进步,进而推动社会取得突飞猛进的发展。

目前大模型的限制

为什么大模型目前还做不到呢?因为算力有限、知识有限、模型能力有限。

训练一个像 GPT-4 这样的大模型所需要的总计算量大概是10的25次方量级,而训练一个超级人工智能需要大概10的28次方量级的总计算量或者更高。这相当于去攀爬一座至少1000米高的山,而我们仅仅爬了1米而已

粗估英伟达一年能卖150W张H100高端AI芯片,这些芯片每年能提供给10的28次方量级的新增算力。看起来算力的物理供给已经足够支持总计算量10的27次方这种级别模型了,但是不好意思,数据又跟不上了。

根据AI届的缩放法则,要训练10的27次方计算量的模型,需要10倍于当前知识的数据量。而目前互联网上可用于训练的高质量文本数据总量,其数量约为10的15次方量级,即使算上音视频经过编码后的信息,总量也没有达到 10 倍的巨大飞跃。相当于芯片够了,训练数据也不够,巧妇难为无米之炊。

如何训练更强的大模型

算力有限、知识有限,自然训练不出更高能力的模型。缺算力无非就是融资、开大马力抓紧生产AI高性能芯片。知识怎么解决呢?

除了使用上面说的音视频,还有就是让机器去自己收集数据。例如,一辆自动驾驶的车行驶一天,它收集的数据就是海量的,且是没有被人类归纳简化后的数据。让具身机器人去自己触摸,感受,各种传感器疯狂收集。

人类对于这个世界的了解还是太少了,我们已知的物理定律,只能解释宇宙中全部物质-能量构成的约 4.9%。未来,数据收集的规模和质量,将成为未来科学突破的关键驱动力,而先进的机器人技术正是实现这一目标的最有效途径。

自动驾驶和机器人,不仅有自身的价值,还能收集数据来训练更强大的大模型;而更强大的大模型反过来又能训练更高阶的自动驾驶和能力更强的机器人,从而形成正向循环。

AI是改变自身命运的最好机会

何其有幸,我们这代人正站在 AI 驱动的数据爆炸与智能爆发的奇点上。AI 的车轮必将滚滚向前,它不仅是技术的革新,更是对人类价值的重新定义:过去需要耗费数年才能完成的基础科学验证,现在可能瞬间完成;过去因为成本太高而不值得探索的领域,现在即将打开。

这是一场由算力、数据和模型能力共同谱写的史诗;它将极大提升生产力,并不可避免地重塑生产关系和财富分配。

积极的拥抱AI,尽自己的全力去了解和使用它,寻找相关的机遇。这可能是我们这代人改变自己命运的最好机会

相关推荐
产品设计大观2 小时前
6个宠物APP原型设计案例拆解:含AI问诊、商城、领养、托运
大数据·人工智能·ai·宠物·墨刀·app原型·宠物app
霍理迪2 小时前
CSS文本样式
前端·css
Codebee2 小时前
Ooder全栈框架:AI理解业务的多字段表单智能布局技术实现
人工智能
weilaikeqi11112 小时前
汪喵灵灵荣获“兴智杯”全国AI创新应用大赛一等奖,彰显AI宠物医疗硬实力
人工智能·百度·宠物
Ashley_Amanda2 小时前
JavaScript 中 JSON 的处理方法
前端·javascript·json
aliprice2 小时前
Target电商平台研究指南:十款实用工具助力全渠道零售与品牌营销分析
人工智能·零售
yiersansiwu123d2 小时前
多模态突破:AI规模化应用的关键密码
人工智能
renhongxia12 小时前
面向图像处理逆问题的扩散模型研究综述
图像处理·人工智能
烛阴2 小时前
C# 正则表达式(3):分组与捕获——从子串提取到命名分组
前端·正则表达式·c#