【AI学习】Ben Thompson对 Nat Friedman 和 Daniel Gross的采访

读了Ben Thompson对 Nat Friedman 和 Daniel Gross的采访这篇文章,挺有趣。

先说最有趣的几个地方:

  • 关于维苏威火山碳化古卷挑战:有趣而有意义!
  • 有关日本的预测:有可能依靠芯片制造业,也许 2030 年代就又是日本的十年。
  • 有关扎克伯格:别跟扎克伯格对赌!时间点,ChatGPT推出前一个月,英伟达在谷底,要卖掉大量芯片,扎克伯格也在谷底,股市在抛售Meta。但是,不要和扎克伯格对赌,就是股市抛售的那个季度,扎克伯格收购了英伟达所有芯片订单。然后,一年以后的事情,大家都看到了!真是人才啊!敢于在逆境中扩大规模!
    (恰好,昨天也看到有关小扎的这样一个描述:在硅谷,能够在科技创新领域取得卓越成就的天才,常常是内向者。芝加哥的一家咨询公司ghSMART就曾专门耗费10年时间,对超过2000名CEO展开了性格特征分析,最终得出结论也印证了这一点。来自硅谷的一份心理诊断报告也显示,被外界冠以"天才病"的孤独症谱系障碍,在寻常人群中的发病率约为万分之七,但而在硅谷,这项比例被提高了整整42倍。扎克伯格就曾在采访中表示,自己偏爱独处,可以自己一个人闷在屋子里三天不睡觉。)
  • 有趣的观点:有关宗教和AI,"我在想宗教改革,因为我认为在 1517 年,马丁·路德写了 95 条论纲,通过印刷术,他设法创立了一种在欧洲传播的新宗教。在某种程度上,每个人都在想着,试图将 ChatGPT 与印刷术进行类比,但实际上它们起到的作用几乎相反。......整个过程都是在相反的方向上进行的,印刷术是一种通过书籍传播信息、说服人们做事的技术(the printing press was a technology to disseminate information through a book basically and convince people to do things),而大语言模型则是一种「反书籍」技术(the kind of antibook is the LLM agent),它非常简洁地总结了事物。如果确实是这样的话,它能唤醒人们意识到他们长期以来一直是宗教的同谋,因为它非常简洁地为你总结了这些事情,并将所有事物放在隐藏空间中,突然你意识到,「等一下,这个素食主义概念与另一个概念息息相关。」在某种程度上,大语言模型技术是一种反向的宗教改革(a kind of Reformation in reverse),每个人都突然意识到了有很多事情是错误的。"
  • 两段很搞笑的话语:
    看到所有这些公司的 CEO 都在吹嘘他们的 MMLU 参数指标(MMLU number, 大规模多任务语言理解基准)是很有趣的,而 MMLU 是丹·亨德里克斯 ( Dan Hendrycks ) 在大学本科时自己开发的一个评估。所以你基本上是看到万亿美元公司的 CEO 在谈论他们在一个本科生推出的测试中的分数,而这是目前最重要的推理评估(the premier reasoning eval)之一。
    在苹果公司,有一个有趣的说法是,「硬件人员认为一切都是软件问题。而软件人员认为一切都是硬件问题。」

当然整个谈话都很有趣,很多有趣的观点,摘录一些如下:

关于维苏威火山碳化古卷挑战:似乎几乎没有人知道这件事,知道有成千上万卷无法打开的古代卷轴,我们想,也许我们可以激励 1000 个在家里用笔记本电脑的人去破解它,而这基本上就是目前发生的事情

在文本中,也存在着分布的梯度,任何预训练过模型的人都会告诉你,大部分文本是无用的(there's a gradient in a distribution and anyone pre-training a model will tell you that most of the text is useless),实际上,文本或视频中非常高质量的 tokens 数量很少。在音乐中可能也是如此。这里存在一个有趣的帕累托分布(Pareto distribution)

transformer 架构的神奇之处在于即使数据质量很糟糕,它也能工作。......但我认为人们忘记了,如果数据是高质量的,它的效果只会更好。所以,真正的奇迹是,即使数据不好,它也勉强能工作,但如果数据好得多,它的效果要好得多。

你会使用 Sora 类型的模型来模拟飞机机翼如何工作的吗(Sora-type models to model an aircraft wing)?我非常怀疑这一点。但是,实际上,对于你所说的这一点,在涉及到虚拟现实的例子中是一个无关紧要的问题。当你在虚拟现实中或在任何娱乐场景中时,实际上没有人关心空气在机翼上的物理情况是否完美贴合现实。如果你想逐帧分析今天电影中 CGI 的物理情况,你可能会发现各种各样的漏洞,但实际上这并不重要。对我来说,这才是重要的。这些模型的「物理学」已经足够好了,而足够好的「物理学」在很多情况下都足够用了。

文本在逻辑上更密集,但视频更大量(Text is more logically dense, but videos are more)

我的一个看法是,我们将进入一个更加有主动代理能力的模型世界(a more agentic world of models),在这个世界中,我们现在拥有的东西都还只是处于「寒武纪生物大爆炸之前」的时期

AI 公司在训练模型时经历了两个周期,他们相对较不关心利润空间,他们只想要最好的 GPU,他们不想冒任何风险。你花了 3 亿美元,你只是希望你的模型能够「正常输出」(you just want your model to「tape out」properly),然后如果你找到产品市场契合点 ( product market fit,也就是有人为你的产品买单并且有机增长 ),你就会自然进入推理时代。

台积电在日本的建设非常顺利,这与亚利桑那州的情况正好相反。他们建立的 28 纳米工厂主要集中在服务汽车公司,因为这是一个明确的市场需求。但我认为台积电从中得到的启示是:「如果我们要持续存在下去,如果台湾垮台或受到攻击,那么日本就是一个更好的文化适应环境,而且日本在制造方面的卓越表现是被人们认可和熟知的。」

如果人工智能爆发真的成为现实,也许 2030 年代就又是日本的十年,如果他们真的能够制造所有这些产业链组件,那些由于各种原因必须从台湾转移出去的。

芯片制造过去是劳动密集型的,比你想象的更加劳动密集。......但是现在,随着自动化水平的提高和相对劳动成本的变化,更多地涉及到隐性知识和知道如何使机器工作起来,而不是实际的劳动人力成本。芯片制造的劳动成分变得更加高端(the labor component of chips has moved much more high-end),更远离低成本的工作。日本重新成为制造业的非常合适的地方,这在过去的 20 年里并不是这样。

但 Meta 收购了所有这些芯片订单,所以他们在其他所有人之前买进了市场上所有的 GPU,他们上个季度披露的庞大计算集群就是因为那个特定季度的投资。在股市抛售 Meta 的那个季度,实际上是他们未来五年中最重要的投资之一。......别跟扎克伯格对赌!......时机也很关键吧?那正好是在 ChatGPT 推出之前的一个月。所以,他们在有任何竞争出现之前就完成了所有的 GPU 购买。我敢肯定,他们支付的价格比现在任何人支付的价格都要低得多。

我觉得 Gemini 1.5 版本是令人惊讶的,并且像 Groq 这样的验证方式也扩展了我对这些模型的预期。因为这个想法是,「看,只需把你想要的东西全部丢到上下文窗口里,你不需要构建某种 RAG(Retrieval-Augmented Generation 检索增强生成)系统。你不需要弄清楚什么放进去,什么不放进去。」对我来说,这种便利性,是的,速度可能相对较慢,但这在某种程度上是一个巨大的改变,你可以做一些愚蠢的事情。我链接了一条推特,有人在《了不起的盖茨比》(Great Gatsby)中插入了一行文字,并看看它能否找到。就像,「谁会做这种事情呢 ( Who's going to ever do that)」。「谁会做这种事情呢?」这句话定义了最终会成为大事件的新产品,而且我觉得这种可能性,对我来说,这种可能性---是的,从小上下文窗口到大上下文窗口的程度是有差异的,但对我来说,1.5 版本跨越了,它成为了一个巨大的改变,你可以随心所欲地做任何你想做的事情。......Gemini 让普通人可以微调一个模型(This lets normal people fine-tune a model),你实际上什么都不用做,只是把你所有的东西丢进去,它会自己解决。

对长语境上下文的押注非常重要(the bet on long context is very important),我们认为,不仅能检索出海量信息,还能对海量信息进行推理,这是一种超级能力,我的意思是,这在一定程度上是人类的能力。我们人类有情景记忆(episodic memory)和程序性记忆 ( procedural memory ),能够随着时间的推移保留技能或记忆,并且一直存在一个问题,「人工智能模型如何做到这一点?它们将如何发展情景或程序性记忆?」 在上下文语境中,你可以做到这两点。

在谈论分片时,我记得他们是在讨论用在训练。但似乎他们也在推理的情况下使用分片,他们有这种分布工作负载的能力,不仅仅是跨芯片、跨集群,而且至少在理论上,也跨数据中心(not just across chips, not just across clusters, but at least in theory, across data centers),这带来了巨大的挑战......谷歌的网络能力(networking capabilities)一直以来都是众所周知的,但我不确定人们是否意识到这种优势如何能应用在解决这些问题上

今天的 ChatGPT,甚至是 Gemini,这些人工智能模型更接近于人们(哼唱曲子时)的押韵而不是在思考(these models are a little bit closer to someone rhyming and not thinking)。......主动推理(active reasoning)是我认为许多人正在为之努力的重要事情,是的,我们已经看到了一些相当引人注目的东西。一切都还处于非常早期的阶段,但如果说人工智能领域今年有一个重大突破的话(if there's a big breakthrough of the year),如果我必须猜测的话,那不会是上下文窗口( context window),而是非常大的上下文与主动推理和自主思考的结合(very large context combined with active reasoning and thinking)。

我认为如果有人能够创造一种能够像人类一样,在他们选择的任何领域中主动推理,以及主动思考问题的东西(if someone had something that had active reasoning and actively thought-through problems the way humans do in whatever domain they choose),那么他们就能领先于别人。

在苹果公司,有一个有趣的说法是,「硬件人员认为一切都是软件问题。而软件人员认为一切都是硬件问题。」

关于Gemini 推出后的灾难:我们从谷歌的一些员工那里听到,这些模型本身,这不太可能是模型训练中的一个深层问题,而更像是后来某个人在产品化过程中做出的决定。因此,可能存在一套系统提示或模板(a set of system prompts or templates),或者类似的东西,强加了一组规则和指导方针给模型,而原始的内部模型并没有做成这个样子。

在我的脑海中,我总是想象成,你在试图在床上拉一张非常紧的床单,那就是你的嵌入空间(embedding space),你把床单拉到右上角,底部左角就会弹出,你这样做,然后右上角也会弹出,这就是你要做的事情。你试图将这个高维空间对齐到一组特定的数学值(align this high dimensional space to a particular set of mathematical values),但在某个时候你永远不会得到一个完美的答案或零损失。所以,顺序很重要,传统上微调更多是在预训练的最后阶段进行的。

如果在模型训练最后阶段输入了特定的一小组信念,它就会无缝地扩展到整个集合。

无论 Gemini 或者其他的模型发生了什么,我们都会观察到这些模型,它们都包含在一个潜在地下的「荣格平面」上(a kind of subterranean Jungian plane),这些平面会自动地调整彼此。模型没有做错任何事情,它只是反映了我们人类的所作所为,结果表明这些东西会物以类聚(they cluster into similar buckets)。

我在想宗教改革,因为我认为在 1517 年,马丁·路德写了 95 条论纲,通过印刷术,他设法创立了一种在欧洲传播的新宗教。在某种程度上,每个人都在想着,试图将 ChatGPT 与印刷术进行类比,但实际上它们起到的作用几乎相反。......整个过程都是在相反的方向上进行的,印刷术是一种通过书籍传播信息、说服人们做事的技术(the printing press was a technology to disseminate information through a book basically and convince people to do things),而大语言模型则是一种「反书籍」技术(the kind of antibook is the LLM agent),它非常简洁地总结了事物。如果确实是这样的话,它能唤醒人们意识到他们长期以来一直是宗教的同谋,因为它非常简洁地为你总结了这些事情,并将所有事物放在隐藏空间中,突然你意识到,「等一下,这个素食主义概念与另一个概念息息相关。」在某种程度上,大语言模型技术是一种反向的宗教改革(a kind of Reformation in reverse),每个人都突然意识到了有很多事情是错误的。

微调一个模型与制作网站的漂亮登陆页一样,是一种审美艺术(fine-tuning a model is just as aesthetic an art as making a beautiful landing page for your website)。

Mistral,一个拥有法国文化和法国风格产品的法国 AI 创业公司,能够生产出一个,值得称赞的模型,我是说,它可能不是最聪明的模型,但至少在我的个人测试中,它相对循规蹈矩,它的政治语气也非常中立,这也应该不足为奇。

关于谷歌现在该怎么办:他们缺少一个主编(a missing editor),缺少一个产品主编(a missing product editor),缺少一个有品味和判断力的人,一个在公司中有权利否决任何人并确保正确事情的人。我认为领导层的改变必须发生,文化是公司中最难改变的一种。你可以进行战略变更,产品变更,运营变更。文化变革是最困难的,只有通过领导力才能实现。我们要么需要看到谷歌领导层有明显不同的行为改变,要么需要看到完全不同的领导者。

AI 是一个令人兴奋的事物,因为它让一些原本难以注意到或容易隐藏的事情变得清晰可见。在过去的一周里,AI 让谷歌的一些文化方面的问题变得非常明晰可见

Mistral 具有初创公司的敏捷性,我认为这点很重要。也许他们还有一些「有益的」限制。他们只有有限的资本,只有有限的计算资源,所以他们会着手解决这些约束条件。

我们之前谈到的 Mistral 非常关心的一件事情就是数据的质量,我们知道他们非常努力地清理他们的训练数据,并且通过这样做有效地获得了 "计算倍增器" ( a compute multiplier ),从而获得了 "质量倍增器" ( a quality multiplier )。但现在他们的模型表现远远超过了他们的权重,感觉几乎像是一个魔术。他们的新 Mistral 大型模型在评估中表现非常出色,他们还没有完全透露是什么,也许是 Mistral 中型模型的混合专家模型之类的东西(MOE mixture of Mistral mediums)。

看到所有这些公司的 CEO 都在吹嘘他们的 MMLU 参数指标(MMLU number, 大规模多任务语言理解基准)是很有趣的,而 MMLU 是丹·亨德里克斯 ( Dan Hendrycks ) 在大学本科时自己开发的一个评估。所以你基本上是看到万亿美元公司的 CEO 在谈论他们在一个本科生推出的测试中的分数,而这是目前最重要的推理评估(the premier reasoning eval)之一。

有一项进展似乎落后得最远,那就是对模型的 "评估"(evals)。

安德烈·卡帕西(Andrej Karpathy)曾经告诉我们,他唯一信任的模型评估是 Twitter 上的评估。在模型发布后,你可以在几周后检查 Twitter 上的用户情绪,看人们是否喜欢它。但每个公司的 CEO 都在训练这些大模型时,说:「我们必须站在榜单榜首。」顺便问一下,这个榜单是什么?这个榜单是一些本科生凑在一起弄出来的东西,是伯克利的人组织的 Chatbot Arena。

相关推荐
ZFSS8 分钟前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区1 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈1 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang2 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx
shengjk13 小时前
NanoClaw 深度剖析:一个"AI 原生"架构的个人助手是如何运转的?
人工智能
西门老铁5 小时前
🦞OpenClaw 让 MacMini 脱销了,而我拿出了6年陈的安卓机
人工智能
恋猫de小郭6 小时前
AI 可以让 WIFI 实现监控室内人体位置和姿态,无需摄像头?
前端·人工智能·ai编程
是一碗螺丝粉6 小时前
5分钟上手LangChain.js:用DeepSeek给你的App加上AI能力
前端·人工智能·langchain
两万五千个小时6 小时前
落地实现 Anthropic Multi-Agent Research System
人工智能·python·架构