先说Sora背后的 OpenAI

近期的快乐源泉 ⬇️

Video generation models as world simulators

嗯，很狂的名字～～

言归正传，先这里引用陆奇的去年对大模型的世界观。值得一提的是，当时还没出现 Sora。

从技术角度讲OpenAI大事迹，它怎么把大模型时代带来的？

为什么讲OpenAI，不讲Google、微软。讲真心话，因为我知道，微软好几千人也做这个，但不如OpenAI。一开始比尔·盖茨根本不相信OpenAI，大概6个月前他还不相信。4个月前看到GPT-4的demo（产品原型），目瞪口呆。他写了文章说：It's a shock，this thing is amazing（这太令人震惊了，这东西太神奇了）。谷歌内部也目瞪口呆。

OpenAI一路走下来的关键技术：

GPT-1是第一次使用预训练方法来实现高效语言理解的训练；
GPT-2主要采用了迁移学习技术，能在多种任务中高效应用预训练信息，并进一步提高语言理解能力；
DALL·E是走到另外一个模态；
GPT-3主要注重泛化能力，few-shot（小样本）的泛化；
GPT-3.5 instruction following（指令遵循）和tuning（微调）是最大突破；
GPT-4 已经开始实现工程化。
2023年3月的Plugin是生态化。
2024年2月的Sora实现了将Transformer和扩散模型结合的创新，可以"以假乱真"实现真正意义上的文生视频能力。

世界模型-有多远？

AI 能理解运动中的物理世界，这是世界模型吗？意味着什么？

如果AI无法理解新的物理定律，它就不能被认为是等同于或超越人类的智能。

现在我们看到的以为理解的sora，其实只是学会了物体和物体之间的"关联性"，而非"因果性"，所以我认为这不是真正的世界模型。
真实的世界都有特定的描述方式，比如水从高往低流、击掌后会有声音、吃美食嘴巴会动，现阶段的Sora模拟到的只是图像、视觉效果上的技巧，这是可以涵盖我们看到的世界，但肯定不是准确的完整的表达。
因为离AI发现牛顿第二定律"F=Ma"还是太遥远了。

不过，可能也只是时间的问题。

我们-Why not us？

人：最重要

为什么OpenAI可以跑通所有AGI技术栈？

第一：对解决问题本身的全情投入，以及超脱自我的纯粹专注力，我相信是任何成功技术背后的不可或缺的动力。

看过Sora团队的核心人物，都会注意到这位 bill 小哥从博士毕业到真正工作还不到一年时间， 但他似乎并未受到绩效评估、OKR、或汇报PPT等日常琐碎的困扰，估计也不会有来自生活的买车买房的压迫感。相反，他的精力应该是更多地集中在真正解决text-to-vide这1事情。

就只是对 这1件事 ，这无关外界！无关物质！无关名利！一种清心寡欲的执行力！

为什么每次都是OpenAI"赢"？肯定不是运气特别好

第二：对风险承担能力和和对失败的容忍态度，是我们应该学习的地方。

谢赛宁在网上有表达过，Sora团队夜以继日996的状态已经很长了，应该也失败了很多次，但不满足于现状，愿意尝试，敢于挑战，不畏惧在探索中碰壁。

So，以上2点，我们之间应该很少有人做到。。吧。。

环境：重要？也没那么重要

OpenAI的强------关键强在哪里？？

真正的技术创新不仅仅是源自科学实验室或者顶会论文的产物，它更应该是通过对市场需求的理解、结合优秀的产品设计和极强的执行力，能转化为社会广泛接受的技术巨变。

OpenAI不是transformer模型发明者，Stable Diffusion不是[diffusion]模型发明者，
这些在专业人士看来似乎超级简单的底层技术被[巧妙组合]起来，并在正确的时间和正确的方式下产生了这场技术革命
不过，不可否认的是altman真的是营销天才～！。
Sora不是"一个人在战斗"，而且这些人每个人都身怀绝技，他们集齐了七颗龙珠，今天召唤出了神龙！

Google的强------现在难以描述？

老美不还有一个给经常别人做嫁衣的"冤大头"吗？ - google～

不过发布的新产品《Gemma: Introducing new state-of-the-art open models》，同Gemini Pro 1.5以及以往风格一致，全篇乍看都是相当爆裂的数字指标，高举高打"open"，话说什么时候可以把中文加进去，给我点测试的勇气。
感觉它像一只不服输的大象，笃定着往自己坚定的方向前进，说不上固执、但也谈不上机智。不过好像看上去真的很笨重了，扭头转身或是向前奔跑都有些吃力
无论如何，从开源tensorflow到transformer再到今天的Gemma，我都致敬deepmind！YYDS

我们------为什么不是我们，该怎么追击？

我们，人类，应该想着怎么创造出一个好工具，而不是和工具抢活。
计算机也好，人工智能也罢，它都是一个控制器，不要在乎它能计算什么，而在于它能控制什么样的对象，输出些什么。（忘记谁说的了）
所以它最重要的商业价值是控制哪些生产力和生产关系，这能推动产业的进步和资源的利用，而不仅仅只是产生一些娱乐的片段。

one more thing

送给还在打工的自己，以及读博客的你们

在技术快速迭代的过程中，

不必对自己严苛到妄自菲薄，甚至自我贬低。

什么东西能在大模型的演进过程中乘风破浪获得受益，

什么东西又在大模型演进过程中被冲垮，甚至被淘汰。

------ 这两个问题我们要好好想一想了。

做自己擅长的事情吧，剩下的，交给时间。

漫谈我眼中的：Sora、世界模型和我们