先说Sora背后的 OpenAI
近期的快乐源泉 ⬇️
Video generation models as world simulators
嗯,很狂的名字~~
言归正传,先这里引用陆奇的去年对大模型的世界观。值得一提的是,当时还没出现 Sora。
从技术角度讲OpenAI大事迹,它怎么把大模型时代带来的?
- 为什么讲OpenAI,不讲Google、微软。讲真心话,因为我知道,微软好几千人也做这个,但不如OpenAI。一开始比尔·盖茨根本不相信OpenAI,大概6个月前他还不相信。4个月前看到GPT-4的demo(产品原型),目瞪口呆。他写了文章说:It's a shock,this thing is amazing(这太令人震惊了,这东西太神奇了)。谷歌内部也目瞪口呆。
OpenAI一路走下来的关键技术:
- GPT-1是第一次使用预训练方法来实现高效语言理解的训练;
- GPT-2主要采用了迁移学习技术,能在多种任务中高效应用预训练信息,并进一步提高语言理解能力;
- DALL·E是走到另外一个模态;
- GPT-3主要注重泛化能力,few-shot(小样本)的泛化;
- GPT-3.5 instruction following(指令遵循)和tuning(微调)是最大突破;
- GPT-4 已经开始实现工程化。
- 2023年3月的Plugin是生态化。
- 2024年2月的Sora实现了将Transformer和扩散模型结合的创新,可以"以假乱真"实现真正意义上的文生视频能力。
世界模型-有多远?
AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?
如果AI无法理解新的物理定律,它就不能被认为是等同于或超越人类的智能。
-
现在我们看到的以为理解的sora,其实只是学会了物体和物体之间的"关联性",而非"因果性",所以我认为这不是真正的世界模型。
-
真实的世界都有特定的描述方式,比如水从高往低流、击掌后会有声音、吃美食嘴巴会动,现阶段的Sora模拟到的只是图像、视觉效果上的技巧,这是可以涵盖我们看到的世界,但肯定不是准确的完整的表达。
-
因为离AI发现牛顿第二定律"F=Ma"还是太遥远了。
不过,可能也只是时间的问题。
我们-Why not us?
人:最重要
为什么OpenAI可以跑通所有AGI技术栈?
第一:对解决问题本身的全情投入,以及超脱自我的纯粹专注力,我相信是任何成功技术背后的不可或缺的动力。
- 看过Sora团队的核心人物,都会注意到这位 bill 小哥 从博士毕业到真正工作还不到一年时间, 但他似乎并未受到绩效评估、OKR、或汇报PPT等日常琐碎的困扰,估计也不会有来自生活的买车买房的压迫感。相反,他的精力应该是更多地集中在真正解决text-to-vide这1事情。
就只是对 这1件事 ,这无关外界!无关物质!无关名利!一种清心寡欲的执行力!
为什么每次都是OpenAI"赢"?肯定不是运气特别好
第二:对风险承担能力和和对失败的容忍态度,是我们应该学习的地方。
- 谢赛宁在网上有表达过,Sora团队夜以继日996的状态已经很长了,应该也失败了很多次,但不满足于现状,愿意尝试,敢于挑战,不畏惧在探索中碰壁。
So,以上2点,我们之间应该很少有人做到。。吧。。
环境:重要?也没那么重要
OpenAI的强------关键强在哪里??
真正的技术创新不仅仅是源自科学实验室或者顶会论文的产物,它更应该是通过对市场需求的理解、结合优秀的产品设计和极强的执行力,能转化为社会广泛接受的技术巨变。
-
OpenAI不是transformer模型发明者,Stable Diffusion不是[diffusion]模型发明者,
-
这些在专业人士看来似乎超级简单的底层技术被[巧妙组合]起来,并在正确的时间和正确的方式下产生了这场技术革命
-
不过,不可否认的是altman真的是营销天才~!。
-
Sora不是"一个人在战斗",而且这些人每个人都身怀绝技,他们集齐了七颗龙珠,今天召唤出了神龙!
Google的强------现在难以描述?
老美不还有一个给经常别人做嫁衣的"冤大头"吗? - google~
-
不过发布的新产品《Gemma: Introducing new state-of-the-art open models》,同Gemini Pro 1.5以及以往风格一致,全篇乍看都是相当爆裂的数字指标,高举高打"open",话说什么时候可以把中文加进去,给我点测试的勇气。
-
感觉它像一只不服输的大象,笃定着往自己坚定的方向前进,说不上固执、但也谈不上机智。不过好像看上去真的很笨重了,扭头转身或是向前奔跑都有些吃力
-
无论如何,从开源tensorflow到transformer再到今天的Gemma,我都致敬deepmind!YYDS
我们------为什么不是我们,该怎么追击?
-
我们,人类,应该想着怎么创造出一个好工具,而不是和工具抢活。
-
计算机也好,人工智能也罢,它都是一个控制器,不要在乎它能计算什么,而在于它能控制什么样的对象,输出些什么。(忘记谁说的了)
-
所以它最重要的商业价值是控制哪些生产力和生产关系,这能推动产业的进步和资源的利用,而不仅仅只是产生一些娱乐的片段。
one more thing
送给还在打工的自己,以及读博客的你们
在技术快速迭代的过程中,
不必对自己严苛到妄自菲薄,甚至自我贬低。
什么东西能在大模型的演进过程中乘风破浪获得受益,
什么东西又在大模型演进过程中被冲垮,甚至被淘汰。
------ 这两个问题我们要好好想一想了。
做自己擅长的事情吧, 剩下的,交给时间。