漫谈我眼中的:Sora、世界模型和我们

先说Sora背后的 OpenAI

近期的快乐源泉 ⬇️

Video generation models as world simulators

嗯,很狂的名字~~

言归正传,先这里引用陆奇的去年对大模型的世界观。值得一提的是,当时还没出现 Sora。

从技术角度讲OpenAI大事迹,它怎么把大模型时代带来的?

  • 为什么讲OpenAI,不讲Google、微软。讲真心话,因为我知道,微软好几千人也做这个,但不如OpenAI。一开始比尔·盖茨根本不相信OpenAI,大概6个月前他还不相信。4个月前看到GPT-4的demo(产品原型),目瞪口呆。他写了文章说:It's a shock,this thing is amazing(这太令人震惊了,这东西太神奇了)。谷歌内部也目瞪口呆。

OpenAI一路走下来的关键技术:

  1. GPT-1是第一次使用预训练方法来实现高效语言理解的训练;
  2. GPT-2主要采用了迁移学习技术,能在多种任务中高效应用预训练信息,并进一步提高语言理解能力;
  3. DALL·E是走到另外一个模态;
  4. GPT-3主要注重泛化能力,few-shot(小样本)的泛化;
  5. GPT-3.5 instruction following(指令遵循)和tuning(微调)是最大突破;
  6. GPT-4 已经开始实现工程化。
  7. 2023年3月的Plugin是生态化。
  8. 2024年2月的Sora实现了将Transformer和扩散模型结合的创新,可以"以假乱真"实现真正意义上的文生视频能力。

世界模型-有多远?

AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?

如果AI无法理解新的物理定律,它就不能被认为是等同于或超越人类的智能。

  • 现在我们看到的以为理解的sora,其实只是学会了物体和物体之间的"关联性",而非"因果性",所以我认为这不是真正的世界模型。

  • 真实的世界都有特定的描述方式,比如水从高往低流、击掌后会有声音、吃美食嘴巴会动,现阶段的Sora模拟到的只是图像、视觉效果上的技巧,这是可以涵盖我们看到的世界,但肯定不是准确的完整的表达。

  • 因为离AI发现牛顿第二定律"F=Ma"还是太遥远了。

不过,可能也只是时间的问题。


我们-Why not us?

人:最重要

为什么OpenAI可以跑通所有AGI技术栈?

第一:对解决问题本身的全情投入,以及超脱自我的纯粹专注力,我相信是任何成功技术背后的不可或缺的动力。

  • 看过Sora团队的核心人物,都会注意到这位 bill 小哥 从博士毕业到真正工作还不到一年时间, 但他似乎并未受到绩效评估、OKR、或汇报PPT等日常琐碎的困扰,估计也不会有来自生活的买车买房的压迫感。相反,他的精力应该是更多地集中在真正解决text-to-vide这1事情

就只是对 这1件事 ,这无关外界!无关物质!无关名利!一种清心寡欲的执行力!


为什么每次都是OpenAI"赢"?肯定不是运气特别好

第二:对风险承担能力和和对失败的容忍态度,是我们应该学习的地方。

  • 谢赛宁在网上有表达过,Sora团队夜以继日996的状态已经很长了,应该也失败了很多次,但不满足于现状,愿意尝试,敢于挑战,不畏惧在探索中碰壁。

So,以上2点,我们之间应该很少有人做到。。吧。。


环境:重要?也没那么重要

OpenAI的强------关键强在哪里??

真正的技术创新不仅仅是源自科学实验室或者顶会论文的产物,它更应该是通过对市场需求的理解、结合优秀的产品设计和极强的执行力,能转化为社会广泛接受的技术巨变。

  • OpenAI不是transformer模型发明者,Stable Diffusion不是[diffusion]模型发明者,

  • 这些在专业人士看来似乎超级简单的底层技术被[巧妙组合]起来,并在正确的时间和正确的方式下产生了这场技术革命

  • 不过,不可否认的是altman真的是营销天才~!。

  • Sora不是"一个人在战斗",而且这些人每个人都身怀绝技,他们集齐了七颗龙珠,今天召唤出了神龙!

Google的强------现在难以描述?

老美不还有一个给经常别人做嫁衣的"冤大头"吗? - google~

  • 不过发布的新产品《Gemma: Introducing new state-of-the-art open models》,同Gemini Pro 1.5以及以往风格一致,全篇乍看都是相当爆裂的数字指标,高举高打"open",话说什么时候可以把中文加进去,给我点测试的勇气。

  • 感觉它像一只不服输的大象,笃定着往自己坚定的方向前进,说不上固执、但也谈不上机智。不过好像看上去真的很笨重了,扭头转身或是向前奔跑都有些吃力

  • 无论如何,从开源tensorflow到transformer再到今天的Gemma,我都致敬deepmind!YYDS

我们------为什么不是我们,该怎么追击?

  • 我们,人类,应该想着怎么创造出一个好工具,而不是和工具抢活。

  • 计算机也好,人工智能也罢,它都是一个控制器,不要在乎它能计算什么,而在于它能控制什么样的对象,输出些什么。(忘记谁说的了)

  • 所以它最重要的商业价值是控制哪些生产力和生产关系,这能推动产业的进步和资源的利用,而不仅仅只是产生一些娱乐的片段。

one more thing

送给还在打工的自己,以及读博客的你们

在技术快速迭代的过程中,

不必对自己严苛到妄自菲薄,甚至自我贬低

什么东西能在大模型的演进过程中乘风破浪获得受益,

什么东西又在大模型演进过程中被冲垮,甚至被淘汰。

------ 这两个问题我们要好好想一想了。

做自己擅长的事情吧, 剩下的,交给时间。

相关推荐
啦啦啦!1 分钟前
ChatGPT和Gemini的接入和封装
人工智能·ios·chatgpt
Daydream.V3 分钟前
基于Opencv和Dlib的人脸换脸实现
人工智能·opencv·计算机视觉·仿射变换·换脸·视频换脸·图片换脸
没有退路那我就不要散步10 分钟前
升级NPU驱动和固件,对上层的AI推理服务有多大影响?
人工智能
CSDN官方博客11 分钟前
【奖励到账】CSDN AI 社区镜像创作激励活动第十二批奖励补发发放!
人工智能
电子科技圈13 分钟前
赋能高端音频功能促进多样化设备创新——XMOS USB Audio平台实现四大功能升级
人工智能·mcu·音视频·智能家居·边缘计算·语音识别·智能硬件
nunca_te_rindas23 分钟前
deepseek专家模式--20260408
人工智能
AI成长日志29 分钟前
【AI原生开发实战】2.1 Prompt工程基础:编写高质量提示词
人工智能·prompt·ai-native
ar012330 分钟前
AR远程协助平台:重塑工业与服务协作的新模式
人工智能·ar
ar012334 分钟前
AR远程指导:赋能工业智能化的关键力量
人工智能·ar
清空mega39 分钟前
动手学深度学习|深度学习硬件基础:CPU 和 GPU 到底有什么区别?为什么训练模型更喜欢 GPU?
人工智能·深度学习