漫谈我眼中的:Sora、世界模型和我们

先说Sora背后的 OpenAI

近期的快乐源泉 ⬇️

Video generation models as world simulators

嗯,很狂的名字~~

言归正传,先这里引用陆奇的去年对大模型的世界观。值得一提的是,当时还没出现 Sora。

从技术角度讲OpenAI大事迹,它怎么把大模型时代带来的?

  • 为什么讲OpenAI,不讲Google、微软。讲真心话,因为我知道,微软好几千人也做这个,但不如OpenAI。一开始比尔·盖茨根本不相信OpenAI,大概6个月前他还不相信。4个月前看到GPT-4的demo(产品原型),目瞪口呆。他写了文章说:It's a shock,this thing is amazing(这太令人震惊了,这东西太神奇了)。谷歌内部也目瞪口呆。

OpenAI一路走下来的关键技术:

  1. GPT-1是第一次使用预训练方法来实现高效语言理解的训练;
  2. GPT-2主要采用了迁移学习技术,能在多种任务中高效应用预训练信息,并进一步提高语言理解能力;
  3. DALL·E是走到另外一个模态;
  4. GPT-3主要注重泛化能力,few-shot(小样本)的泛化;
  5. GPT-3.5 instruction following(指令遵循)和tuning(微调)是最大突破;
  6. GPT-4 已经开始实现工程化。
  7. 2023年3月的Plugin是生态化。
  8. 2024年2月的Sora实现了将Transformer和扩散模型结合的创新,可以"以假乱真"实现真正意义上的文生视频能力。

世界模型-有多远?

AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?

如果AI无法理解新的物理定律,它就不能被认为是等同于或超越人类的智能。

  • 现在我们看到的以为理解的sora,其实只是学会了物体和物体之间的"关联性",而非"因果性",所以我认为这不是真正的世界模型。

  • 真实的世界都有特定的描述方式,比如水从高往低流、击掌后会有声音、吃美食嘴巴会动,现阶段的Sora模拟到的只是图像、视觉效果上的技巧,这是可以涵盖我们看到的世界,但肯定不是准确的完整的表达。

  • 因为离AI发现牛顿第二定律"F=Ma"还是太遥远了。

不过,可能也只是时间的问题。


我们-Why not us?

人:最重要

为什么OpenAI可以跑通所有AGI技术栈?

第一:对解决问题本身的全情投入,以及超脱自我的纯粹专注力,我相信是任何成功技术背后的不可或缺的动力。

  • 看过Sora团队的核心人物,都会注意到这位 bill 小哥 从博士毕业到真正工作还不到一年时间, 但他似乎并未受到绩效评估、OKR、或汇报PPT等日常琐碎的困扰,估计也不会有来自生活的买车买房的压迫感。相反,他的精力应该是更多地集中在真正解决text-to-vide这1事情

就只是对 这1件事 ,这无关外界!无关物质!无关名利!一种清心寡欲的执行力!


为什么每次都是OpenAI"赢"?肯定不是运气特别好

第二:对风险承担能力和和对失败的容忍态度,是我们应该学习的地方。

  • 谢赛宁在网上有表达过,Sora团队夜以继日996的状态已经很长了,应该也失败了很多次,但不满足于现状,愿意尝试,敢于挑战,不畏惧在探索中碰壁。

So,以上2点,我们之间应该很少有人做到。。吧。。


环境:重要?也没那么重要

OpenAI的强------关键强在哪里??

真正的技术创新不仅仅是源自科学实验室或者顶会论文的产物,它更应该是通过对市场需求的理解、结合优秀的产品设计和极强的执行力,能转化为社会广泛接受的技术巨变。

  • OpenAI不是transformer模型发明者,Stable Diffusion不是[diffusion]模型发明者,

  • 这些在专业人士看来似乎超级简单的底层技术被[巧妙组合]起来,并在正确的时间和正确的方式下产生了这场技术革命

  • 不过,不可否认的是altman真的是营销天才~!。

  • Sora不是"一个人在战斗",而且这些人每个人都身怀绝技,他们集齐了七颗龙珠,今天召唤出了神龙!

Google的强------现在难以描述?

老美不还有一个给经常别人做嫁衣的"冤大头"吗? - google~

  • 不过发布的新产品《Gemma: Introducing new state-of-the-art open models》,同Gemini Pro 1.5以及以往风格一致,全篇乍看都是相当爆裂的数字指标,高举高打"open",话说什么时候可以把中文加进去,给我点测试的勇气。

  • 感觉它像一只不服输的大象,笃定着往自己坚定的方向前进,说不上固执、但也谈不上机智。不过好像看上去真的很笨重了,扭头转身或是向前奔跑都有些吃力

  • 无论如何,从开源tensorflow到transformer再到今天的Gemma,我都致敬deepmind!YYDS

我们------为什么不是我们,该怎么追击?

  • 我们,人类,应该想着怎么创造出一个好工具,而不是和工具抢活。

  • 计算机也好,人工智能也罢,它都是一个控制器,不要在乎它能计算什么,而在于它能控制什么样的对象,输出些什么。(忘记谁说的了)

  • 所以它最重要的商业价值是控制哪些生产力和生产关系,这能推动产业的进步和资源的利用,而不仅仅只是产生一些娱乐的片段。

one more thing

送给还在打工的自己,以及读博客的你们

在技术快速迭代的过程中,

不必对自己严苛到妄自菲薄,甚至自我贬低

什么东西能在大模型的演进过程中乘风破浪获得受益,

什么东西又在大模型演进过程中被冲垮,甚至被淘汰。

------ 这两个问题我们要好好想一想了。

做自己擅长的事情吧, 剩下的,交给时间。

相关推荐
lindsayshuo4 分钟前
jetson orin系列开发版安装cuda的gpu版本的opencv
人工智能·opencv
向阳逐梦4 分钟前
ROS机器视觉入门:从基础到人脸识别与目标检测
人工智能·目标检测·计算机视觉
陈鋆29 分钟前
智慧城市初探与解决方案
人工智能·智慧城市
qdprobot30 分钟前
ESP32桌面天气摆件加文心一言AI大模型对话Mixly图形化编程STEAM创客教育
网络·人工智能·百度·文心一言·arduino
QQ395753323730 分钟前
金融量化交易模型的突破与前景分析
人工智能·金融
QQ395753323731 分钟前
金融量化交易:技术突破与模型优化
人工智能·金融
The_Ticker44 分钟前
CFD平台如何接入实时行情源
java·大数据·数据库·人工智能·算法·区块链·软件工程
Elastic 中国社区官方博客1 小时前
Elasticsearch 开放推理 API 增加了对 IBM watsonx.ai Slate 嵌入模型的支持
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
jwolf21 小时前
摸一下elasticsearch8的AI能力:语义搜索/vector向量搜索案例
人工智能·搜索引擎
有Li1 小时前
跨视角差异-依赖网络用于体积医学图像分割|文献速递-生成式模型与transformer在医学影像中的应用
人工智能·计算机视觉