漫谈我眼中的:Sora、世界模型和我们

先说Sora背后的 OpenAI

近期的快乐源泉 ⬇️

Video generation models as world simulators

嗯,很狂的名字~~

言归正传,先这里引用陆奇的去年对大模型的世界观。值得一提的是,当时还没出现 Sora。

从技术角度讲OpenAI大事迹,它怎么把大模型时代带来的?

  • 为什么讲OpenAI,不讲Google、微软。讲真心话,因为我知道,微软好几千人也做这个,但不如OpenAI。一开始比尔·盖茨根本不相信OpenAI,大概6个月前他还不相信。4个月前看到GPT-4的demo(产品原型),目瞪口呆。他写了文章说:It's a shock,this thing is amazing(这太令人震惊了,这东西太神奇了)。谷歌内部也目瞪口呆。

OpenAI一路走下来的关键技术:

  1. GPT-1是第一次使用预训练方法来实现高效语言理解的训练;
  2. GPT-2主要采用了迁移学习技术,能在多种任务中高效应用预训练信息,并进一步提高语言理解能力;
  3. DALL·E是走到另外一个模态;
  4. GPT-3主要注重泛化能力,few-shot(小样本)的泛化;
  5. GPT-3.5 instruction following(指令遵循)和tuning(微调)是最大突破;
  6. GPT-4 已经开始实现工程化。
  7. 2023年3月的Plugin是生态化。
  8. 2024年2月的Sora实现了将Transformer和扩散模型结合的创新,可以"以假乱真"实现真正意义上的文生视频能力。

世界模型-有多远?

AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?

如果AI无法理解新的物理定律,它就不能被认为是等同于或超越人类的智能。

  • 现在我们看到的以为理解的sora,其实只是学会了物体和物体之间的"关联性",而非"因果性",所以我认为这不是真正的世界模型。

  • 真实的世界都有特定的描述方式,比如水从高往低流、击掌后会有声音、吃美食嘴巴会动,现阶段的Sora模拟到的只是图像、视觉效果上的技巧,这是可以涵盖我们看到的世界,但肯定不是准确的完整的表达。

  • 因为离AI发现牛顿第二定律"F=Ma"还是太遥远了。

不过,可能也只是时间的问题。


我们-Why not us?

人:最重要

为什么OpenAI可以跑通所有AGI技术栈?

第一:对解决问题本身的全情投入,以及超脱自我的纯粹专注力,我相信是任何成功技术背后的不可或缺的动力。

  • 看过Sora团队的核心人物,都会注意到这位 bill 小哥 从博士毕业到真正工作还不到一年时间, 但他似乎并未受到绩效评估、OKR、或汇报PPT等日常琐碎的困扰,估计也不会有来自生活的买车买房的压迫感。相反,他的精力应该是更多地集中在真正解决text-to-vide这1事情

就只是对 这1件事 ,这无关外界!无关物质!无关名利!一种清心寡欲的执行力!


为什么每次都是OpenAI"赢"?肯定不是运气特别好

第二:对风险承担能力和和对失败的容忍态度,是我们应该学习的地方。

  • 谢赛宁在网上有表达过,Sora团队夜以继日996的状态已经很长了,应该也失败了很多次,但不满足于现状,愿意尝试,敢于挑战,不畏惧在探索中碰壁。

So,以上2点,我们之间应该很少有人做到。。吧。。


环境:重要?也没那么重要

OpenAI的强------关键强在哪里??

真正的技术创新不仅仅是源自科学实验室或者顶会论文的产物,它更应该是通过对市场需求的理解、结合优秀的产品设计和极强的执行力,能转化为社会广泛接受的技术巨变。

  • OpenAI不是transformer模型发明者,Stable Diffusion不是[diffusion]模型发明者,

  • 这些在专业人士看来似乎超级简单的底层技术被[巧妙组合]起来,并在正确的时间和正确的方式下产生了这场技术革命

  • 不过,不可否认的是altman真的是营销天才~!。

  • Sora不是"一个人在战斗",而且这些人每个人都身怀绝技,他们集齐了七颗龙珠,今天召唤出了神龙!

Google的强------现在难以描述?

老美不还有一个给经常别人做嫁衣的"冤大头"吗? - google~

  • 不过发布的新产品《Gemma: Introducing new state-of-the-art open models》,同Gemini Pro 1.5以及以往风格一致,全篇乍看都是相当爆裂的数字指标,高举高打"open",话说什么时候可以把中文加进去,给我点测试的勇气。

  • 感觉它像一只不服输的大象,笃定着往自己坚定的方向前进,说不上固执、但也谈不上机智。不过好像看上去真的很笨重了,扭头转身或是向前奔跑都有些吃力

  • 无论如何,从开源tensorflow到transformer再到今天的Gemma,我都致敬deepmind!YYDS

我们------为什么不是我们,该怎么追击?

  • 我们,人类,应该想着怎么创造出一个好工具,而不是和工具抢活。

  • 计算机也好,人工智能也罢,它都是一个控制器,不要在乎它能计算什么,而在于它能控制什么样的对象,输出些什么。(忘记谁说的了)

  • 所以它最重要的商业价值是控制哪些生产力和生产关系,这能推动产业的进步和资源的利用,而不仅仅只是产生一些娱乐的片段。

one more thing

送给还在打工的自己,以及读博客的你们

在技术快速迭代的过程中,

不必对自己严苛到妄自菲薄,甚至自我贬低

什么东西能在大模型的演进过程中乘风破浪获得受益,

什么东西又在大模型演进过程中被冲垮,甚至被淘汰。

------ 这两个问题我们要好好想一想了。

做自己擅长的事情吧, 剩下的,交给时间。

相关推荐
桃花键神9 分钟前
AI可信论坛亮点:合合信息分享视觉内容安全技术前沿
人工智能
野蛮的大西瓜30 分钟前
开源呼叫中心中,如何将ASR与IVR菜单结合,实现动态的IVR交互
人工智能·机器人·自动化·音视频·信息与通信
CountingStars6191 小时前
目标检测常用评估指标(metrics)
人工智能·目标检测·目标跟踪
tangjunjun-owen1 小时前
第四节:GLM-4v-9b模型的tokenizer源码解读
人工智能·glm-4v-9b·多模态大模型教程
冰蓝蓝1 小时前
深度学习中的注意力机制:解锁智能模型的新视角
人工智能·深度学习
橙子小哥的代码世界1 小时前
【计算机视觉基础CV-图像分类】01- 从历史源头到深度时代:一文读懂计算机视觉的进化脉络、核心任务与产业蓝图
人工智能·计算机视觉
新加坡内哥谈技术2 小时前
苏黎世联邦理工学院与加州大学伯克利分校推出MaxInfoRL:平衡内在与外在探索的全新强化学习框架
大数据·人工智能·语言模型
fanstuck3 小时前
Prompt提示工程上手指南(七)Prompt编写实战-基于智能客服问答系统下的Prompt编写
人工智能·数据挖掘·openai
lovelin+v175030409663 小时前
安全性升级:API接口在零信任架构下的安全防护策略
大数据·数据库·人工智能·爬虫·数据分析
唐小旭3 小时前
python3.6搭建pytorch环境
人工智能·pytorch·python