突发！Claude 3来了，GPT-4.5还会远吗？盘点谁会成为中国版Sora；OpenAI工程师必备经典；AI产品经理实践心得

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

🉑 突发！Anthropic 推出Claude 3系列大模型，真·全方位碾压 GPT-4

www.anthropic.com/news/claude...

体验地址 www.anthropic.com/claude
业内早有消息说 Claude 3 将择机发布，终于来了！这也意味着，为了遮挡 Claude 3 的风头，OpenAI 也将发布新一代大模型，有极大可能是 GPT-4.5~ 拭目以待吧 👀

终于！Anthropic 推出了新一代AI模型 Claude 3 系列，三个模型按能力递增排序分别为：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个模型都提供了不同的智能、速度和成本平衡，以适应不同的应用需求。

其中，Opus 是最智能的模型，它在多个AI系统评估基准上超越了同行，包括本科水平的专家知识 (MMLU) 、研究生水平的专家推理 (GPQA) 、基础数学 (GSM8K) 等，在复杂任务上展现出接近人类的理解和流利度。

速度：Claude 3 模型能够提供即时响应，适用于需要实时反馈的场景，如客户聊天、自动补全和数据提取任务。Haiku 是市场上速度最快、成本效益最高的模型，能够在不到三秒的时间内阅读包含图表和图形的arXiv研究论文。

视觉能力：Claude 3 模型具有先进的视觉处理能力，能够处理包括照片、图表、图形和技术图表在内的多种视觉格式。

减少拒绝：与之前的模型相比，Opus、Sonnet 和 Haiku 在处理接近系统边界的提示时，拒绝回答的可能性显著降低。

准确性：Claude 3 模型在准确性方面有所提高，特别是在处理复杂、事实性问题时。Opus 在这些挑战性问题上的正确答案率是Claude 2.1的两倍。

长篇幅上下文和近乎完美的回忆：Claude 3 模型在发布时提供200K的上下文窗口，但所有模型都能够处理超过100万个标记的输入，并可能为需要增强处理能力的客户开放这一功能。

负责任的设计：Claude 3 模型家族在设计上注重可信赖性，包括减少偏见、提高安全性和透明度。模型仍然处于AI安全等级2 (ASL-2)，并将继续监控模型以评估其接近ASL-3阈值的可能性。

模型细节：文件提供了每个模型的详细成本、上下文窗口、潜在用途和差异化特点。

模型可用性 ：Opus 和 Sonnet 现已在API中可用，Haiku 将很快推出。Sonnet 可以免费体验，Opus 则提供给 Claude Pro 订阅者。

👀 全球首例「AIGC平台侵权」判决生效：谁动了奥特曼的奶酪

我国的 AIGC 版权领域又有一起判决生效了。而且是全球首例 「生成式AI服务侵犯他人著作权 」的生效判决，也是继去年11月北京互联网法院「AI文生图著作权纠纷案」后的又一起典型AI著作权司法判决。

据悉，「奥特曼」作品的著作权人圆谷制作株式会社与原告签订《授权证明》，将奥特曼系列形象的著作权独占授权给原告，并授予原告维权权利。被告公司经营Tab (化名) 网站，提供具有AI对话及AI生成绘画功能的服务。

原告发现，当要求 Tab 网站生成奥特曼相关图片时 (如输入「生成一张戴拿奥特曼」)，Tab网站生成的奥特曼形象与原告奥特曼形象构成实质性相似。
该案认为，被告 (某人工智能公司) 在提供生成式人工智能服务过程中,侵犯了原告对案涉奥特曼作品所享有的复制权和改编权，并应承担相关民事责任。
相对于原告提出的30万元索赔，法院最终定下被告需要向原告赔偿经济损失为10000元 (包含取证费等合理开支) ⋙ 判决书完整原文

概括来说就是，某AI平台生成的图像侵犯了「奥特曼」形象的著作权，被判罚款一万块

👀 AI产品经理实践心得：5条建议，带你把想法落地为AI具体功能

medium.com/ft-product-...

Dilyana Evtimova 是 Financial Times (FT, 金融时报) 的AI产品经理，她在文中分享了自己的AI产品案例和实践心得。看了很多AI开发者的分享，是时候听一听产品经理对 GenAI (生成式人工智能) 技术和产品的观点了！

1 Relax. While AI technology is new, user needs are not | 放轻松，用户需求不会因AI技术的出现而迅速改变

AI技术虽然是新的，但用户需求通常不会一夜之间改变。产品经理应该通过用户需求和业务价值的角度来学习和应用AI技术，常见的学习渠道包括阅读、课程、与业内人士交流
2 Start with solving a problem, not with building a model | 从解决问题开始，而不是一上来就构建模型

用户不会仅仅因为技术新颖就去使用AI工具；产品经理应该关注于解决实际问题，而不是急于构建AI模型

AI产品用例：用户访谈发现，学生们不申请免费订阅是因为文章里的行业术语又多又难以理解；所以开发了 FT Definitions 功能，提供了200个商业和金融术语的定义，显著提高了学生读者的参与度

3 Make sure you have the user data to feed your AI feature | 确保AI功能有用户数据的支持

在AI项目的初期，需要明确所需的数据类型、数据追踪方式、存储位置、可访问性以及哪些数据集适合解决特定问题；数据的质量和可用性对于AI模型的训练至关重要

AI产品用例：FT在推出播放列表功能时，发现缺乏"高质量聆听"数据，这影响了模型训练的优化

4 Train, feedback, re-train and again | 训练、反馈、再训练

AI模型的训练涉及大量的假设和数据特征选择，产品经理需要在产品开发过程中融入更多的内部反馈和定性研究，以确保AI功能符合品牌特色并满足用户需求

AI产品用例：FT是一家知名新闻机构，所以引入AI功能后也要保证其输出与 FT 的品牌调性保持一致，这个过程中需要编辑的反馈

5 Record your assumptions from the start | 从一开始就记录你的假设

由于AI模型训练中涉及大量假设，产品经理应该从项目开始就记录这些假设，并列出可能的迭代场景，这有助于团队成员回顾和分析AI功能的性能

🉑 国内「AI视频」赛道生态全景图：谁会成为中国版 Sora？

Sora 横空出世给AI 视频领域的公司带来了巨大压力。当我们把目光集中聚焦在这个赛道时，会非常关注：国内有哪些团队、哪些人才正在从事 AI 视频行业？

以下梳理了国内「AI+视频」领域的12 家创业公司，以及 4 家大厂相关产品和团队。来一起更新关注清单！并预测一波谁能率先突出重围 👀

🔔 12家创业公司

HeyGen

www.heygen.com/

由徐卓 (Joshua Xu) 和梁望 (Wayne Liang) 于2020年11月创立，专注于AI视频创作，已获得红杉中国、真格基金等的投资

HiDream.ai (智象未来)

hidream.ai/

由梅涛于2023年3月创立，专注于构建视觉多模态 (文本、图片、视频、3D等) 基础模型及应用

Möbius

mobius.any-vision.com/

由 LogicQ、Peki (刘佩) 和 Zhao 组成的团队开发，于2024年1月上线，专注于AI视频模型

Morph Studio

www.morphstudio.com/

由徐怀哲于2023年创立，专注于文生视频技术和社区平台，已获取百度风险投资

NeverEnds

neverends.life/

由曲东奇联合创立，于2023年12月上线，提供视频生成服务

爱诗科技 AIsphere

aisphere.tech/

由王长虎创立于2023年4月，专注于计算机视觉和生成式人工智能算法，已经完成了数千万元人民币天使轮融资

李白人工智能实验室 (LibAI Lab)

www.ishencai.com/

由唐勇领导，成立于 2018 年，专注于计算机视觉和生成式人工智能，已经推出了神采PromeAI、图可丽 tukeli.net、cutout.pro 等国内外在线工具网站及多个App、小程序

毛线球科技 (6PenArt)

6pen.art/

由王登科创立于2022年4月，提供AI绘画工具和AIGC社区，已经获得奇绩创坛的 A 轮融资

生数科技

shengshu-ai.com

由唐家渝领导，成立于2023年3 月，专注于多模态生成式大模型与应用产品开发

徐图智能

由徐东教授成立于2023年6月，专注于计算机视觉和多媒体信号处理

艺映 AI

www.artink.art/

由独立开发者华益峰创立，提供AI视频生成工具

右脑科技 (RightBrain AI)

rightbrainai.cn/

由梁建、史杰和周呈华创立于2022年9月，专注于AI图像和视频生成，已经种子轮和天使轮融资

🔔 4家大厂

阿里巴巴

VGen：开源视频生成模型和代码系列，由阿里巴巴通义实验室开发，具备非常先进和完善的视频生成系列能力

Animate Anyone：2023年12 月由阿里巴巴智能计算研究院发布，只需一张人物照片、结合骨骼动画、就能生成人体动画视频

百度

UniVG：视频生成模型，2024年1月由百度推出，能针对高自由度和低自由度两种任务分别采用不同的生成方式，以更好地平衡两者之间的关系

腾讯

AnimateZero：视频生成模型，2023 年 12 月由北京大学、腾讯 AI Lab 与香港科技大学三家联合发布，是一种基于视频扩散模型的零样本图像动画生成器

VideoCrafter2：视频处理工具，2024年1月推出，通过独特的算法和先进的技术生成精美影片

字节跳动

MagicAnimate：视频模型，2023 年 12 月由新加坡国立大学 Show Lab 联合字节跳动发布，是一种基于扩散模型的人体图像动画框架，旨在增强时间一致性、忠实地保留参考图像并提高动画保真度

MagicVideo-V2：视频生成模型，2024年1月发布，将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成管道中

Boximator AI ：视频生成产品，2024 年 2 月由字节跳动研究院推出，可以通过文本控制生成视频中人物或物体的动作 ⋙ 了解各家公司详细介绍

🉑 和月之暗面杨植麟聊聊大模型创业这一年：向绵延而未知的雪山前进

www.xiaoyuzhoufm.com/episode/65e...
补充一份背景：杨植麟 是月之暗面 (MoonShot AI) 的创始人兼CEO，也是去年这批国产大模型公司创始人里最年轻的一位 (92年出生)，而且有着出色的AI研究履历和背景

杨植麟露面不多，但少数几次访谈的水准都很高，展示了相当的技术远见和创业雄心 👉 极客公园对话杨植麟、拾象专访杨植麟、

张小珺对杨植麟的访谈播客共80分钟，大致由三部分内容组成：「公司创立过程与未来发展介绍 」「AGI演进的关键技术判断 」「对 OpenAI Sora所持的技术观点」。

这次播客同样有非常多高价值的细节信息，听完收获满满！以下是播客的时间轴，作者还整理了 ⋙ 完整文字版。

文字版和播客时间轴没有完全对应，不过还是二者结合一起进行，信息的获取效率更高 (相信我！这是多次实验的结果 🧐
02:51 站在巨大技术变革的开端：前面是延绵而未知的雪山

03:35 11年本科、17年收敛到大语言模型、和图灵得主合作论文：杨植麟的学术之路

06:36 为什么AGI需要新组织？为什么科研机构、巨头的AI lab无法产生伟大系统？

10:24 全球化+AGI+很大用户量的产品，最终可能是AGI的必要条件

11:07 我们不想做"中国的OpenAI"，但应该学习OpenAI的技术理想主义

13:15 我在Google学习到的最重要一课：从无限的雕花中把自己释放出来

16:25 作为博士怎么与图灵奖得主合作？和学术大佬合作与和资本大佬合作，哪个更难？

19:37 创业这一年时间轴：ChatGPT激活资本、人才变量，我在硅谷做了一笔精确计算

22:28 Timing很重要，第一笔融资的窗口很短，只有一个月

27:54 怎么搭建AGI团队？现在有80人

30:21 卡的问题有很多back and forth，接下来一两年不会成为很大瓶颈

32:13 为什么月之暗面做to C且只做to C？

37:39 你认可说"国产大模型公司去年追赶GPT-3.5，今年追赶GPT-4，没有本质差异"这种说法吗？

39:17 追赶GPT-4是国产大模型的必经之路，但也要做非共识的新维度

40:53 不认同2023年下半年大模型市场转冷的判断，我们下半年确实也完成了融资

42:57 登月第一步是长文本，第二步呢？接下来会有两个最重大的技术milestone

44:21 只有一个颠覆性的东西，才配得上AGI这三个字，否则我们今天说的都没意义

45:34 我对PMF、落地场景和应用的看法

46:54 User的scaling和Model的scaling这两件事应该同时做，降维打击发生过太多次

48:54 为什么开源追不上闭源？现在开源的方式和以前不一样了，它本身还是中心化

49:48 AI不是这一两年找到什么PMF，而是未来十年二十年能做什么改变世界

51:48 怎么对抗国内的焦虑情绪？大模型创业中的长短期平衡

57:41 回顾2023年的曲折、变量和预料之外

60:30 怎么看几个市场上的几个观点 (包括Yann LeCun、Geoffrey Hinton、陆奇)

62:25 现在的大模型公司配比：一半实验室，一半商业公司

64:20 怎么看大模型创业公司和巨头的关系

68:24 Sora有多少在你的意料之中，多少在你的意料之外？

69:17 Sora解决掉的技术问题：能在一个比较长的时间窗口保持生成的一致性

69:40 Sora对于全球产业格局意义是什么？2024年大模型会有哪些新叙事？

71:57 视频生成之前的关键技术瓶颈，更unified architecture (统一的架构) 仍然没有被解决

73:04 解读OpenAI关于Sora报告《Video generation models as world simulators》

74:30 怎么看Yann LeCun对生成式AI的新观点

77:45 Sora是视频生成的GPT-3.5时刻

78:37 为什么不同模态放在同一个模型里那么难？Sora + GPT会出现什么？

80:40 两个世界差得越来越远了吗？

83:41 2024年的全球大模型产业预测

以下是摘录整理的文章核心观点，先帮你标记一下关键点！强烈推荐读原文 & 听播客哦！会收获满满~

站在开端 | "要ride the wave"

暗沉的光亮中，杨植麟形容自己过去一年的感知：有点像开车在路上，前面有延绵的雪山，但你不知道里面是什么，你在一步一步往前走。

我们2023年2月开始集中做第一轮融资。如果delay (延迟) 到4月，基本没机会了。但如果2022年12月或2023年1月做也没机会，大家没反应过来------所以，真正窗口就是一个月。

技术师承 | "把自己从无限雕花中解放出来"

我在Google学到的思维：如果能被更底层的东西解释，就不应该在上层过度雕花。

有一句重要的话我很认同：如果你能用scale解决的问题，就不要用新的算法解决。新算法最大价值是让它怎么更好的scale。

旧系统不适用了 | "AGI需要新的组织方式"

真正AGI肯定是全球化的，不存在由于市场保护机制导致你只能做某个regional market (区域市场) 的AGI公司 ------全球化、AGI和你有一个很大用户量的产品，这三个东西最终是必要条件

2017年-2018年，OpenAI风评很差，很多人跟 Ilya Sutskever 聊完，觉得这个人疯了，OpenAI不是疯子就是骗子 。但他们从很早开始投入，找到非共识，找到AI现在唯一work的第一性原理：通过 next token prediction 去 scale (通过对下一个标记的预测来进行规模化)。

会有比OpenAI更伟大的公司存在。一个真正伟大的公司能结合技术理想主义，并让它用一个伟大的产品跟用户共创，AGI最终会是一个跟所有用户co-work (协作) 产生的东西

如果所有人都觉得你正常，你的理想是大家都能想到的，它对人类的理想总量没有增量

登月的第一步是长文本，第二步呢？ | "接下来会有两个milestone"

为什么长文本是登月第一步？因为它很本质，是新的计算机内存。AI最核心的价值是个性化互动，价值落脚点还是个性化，但个性化过程不是通过微调实现，而是它能支持很长的context (上下文)。

接下来会有两个大的milestone (里程碑) ：一是真正的统一的世界模型 ，它能统一各种不同模态，是一个真正的scalable和general的architecture (可扩展、通用的系统结构) ；二是能在没有人类数据输入的情况下，使AI持续进化 （这两个milestone需要两到三年，有可能更快）

比传统搜索引擎好个10%、20%，没什么太大价值------只有一个颠覆性的东西，才配得上AGI这三个字。智能永远是最核心的增量价值，如果你这个产品最核心价值只有10%-20%来自于AI，就不成立。

我一点也不焦虑落地 | "user scaling 和 model scaling 需要同时做"

Midjourney 为什么效果好？它在用户端做了 scaling------user scaling 和 model scaling 需要同时做

AI不是我在接下来一两年找到什么 PMF，而是接下来十到二十年如何改变世界

开源落后于闭源 。因为开源的开发方式跟以前不一样了，以前是所有人都可以 contribute (贡献) 到开源，现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集，最后一定是闭源更好，是一个 consolidation (对市场的整合)

GPT-4 还没赶上，Sora 又来了 | "现在就有点像视频生成的 GPT-3.5，是阶跃式提升"

Generative AI (生成式AI) 做到这个效果在意料之内，意外的是时间------比之前预估更早。这也反映了现在AI的发展很快，很多 scaling 的红利没有被完全吃下来

之前视频生成的主要瓶颈，核心还是数据，怎么去规模化地拟合这个数据

怎么看杨立昆又跳出来反对生成式AI？通过对视频的边际概率去建模，本质是在做无损压缩，但同时也有重要的还没做的事：它怎么跟已有的已经被压缩的能力结合起来？

Sora + GPT会产生什么？有可能打通数字世界和物理世界，也可以去更加端到端完成任务

OpenAI一直在做下一代模型 。但客观上差距会持续存在一段时间，甚至在国内不同公司之间的差距也会持续一段时间，现在是技术爆发期。但再过两三年，有可能中国顶尖的公司可以在这里面去做好更多基础性工作，包括技术的基建、人才的储备和组织文化的沉淀，有这些打磨后，更有可能在某一些方面有领先可能性------但需要一定的耐心。

我接受有失败的概率 | "它已经改变了我的生命"

GPT-4和Sora都不需要那么多钱，现在的钱更多是为了下一代甚至下下代模型做储备，做前沿探索

未来最成功的AGI公司肯定是会比现在所有公司都大。这点没有疑问，它最终可能是double、triple GPT的事。它不一定是OpenAI，有可能是别的公司，但肯定有这样的公司

2024年国产模型预测 ：一是因为前期的投入，有合适的团队，做出世界领先的某一些维度的能力 。二是会出现更多用户量级更大的产品 ，这是大概率的。三是会有进一步的consolidation和路线选择的分化。

🉑 OpenAI 工程师必备经典：the Bitter Lesson 苦涩的教训

twitter.com/_jasonwei/s...

前段时间，OpenAI 研究人员 Jason Wei 发推列了一份研发人员日常行程表 👆，半戏谑半认真地描述了自己一天的时间安排。

这份 Timenline 除了让大家发出「太卷了 」「比我聪明的人还比我努力 」等等感叹之外，还有超多开发者能「秒懂」的梗，比如提到了只限于极少数人员使用的 Sora、Google 新发布的最强大模型 Gemini Ultra，以及下午5分钟头脑风暴后决定还是继续大力飞砖、睡觉前默念 Compression is all you need 🤭

上午

9:00 起床

9:30 乘 Waymo 无人驾驶车去公司，然后吃点牛油果吐司当早饭

9:45 背诵 OpenAI 章程 (核心是确保通用人工智能造福全人类)，向最优化的神祷告，学习「the Bitter Lesson 苦涩的教训」

10:00 用 Google Meet 开会，讨论怎么在更多数据上训练更大的模型

11:00 写代码，用来在更多数据上训练更大的模型

12:00 去食堂吃午饭 (素食，无麸质)
下午 (开始忙碌起来)

1:00 继续训练模型

2:00 调试基础设施问题

3:00 监控模型训练，顺便玩一下 Sora

4:00 对前面提到的训练的模型进行提示工程

4:30 休息一下，坐在牛油果椅子上，想知道 Gemini Ultra 到底有多好

5:00 进行头脑风暴，思考改进模型的潜在算法

5:05 得出结论：改变算法风险太大，只扩展计算和数据更安全

6:00 吃晚饭

7:00 通勤回家
晚上 (生产力高峰)

8:00 喝杯酒，继续写代码，此时达到鲍尔默峰值 (传说中微软在 80 年代末发现的定律，即程序员在血液酒精浓度在 0.129%~0.138% 时会产生超人的编程能力)

9:00 分析实验运行

10:00 开始实验，让其整晚运行，第二天早上拿结果

1:00 时间来到凌晨，真正开始运行实验

1:15 就寝并默念「Compression is all you need」

www.incompleteideas.net/IncIdeas/Bi...

中英双语对照全文版：知识星球资源编码【R233】

其中，上午正式工作开始前翻阅祷告的「the Bitter Lesson 苦涩的教训」，是机器学习先驱 Rich Sutton 在2019年写的一篇经典博客文章。他在文章里总结了AI发展史上的怪圈及破解之道：

人类总是试图把自己的知识和思维方式植入到AI之中，比如用人类的思路教AI下棋、将让AI按照人类总结的思路来识别图像等等。这些做法，能带来暂时的性能提升，长期来看却会阻碍研究的持续进步。

真正的突破，总是来自完全相反的方向。摒弃人类在特定领域的知识、利用大规模算力的方法，会获得最终的胜利。

靠自我对弈磨炼围棋技艺的 AlphaGo，基于统计方法、深度学习来识别语音、图像的算法，一次次击败先前那些浓缩了人类知识的AI，甚至人类自己。

搜索、学习，充分利用大规模算力才是王道。用人类在特定领域的知识来提升AI智能体的能力，都是在走弯路。

正如 ilya Sutskever 在随后转推时给出的总结：compute always wins
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们！

◉ 点击 👀日报&周刊合集，订阅话题 #ShowMeAI日报，一览AI领域发展前沿，抓住最新发展机会！

◉ 点击 🎡生产力工具与行业应用大全，一起在信息浪潮里扑腾起来吧！

突发！Claude 3来了，GPT-4.5还会远吗？盘点谁会成为中国版Sora；OpenAI工程师必备经典；AI产品经理实践心得 | ShowMeAI日报