突发!Claude 3来了,GPT-4.5还会远吗?盘点谁会成为中国版Sora;OpenAI工程师必备经典;AI产品经理实践心得 | ShowMeAI日报


👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

🉑 突发!Anthropic 推出Claude 3系列大模型,真·全方位碾压 GPT-4

www.anthropic.com/news/claude...

体验地址 www.anthropic.com/claude
业内早有消息说 Claude 3 将择机发布,终于来了!这也意味着,为了遮挡 Claude 3 的风头,OpenAI 也将发布新一代大模型,有极大可能是 GPT-4.5~ 拭目以待吧 👀

终于!Anthropic 推出了新一代AI模型 Claude 3 系列,三个模型按能力递增排序分别为:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个模型都提供了不同的智能、速度和成本平衡,以适应不同的应用需求。

其中,Opus 是最智能的模型,它在多个AI系统评估基准上超越了同行,包括本科水平的专家知识 (MMLU) 、研究生水平的专家推理 (GPQA) 、基础数学 (GSM8K) 等,在复杂任务上展现出接近人类的理解和流利度。

  • 速度:Claude 3 模型能够提供即时响应,适用于需要实时反馈的场景,如客户聊天、自动补全和数据提取任务。Haiku 是市场上速度最快、成本效益最高的模型,能够在不到三秒的时间内阅读包含图表和图形的arXiv研究论文。

  • 视觉能力:Claude 3 模型具有先进的视觉处理能力,能够处理包括照片、图表、图形和技术图表在内的多种视觉格式。

  • 减少拒绝:与之前的模型相比,Opus、Sonnet 和 Haiku 在处理接近系统边界的提示时,拒绝回答的可能性显著降低。

  • 准确性:Claude 3 模型在准确性方面有所提高,特别是在处理复杂、事实性问题时。Opus 在这些挑战性问题上的正确答案率是Claude 2.1的两倍。

  • 长篇幅上下文和近乎完美的回忆:Claude 3 模型在发布时提供200K的上下文窗口,但所有模型都能够处理超过100万个标记的输入,并可能为需要增强处理能力的客户开放这一功能。

  • 负责任的设计:Claude 3 模型家族在设计上注重可信赖性,包括减少偏见、提高安全性和透明度。模型仍然处于AI安全等级2 (ASL-2),并将继续监控模型以评估其接近ASL-3阈值的可能性。

  • 模型细节:文件提供了每个模型的详细成本、上下文窗口、潜在用途和差异化特点。

  • 模型可用性Opus 和 Sonnet 现已在API中可用,Haiku 将很快推出。Sonnet 可以免费体验,Opus 则提供给 Claude Pro 订阅者

👀 全球首例「AIGC平台侵权」判决生效:谁动了奥特曼的奶酪

我国的 AIGC 版权领域又有一起判决生效了。而且是全球首例生成式AI服务侵犯他人著作权 」的生效判决,也是继去年11月北京互联网法院「AI文生图著作权纠纷案」后的又一起典型AI著作权司法判决。

据悉,「奥特曼」作品的著作权人圆谷制作株式会社与原告签订《授权证明》,将奥特曼系列形象的著作权独占授权给原告,并授予原告维权权利。被告公司经营Tab (化名) 网站,提供具有AI对话及AI生成绘画功能的服务。

  • 原告发现,当要求 Tab 网站生成奥特曼相关图片时 (如输入「生成一张戴拿奥特曼」),Tab网站生成的奥特曼形象与原告奥特曼形象构成实质性相似

  • 该案认为,被告 (某人工智能公司) 在提供生成式人工智能服务过程中,侵犯了原告对案涉奥特曼作品所享有的复制权和改编权,并应承担相关民事责任

  • 相对于原告提出的30万元索赔,法院最终定下被告需要向原告赔偿经济损失为10000元 (包含取证费等合理开支) ⋙ 判决书完整原文

概括来说就是,某AI平台生成的图像侵犯了「奥特曼」形象的著作权,被判罚款一万块

👀 AI产品经理实践心得:5条建议,带你把想法落地为AI具体功能

medium.com/ft-product-...

Dilyana Evtimova 是 Financial Times (FT, 金融时报) 的AI产品经理,她在文中分享了自己的AI产品案例和实践心得。看了很多AI开发者的分享,是时候听一听产品经理对 GenAI (生成式人工智能) 技术和产品的观点了!

1 Relax. While AI technology is new, user needs are not | 放轻松,用户需求不会因AI技术的出现而迅速改变

  • AI技术虽然是新的,但用户需求通常不会一夜之间改变。产品经理应该通过用户需求和业务价值的角度来学习和应用AI技术,常见的学习渠道包括阅读、课程、与业内人士交流
    2 Start with solving a problem, not with building a model | 从解决问题开始,而不是一上来就构建模型

  • 用户不会仅仅因为技术新颖就去使用AI工具;产品经理应该关注于解决实际问题,而不是急于构建AI模型

  • AI产品用例:用户访谈发现,学生们不申请免费订阅是因为文章里的行业术语又多又难以理解;所以开发了 FT Definitions 功能,提供了200个商业和金融术语的定义,显著提高了学生读者的参与度

3 Make sure you have the user data to feed your AI feature | 确保AI功能有用户数据的支持

  • 在AI项目的初期,需要明确所需的数据类型、数据追踪方式、存储位置、可访问性以及哪些数据集适合解决特定问题;数据的质量和可用性对于AI模型的训练至关重要

  • AI产品用例:FT在推出播放列表功能时,发现缺乏"高质量聆听"数据,这影响了模型训练的优化

4 Train, feedback, re-train and again | 训练、反馈、再训练

  • AI模型的训练涉及大量的假设和数据特征选择,产品经理需要在产品开发过程中融入更多的内部反馈和定性研究,以确保AI功能符合品牌特色并满足用户需求

  • AI产品用例:FT是一家知名新闻机构,所以引入AI功能后也要保证其输出与 FT 的品牌调性保持一致,这个过程中需要编辑的反馈

5 Record your assumptions from the start | 从一开始就记录你的假设

  • 由于AI模型训练中涉及大量假设,产品经理应该从项目开始就记录这些假设,并列出可能的迭代场景,这有助于团队成员回顾和分析AI功能的性能

🉑 国内「AI视频」赛道生态全景图:谁会成为中国版 Sora?

Sora 横空出世给AI 视频领域的公司带来了巨大压力。当我们把目光集中聚焦在这个赛道时,会非常关注:国内有哪些团队、哪些人才正在从事 AI 视频行业

以下梳理了国内「AI+视频」领域的12 家创业公司,以及 4 家大厂相关产品和团队。来一起更新关注清单!并预测一波谁能率先突出重围 👀

🔔 12家创业公司

HeyGen

  • www.heygen.com/

  • 由徐卓 (Joshua Xu) 和梁望 (Wayne Liang) 于2020年11月创立,专注于AI视频创作,已获得红杉中国、真格基金等的投资

HiDream.ai (智象未来)

  • hidream.ai/

  • 由梅涛于2023年3月创立,专注于构建视觉多模态 (文本、图片、视频、3D等) 基础模型及应用

Möbius

  • mobius.any-vision.com/

  • 由 LogicQ、Peki (刘佩) 和 Zhao 组成的团队开发,于2024年1月上线,专注于AI视频模型

Morph Studio

  • www.morphstudio.com/

  • 由徐怀哲于2023年创立,专注于文生视频技术和社区平台,已获取百度风险投资

NeverEnds

  • neverends.life/

  • 由曲东奇联合创立,于2023年12月上线,提供视频生成服务

爱诗科技 AIsphere

  • aisphere.tech/

  • 由王长虎创立于2023年4月,专注于计算机视觉和生成式人工智能算法,已经完成了数千万元人民币天使轮融资

李白人工智能实验室 (LibAI Lab)

  • www.ishencai.com/

  • 由唐勇领导,成立于 2018 年,专注于计算机视觉和生成式人工智能,已经推出了神采PromeAI、图可丽 tukeli.netcutout.pro 等国内外在线工具网站及多个App、小程序

毛线球科技 (6PenArt)

  • 6pen.art/

  • 由王登科创立于2022年4月,提供AI绘画工具和AIGC社区,已经获得奇绩创坛的 A 轮融资

生数科技

  • shengshu-ai.com

  • 由唐家渝领导,成立于2023年3 月,专注于多模态生成式大模型与应用产品开发

徐图智能

  • 由徐东教授成立于2023年6月,专注于计算机视觉和多媒体信号处理

艺映 AI

  • www.artink.art/

  • 由独立开发者华益峰创立,提供AI视频生成工具

右脑科技 (RightBrain AI)

  • rightbrainai.cn/

  • 由梁建、史杰和周呈华创立于2022年9月,专注于AI图像和视频生成,已经种子轮和天使轮融资

🔔 4家大厂

阿里巴巴

  • VGen:开源视频生成模型和代码系列,由阿里巴巴通义实验室开发,具备非常先进和完善的视频生成系列能力

  • Animate Anyone:2023年12 月由阿里巴巴智能计算研究院发布,只需一张人物照片、结合骨骼动画、就能生成人体动画视频

百度

  • UniVG:视频生成模型,2024年1月由百度推出 ,能针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系

腾讯

  • AnimateZero:视频生成模型,2023 年 12 月由北京大学、腾讯 AI Lab 与香港科技大学三家联合发布,是一种基于视频扩散模型的零样本图像动画生成器

  • VideoCrafter2:视频处理工具,2024年1月推出 ,通过独特的算法和先进的技术生成精美影片

字节跳动

  • MagicAnimate:视频模型,2023 年 12 月由新加坡国立大学 Show Lab 联合字节跳动发布,是一种基于扩散模型的人体图像动画框架,旨在增强时间一致性、忠实地保留参考图像并提高动画保真度

  • MagicVideo-V2:视频生成模型,2024年1月发布,将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成管道中

  • Boximator AI :视频生成产品,2024 年 2 月由字节跳动研究院推出,可以通过文本控制生成视频中人物或物体的动作 ⋙ 了解各家公司详细介绍

🉑 和月之暗面杨植麟聊聊大模型创业这一年:向绵延而未知的雪山前进

www.xiaoyuzhoufm.com/episode/65e...
补充一份背景:杨植麟 是月之暗面 (MoonShot AI) 的创始人兼CEO,也是去年这批国产大模型公司创始人里最年轻的一位 (92年出生),而且有着出色的AI研究履历和背景

张小珺对杨植麟的访谈播客共80分钟,大致由三部分内容组成:「公司创立过程与未来发展介绍 」「AGI演进的关键技术判断 」「对 OpenAI Sora所持的技术观点」。

这次播客同样有非常多高价值的细节信息,听完收获满满!以下是播客的时间轴,作者还整理了 ⋙ 完整文字版

文字版和播客时间轴没有完全对应,不过还是二者结合一起进行,信息的获取效率更高 (相信我!这是多次实验的结果 🧐
02:51 站在巨大技术变革的开端:前面是延绵而未知的雪山

03:35 11年本科、17年收敛到大语言模型、和图灵得主合作论文:杨植麟的学术之路

06:36 为什么AGI需要新组织?为什么科研机构、巨头的AI lab无法产生伟大系统?

10:24 全球化+AGI+很大用户量的产品,最终可能是AGI的必要条件

11:07 我们不想做"中国的OpenAI",但应该学习OpenAI的技术理想主义

13:15 我在Google学习到的最重要一课:从无限的雕花中把自己释放出来

16:25 作为博士怎么与图灵奖得主合作?和学术大佬合作与和资本大佬合作,哪个更难?

19:37 创业这一年时间轴:ChatGPT激活资本、人才变量,我在硅谷做了一笔精确计算

22:28 Timing很重要,第一笔融资的窗口很短,只有一个月

27:54 怎么搭建AGI团队?现在有80人

30:21 卡的问题有很多back and forth,接下来一两年不会成为很大瓶颈

32:13 为什么月之暗面做to C且只做to C?

37:39 你认可说"国产大模型公司去年追赶GPT-3.5,今年追赶GPT-4,没有本质差异"这种说法吗?

39:17 追赶GPT-4是国产大模型的必经之路,但也要做非共识的新维度

40:53 不认同2023年下半年大模型市场转冷的判断,我们下半年确实也完成了融资

42:57 登月第一步是长文本,第二步呢?接下来会有两个最重大的技术milestone

44:21 只有一个颠覆性的东西,才配得上AGI这三个字,否则我们今天说的都没意义

45:34 我对PMF、落地场景和应用的看法

46:54 User的scaling和Model的scaling这两件事应该同时做,降维打击发生过太多次

48:54 为什么开源追不上闭源?现在开源的方式和以前不一样了,它本身还是中心化

49:48 AI不是这一两年找到什么PMF,而是未来十年二十年能做什么改变世界

51:48 怎么对抗国内的焦虑情绪?大模型创业中的长短期平衡

57:41 回顾2023年的曲折、变量和预料之外

60:30 怎么看几个市场上的几个观点 (包括Yann LeCun、Geoffrey Hinton、陆奇)

62:25 现在的大模型公司配比:一半实验室,一半商业公司

64:20 怎么看大模型创业公司和巨头的关系

68:24 Sora有多少在你的意料之中,多少在你的意料之外?

69:17 Sora解决掉的技术问题:能在一个比较长的时间窗口保持生成的一致性

69:40 Sora对于全球产业格局意义是什么?2024年大模型会有哪些新叙事?

71:57 视频生成之前的关键技术瓶颈,更unified architecture (统一的架构) 仍然没有被解决

73:04 解读OpenAI关于Sora报告《Video generation models as world simulators》

74:30 怎么看Yann LeCun对生成式AI的新观点

77:45 Sora是视频生成的GPT-3.5时刻

78:37 为什么不同模态放在同一个模型里那么难?Sora + GPT会出现什么?

80:40 两个世界差得越来越远了吗?

83:41 2024年的全球大模型产业预测

以下是摘录整理的文章核心观点,先帮你标记一下关键点!强烈推荐读原文 & 听播客哦!会收获满满~

站在开端 | "要ride the wave"

  • 暗沉的光亮中,杨植麟形容自己过去一年的感知:有点像开车在路上,前面有延绵的雪山,但你不知道里面是什么,你在一步一步往前走。

  • 我们2023年2月开始集中做第一轮融资。如果delay (延迟) 到4月,基本没机会了。但如果2022年12月或2023年1月做也没机会,大家没反应过来------所以,真正窗口就是一个月。

技术师承 | "把自己从无限雕花中解放出来"

  • 我在Google学到的思维:如果能被更底层的东西解释,就不应该在上层过度雕花

  • 有一句重要的话我很认同:如果你能用scale解决的问题,就不要用新的算法解决。新算法最大价值是让它怎么更好的scale

旧系统不适用了 | "AGI需要新的组织方式"

  • 真正AGI肯定是全球化的,不存在由于市场保护机制导致你只能做某个regional market (区域市场) 的AGI公司 ------全球化、AGI和你有一个很大用户量的产品,这三个东西最终是必要条件

  • 2017年-2018年,OpenAI风评很差,很多人跟 Ilya Sutskever 聊完,觉得这个人疯了,OpenAI不是疯子就是骗子但他们从很早开始投入,找到非共识,找到AI现在唯一work的第一性原理:通过 next token prediction 去 scale (通过对下一个标记的预测来进行规模化)

  • 会有比OpenAI更伟大的公司存在。一个真正伟大的公司能结合技术理想主义,并让它用一个伟大的产品跟用户共创,AGI最终会是一个跟所有用户co-work (协作) 产生的东西

  • 如果所有人都觉得你正常,你的理想是大家都能想到的,它对人类的理想总量没有增量

登月的第一步是长文本,第二步呢? | "接下来会有两个milestone"

  • 为什么长文本是登月第一步?因为它很本质,是新的计算机内存。AI最核心的价值是个性化互动,价值落脚点还是个性化,但个性化过程不是通过微调实现,而是它能支持很长的context (上下文)。

  • 接下来会有两个大的milestone (里程碑)一是真正的统一的世界模型 ,它能统一各种不同模态,是一个真正的scalable和general的architecture (可扩展、通用的系统结构) ;二是能在没有人类数据输入的情况下,使AI持续进化 (这两个milestone需要两到三年,有可能更快)

  • 比传统搜索引擎好个10%、20%,没什么太大价值------只有一个颠覆性的东西,才配得上AGI这三个字。智能永远是最核心的增量价值,如果你这个产品最核心价值只有10%-20%来自于AI,就不成立

我一点也不焦虑落地 | "user scaling 和 model scaling 需要同时做"

  • Midjourney 为什么效果好?它在用户端做了 scaling------user scaling 和 model scaling 需要同时做

  • AI不是我在接下来一两年找到什么 PMF,而是接下来十到二十年如何改变世界

  • 开源落后于闭源 。因为开源的开发方式跟以前不一样了,以前是所有人都可以 contribute (贡献) 到开源,现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集,最后一定是闭源更好,是一个 consolidation (对市场的整合)

GPT-4 还没赶上,Sora 又来了 | "现在就有点像视频生成的 GPT-3.5,是阶跃式提升"

  • Generative AI (生成式AI) 做到这个效果在意料之内,意外的是时间------比之前预估更早。这也反映了现在AI的发展很快,很多 scaling 的红利没有被完全吃下来

  • 之前视频生成的主要瓶颈,核心还是数据,怎么去规模化地拟合这个数据

  • 怎么看杨立昆又跳出来反对生成式AI?通过对视频的边际概率去建模,本质是在做无损压缩,但同时也有重要的还没做的事:它怎么跟已有的已经被压缩的能力结合起来?

  • Sora + GPT会产生什么?有可能打通数字世界和物理世界,也可以去更加端到端完成任务

  • OpenAI一直在做下一代模型 。但客观上差距会持续存在一段时间,甚至在国内不同公司之间的差距也会持续一段时间,现在是技术爆发期。但再过两三年,有可能中国顶尖的公司可以在这里面去做好更多基础性工作,包括技术的基建、人才的储备和组织文化的沉淀,有这些打磨后,更有可能在某一些方面有领先可能性------但需要一定的耐心

我接受有失败的概率 | "它已经改变了我的生命"

  • GPT-4和Sora都不需要那么多钱,现在的钱更多是为了下一代甚至下下代模型做储备,做前沿探索

  • 未来最成功的AGI公司肯定是会比现在所有公司都大。这点没有疑问,它最终可能是double、triple GPT的事。它不一定是OpenAI,有可能是别的公司,但肯定有这样的公司

  • 2024年国产模型预测 :一是因为前期的投入,有合适的团队,做出世界领先的某一些维度的能力 。二是会出现更多用户量级更大的产品 ,这是大概率的。三是会有进一步的consolidation和路线选择的分化

🉑 OpenAI 工程师必备经典:the Bitter Lesson 苦涩的教训

twitter.com/_jasonwei/s...

前段时间,OpenAI 研究人员 Jason Wei 发推列了一份研发人员日常行程表 👆,半戏谑半认真地描述了自己一天的时间安排。

这份 Timenline 除了让大家发出「太卷了 」「比我聪明的人还比我努力 」等等感叹之外,还有超多开发者能「秒懂」的梗,比如提到了只限于极少数人员使用的 Sora、Google 新发布的最强大模型 Gemini Ultra,以及下午5分钟头脑风暴后决定还是继续大力飞砖、睡觉前默念 Compression is all you need 🤭

上午

9:00 起床

9:30 乘 Waymo 无人驾驶车去公司,然后吃点牛油果吐司当早饭

9:45 背诵 OpenAI 章程 (核心是确保通用人工智能造福全人类),向最优化的神祷告,学习「the Bitter Lesson 苦涩的教训

10:00 用 Google Meet 开会,讨论怎么在更多数据上训练更大的模型

11:00 写代码,用来在更多数据上训练更大的模型

12:00 去食堂吃午饭 (素食,无麸质)
下午 (开始忙碌起来)

1:00 继续训练模型

2:00 调试基础设施问题

3:00 监控模型训练,顺便玩一下 Sora

4:00 对前面提到的训练的模型进行提示工程

4:30 休息一下,坐在牛油果椅子上,想知道 Gemini Ultra 到底有多好

5:00 进行头脑风暴,思考改进模型的潜在算法

5:05 得出结论:改变算法风险太大,只扩展计算和数据更安全

6:00 吃晚饭

7:00 通勤回家
晚上 (生产力高峰)

8:00 喝杯酒,继续写代码,此时达到鲍尔默峰值 (传说中微软在 80 年代末发现的定律,即程序员在血液酒精浓度在 0.129%~0.138% 时会产生超人的编程能力)

9:00 分析实验运行

10:00 开始实验,让其整晚运行,第二天早上拿结果

1:00 时间来到凌晨,真正开始运行实验

1:15 就寝并默念「Compression is all you need」

www.incompleteideas.net/IncIdeas/Bi...

  • 中英双语对照全文版:知识星球资源编码【R233】

其中,上午正式工作开始前翻阅祷告的「the Bitter Lesson 苦涩的教训」,是机器学习先驱 Rich Sutton 在2019年写的一篇经典博客文章。他在文章里总结了AI发展史上的怪圈及破解之道:

  • 人类总是试图把自己的知识和思维方式植入到AI之中,比如用人类的思路教AI下棋、将让AI按照人类总结的思路来识别图像等等。这些做法,能带来暂时的性能提升,长期来看却会阻碍研究的持续进步。

  • 真正的突破,总是来自完全相反的方向。摒弃人类在特定领域的知识、利用大规模算力的方法,会获得最终的胜利

  • 靠自我对弈磨炼围棋技艺的 AlphaGo,基于统计方法、深度学习来识别语音、图像的算法,一次次击败先前那些浓缩了人类知识的AI,甚至人类自己。

  • 搜索、学习,充分利用大规模算力才是王道。用人类在特定领域的知识来提升AI智能体的能力,都是在走弯路

正如 ilya Sutskever 在随后转推时给出的总结:compute always wins
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

相关推荐
杰说新技术1 小时前
Meta AI最新推出的长视频语言理解多模态模型LongVU分享
人工智能·aigc
热爱跑步的恒川7 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
火山引擎边缘云15 小时前
创新实践:基于边缘智能+扣子的智慧婴儿监控解决方案
物联网·aigc·边缘计算
算家云15 小时前
如何在算家云搭建Aatrox-Bert-VITS2(音频生成)
人工智能·深度学习·aigc·模型搭建·音频生成·算家云
AI绘画小3321 小时前
【comfyui教程】comfyui古风一键线稿上色,效果还挺惊艳!
人工智能·ai作画·stable diffusion·aigc·comfyui
AI绘画月月1 天前
【comfyui教程】ComfyUI有趣工作流推荐:快速换脸,创意随手掌握!
人工智能·ai作画·stable diffusion·aigc·comfyui
AI绘画咪酱1 天前
【AI绘画】AI绘图教程|stable diffusion(SD)图生图涂鸦超详细攻略,教你快速上手
人工智能·ai作画·stable diffusion·aigc·midjourney
过去式的马马马1 天前
文多多AIPPT
ai作画·aigc·文心一言·ai编程·dall·e 2
逐星ing1 天前
【AIGC】腾讯云语音识别(ASR)服务在Spring Boot项目中的集成与实践
aigc·腾讯云·语音识别
花千树-0101 天前
Milvus - GPU 索引类型及其应用场景
运维·人工智能·aigc·embedding·ai编程·milvus