谷歌Gemini被骂了?让子弹飞一会儿;如何构建高效RAG系统;Pika是腐朽王朝的颠覆者;AGI将重塑组织架构;对话月之暗面杨植麟 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

👀 淘宝 X D.Design 堆友 | 淘宝年终好价节 AIGC 创作大赛

d.design/competition...

淘宝携手堆友联合打造了「淘宝年终好价节AIGC品牌共创大赛 」。本次比赛以「价格蹦极」为主题,邀请各界AIGC爱好者一同释放创意的无限潜力。

注意!作品征集和人气投票都截至12月12日结束!要抓紧啦!

获奖作品将被制作为淘宝年终好价节品牌官方传播物料,进行大范围曝光,并进行获奖者署名。而且一等奖单人独揽3万现金,总奖池10万💰,获奖概率贼大 👀

🉑 从王者归来到被骂作假,Gemini 这跌宕起伏的一天啊......

blog.google/technology/...

12月6日,谷歌深夜炸场,发布了最新版本的 Gemini 模型,宣传视频中的「多模态」能力闪瞎了我们的眼。仅从文章标题「Introducing Gemini: our largest and most capable AI model (Gemini:我们规模最大、能力最强的 AI 模型) 」都能感受到谷歌这波的踌躇满志和万丈豪情。

简单来说,谷歌成立 Google DeepMind 就全力押宝 Gemini 大模型,并在本轮发布了针对 Gemini 1.0 的三种优化版本:

  • Gemini Ultra ---规模最大且功能最强大的模型,适用于高度复杂的任务 (目前无法体验,至少要等到12月13日)
  • Gemini Pro --- 适用于各种任务的最佳模型 (Bard Experiment 版本已经可以体验,Bard beta 版本还不可以)
  • Gemini Nano --- 端侧设备上最高效的模型 (搭载到了 Pixel 8 Pro 智能手机中) ⋙ 官方博客原文(中文版)
    社群总结的 Bard 版本切换小窍门 :把 Google 账号系统语言设定为英文,保险起见可以把魔法节点和 Google 账户所在地都设为美国,重新进入 Bard(bard.google.com)确认左上角已经切换为 Experiment版本

仅仅一天之后,Gemini 的风评急转直下,从「超越GPT-4」「被OpenAI压着打了一年后终于王者归来」到「宣传视频被曝作假 ⋙ 链接」「中文基准测评远不如 GPT-4 ⋙ 链接」。

个人觉得,目前就对Gemini下判断为时尚早。官方博文里明确说「它将在 170 多个国家和地区提供英语服务,并且计划在未来几个月内扩展不同的模态,并支持新的语言和地区」,也就是对「非英语」任务的支持一般,而且最高性能的 Ultra 版本还没出来 (演示视频都是基于 Ultra 版本的)。

让子弹再飞一会吧。

🉑 devv.ai 是如何构建高效的 RAG 系统的

devv.ai

devv.ai 是专门面向开发者的 AI 搜索引擎,目标是替代开发者日常使用 Google / StackOverflow / 文档等进行查询的场景,更加快速地处理 coding 过程中的问题。

很多开发者用户表示,devv.ai 的搜索结果优于 GPT-4,已经设置为默认搜索引擎devv.ai 开发者 X@Jiayuan 也分享说,产品在一个月时间里收获了6位数的用户、日搜索5万次且每周翻倍,是一次成功的探索。

twitter.com/Tisoga/stat...

github.com/devv-ai/dev...

最近,Jiayuan 在X平台写了一条长推,解释了构建 devv.ai 需要的底层技术。第一篇的主题是「devv.ai 是如何构建高效的 RAG 系统的 🔎」,用通俗易懂且结构化的方式科普了 RAG 的诞生背景和常见的技术解决方案,值得一看~

受限于篇幅,日报将作者分享的核心内容整理如下,推荐去看原文。也推荐 Follow 作者的X账号和 GitHub 项目更新 (作者说会将本篇及更多内容整理在 GitHub)

RAG (Retrieval Augmented Generation,检索增强生成) 系统是为了解决「语言模型无法有效获得与利用新知识」这一问题而设计的一种架构与技术方案,在最近几年强大语言模型和训练计算能力的支持下,终于得以实现和应用。

RAG目的是让语言模型使用外部知识进行生成。RAG 系统由①语言模型②模型所需外部知识集合③当前场景下需要的外部知识 这三部分组成。优化 RAG 系统就是分别优化这三个模块

  1. 语言模型
  • GPT-3 的出现使得RAG系统变得可用,因为它具有较强的理解和生成能力。第一波基于 RAG + GPT-3 的公司 (Copy AI、Jasper等) 都获得了非常高的估值 & ARR。

  • 从2023年开始,出现了大量的开源和闭源的基座模型,如 GPT-3.5 / GPT-4 (闭源方案) 和Llama 2 / Mistral (开源方案),这些模型都可以在上面构建 RAG 系统。

  1. 模型所需的外部知识集合
  • 这个模块主要包括两个部分:embedding 模型存储 embedding vector 的数据库

  • 前者基本上都使用 OpenAI 的 embedding 模型,后者可选方案包括Pinecone、Zilliz (国内团队)、Chroma (开源的解决方案)、关系型数据库上的 pgvector 等

  • devv.ai 采用的方式:embedding + 传统的relation db + Elasticsearch,并使用 Rust 构建了整套 knowledge index

  1. 更好地召回当前场景下需要的外部知识
  • 作者团队在 encoding 过程中对原始 knowledge 数据进行了大量处理,以确保在 retrieve 时获取到结构化的数据,减少后续处理的复杂性,并提高召回准确率

🉑 月之暗面杨植麟:大模型需要新的组织范式,场景摩尔定律能催生 Super App

kimi.moonshot.cn/chat/

月之暗面 (Moonshot AI) 是一家神秘且特别的大模型创业公司。公司目前只发布了一款产品------基于千亿大模型的 chatbot 产品「Kimi Chat」,并在发布之初就打出了「长文本」「自研闭源」「toC」等清晰的标签。

创始人杨植麟毕业于 CMU,师从苹果 AI 负责人 Ruslan Salakhutdinov,曾在 Meta 和 Google Brain 任职,是 Transformer-XL 与 XLNet 等爆款论文的第一作者。

这篇极客公园创始人张鹏与月之暗面创始人杨植麟的对话,质量非常之高,提问和回答都非常有水平!!不同于其他公司的「公关文」,他们在这场直播里深刻讨论战略、组织、产品和人才,讨论OpenAI、AGI、AI Native 和 Super-App,也讨论人类即将踏上征程的未知远方

我们以前善于目标导向,通向有用,但未来把一件事变得有用、普惠的过程中,可能需要一点 moonshot 的精神。你在瞄向一个高位置的东西,不管打不打得中,至少要往宇宙深处走,往星河深处走,我觉得这是让人兴奋的。往往可能是一些兴奋的目标,聚集起了真正优秀的人。

我们对问答都做了简化,方便快速get核心信息。但是强烈推荐你花20分钟阅读原文,感受下非常「聪明」的思考方式以及高信息密度的输出,体会字里行间闪烁的智慧火花。

大模型时代,对组织形态提出了新的要求

  • Q1: 如何做出投身大模型赛道的决定

  • A1: 决策逻辑来源于过去几年对语言模型认知的变化,以及在 Google 观察到的现象,认识到构建新的组织形式是通往 AGI 的必经之路
    大模型时代的创新很难被规划

  • Q2: 为什么组织是核心问题

  • A2: AGI 时代的底层逻辑发生了变化,需要新的组织形式来匹配;在新的时代,非常擅长 AGI 的组织出现是大概率会发生的事情

  • Q3: 对 OpenAI 的看法

  • A3: OpenAI 在人才密度、共同愿景和高效聚焦方面做得很好;他自己则更关注如何找到一个系统性的方式去做事情

  • Q4: 如何定义创新组织:bottom-up 还是 top-down

  • A4: top-down 框架在大模型中仍然适用,关键是让组织中的小单元高效地完成任务,以实现整体目标
    AGI 的技术路径已经确定,但产品方向仍然有很多未知

  • Q5: 对 AGI 技术路径的看法

  • A5: AGI 的技术路径已确定,但产品层面仍存在很多不确定性;组织和创新在这个时代尤为重要,只有把组织做好,才有可能在AGI路上取得成功

  • Q6: 为什么选择长文本作为专长方向

  • A6: 长文本是新计算系统的「内存」,具有非常高的价值
    闭源路线是为了打造 AGI 时代的 Super App

  • Q7: 对于开源模型和闭源模型的看法

  • A7: 开源和闭源在大模型领域是互补关系,Moonshot 选择闭源是为了专注于打造超级应用,这是核心策略

  • Q8: 为什么选择 toC 业务而非 toB

  • A8: 新的技术变革为 toC 领域带来了新机会,希望建立一个与AGI目标匹配的业务模式,并实现快速闭环和迭代

  • Q9: 对AI Native概念的理解

  • A9: 在 AI Native 的背景下,产品经理需要关注如何通过两个数据集 (训练数据和测试数据) 开发产品,以及如何训练和调试模型

  • Q10: 是否必须端到端地开发 Super-App

  • A10: 要实现真正的 Super App,需要端到端地做这件事,这样可以形成产品的差异化优势,并且让模型跟随应用共同成长
    新时代产品经理需要具备的素质:快速迭代

  • Q11: 当前产品经理的角色变化

  • A11: 新的产品经理需要在「神性」和系统性之间寻找平衡;在AGI时代,系统可能是主力军,但仍需要"「神性」的指引

  • Q12: 团队招聘产品人的特质

  • A12: 团队成员需要具备开放心态、学习能力和快速迭代的特质,团队希望找到对 AGI、Super-App 和全球市场有激情的人

  • Q13: 对智能摩尔定律的看法

  • A13: 认同智能摩尔定律的观点,但更关注场景摩尔定律;有多少场景被解锁,以及如何实现指数级上升,这将是下个时代最伟大的公司的关键指标

  • Q14: 硅谷和中国创新者的文化和能力差异

  • A14: 硅谷工程师文化强调技术和创新,而东方文化强调实用性和商业模式 ;未来最伟大的公司可能会结合这两种文化,实现技术和商业的双重成功 ⋙ 强烈!推荐!完整阅读原文

👀 从 HeyGen 到 Pika,AI视频商业化中的生存与生态

AI生成视频领域最近比较火的两款应用是 HeyGen 和 Pika。HeyGen靠「Taylor Swift 说中文」「郭德纲说英语」的视频火爆出圈后,吸引了一大波新用户并获得了一笔新的融资。Pika 铺天盖地的营销和被扒出的更多幕后则显示其「资本宠儿」的身份稳固。

这篇文章的作者 (应该是投资人背景) 从商业化和生态等角度,分析了 HeyGen 和 Pika 面临的挑战,以及可能颠覆并重构的新兴商业帝国。当我们还在争论一款AI应用是否好用的时候,已经有人洞察到了未来~ (作者文笔相当凝练,信息密度很好,日报摘录几段并推荐阅读原文)

HeyGen的收入增长能否跟得上它的估值和流量,是决定它未来两三年资本运作的核心要素

但即使是需要深度耕耘才可能有收获的场景,也不得不内防同行,外防大厂。阿里的 Animate Anyone 和字节的 MagicAnimate 都在最近发布,可以很明显的看到这两款产品对于直播和短视频的意义

由于大厂可以为自己的业务服务而无需考虑短期收益,会将其能覆盖到的方向迅速内卷。
互联网从未真正改变影视行业,只是在旧模式中塞入了新的渠道和资本势力。内容制作与组织结构仍把持在"圈内人"手中,并很快与互联网新贵沆瀣一气。而AI视频,终于让我们看到了打破影视领域圈子垄断的可能性

即使不是Pika,也会是其他视频生成公司 。但凡投资人在人生中对推翻好莱坞霸权有过一点想象,都会理解这项技术代表何种梦想。在这个过程中,落地与否不那么显眼,因为终点有望得见的巨额金钱

就如同图片生成网站往往都伴随一个发布图片的社区,未来在Pika上制作的电影、剧集或动画,必然可以直接在Pika发布这可能是第一次,影视行业的制作、发行和渠道在同一家公司身上无缝衔接 。不需要采购和投资,只要与创作者约定版权收益的分成比例,就可以把源源不断的内容提供给观众 ⋙ 推荐阅读原文 (账号的文章都挺不错)

🉑 从大模型到 Agent 会改变的游戏规则

最近在跟AI创业者和开发者们讨论「生成式AI浪潮对公司组织架构的影响」,有很多观点的交锋非常有意思。最近讨论这个话题的文章也挺多,有几篇的内容逻辑和深度非常不错!今天日报推荐两篇~

我们一起来深度思考下,除了甚嚣尘上的「降本增"笑"」「AI让我丢掉了工作」这些话题之外,AI怎样深刻地改变了生产力和生产关系,而这又将如何深刻地影响我们每个人未来的命运

以下是文章完整的逻辑。这位作者的文章质量都很高,就是行文有点...晦涩... 需要集中注意力去理解内在逻辑~ 如果你不关心推导过程想直接看核心内容,从原文中间的「组织力」部分开始看就OK~

智能先要跨过一个个界限,然后才是不同领域的Agent逐步成立,这种界限可以用图灵测试2.0进行度量。跨过界限之后很可能会对组织方式进行重构。

当组织力的内涵发生变化后,才可能普遍产生10倍的效能,影响一个一个行业这时候沉淀到组织关系中的,不同行业的各种积累可能就会变为负债,反倒是形成真正的从大模型到Agent的新机会 ⋙ 阅读原文

🉑 AI或将重塑现代公司组织架构 | 附:重塑的例子

接着上方的讨论,我们看看这篇文章更当下、更具体的讨论。也就是说,面对汹涌澎湃的生成式AI浪潮,面对一定会发生的组织变革,此时此刻的我们可以做些什么

要在AI浪潮下重塑组织,可以遵循以下三点原则:

  1. 授权团队寻找自己的使用场景 :引入AI并非简单的IT解决方案,而是像引入一位新团队成员;每个团队和个人需根据自身场景找到合适的AI应用方式;激励机制应鼓励实验与沟通,公司文化要拥抱自由思想

  2. 拥抱错误和不确定性 :组织变革需要时间,变革后的组织形态可能固化,因此下一代组织架构需足够灵活,让团队有充分空间迎接新模型

  3. 从今天就开始,不断迭代 :采用现有AI功能后,组织需持续优化;将AI应用的测试周期缩短为数天甚至数小时,会对工作方式产生深刻影响;企业在面对指数级变化时,要么反应过早,要么反应过晚
    作者自己团队是如何纳入AI帮助做出更加「智能」决策的呢?这是个复杂且反复的过程:

  4. 使用AI提供反馈:AI可根据用户定义的角色提供相当满意的反馈,作为初步反馈手段

  5. 使用AI整理和总结信息:AI可帮助团队更有效地开会,还能生成产品原型或网页代码等使讨论更直观

  6. 改变工作流程:即使是使用现有的AI工具,也可以彻底改变整个工作流程,使理论探讨更落地

  7. 未来的AI想象力 :我们可以预见一个AI自主地从产品概念开始创造,直至代码编写和部署,几乎不需要人类干预的世界 ⋙ 阅读原文

👀 ChatGLM: An Alternative to ChatGPT

ShowMeAI知识星球资源编码:R195

这是 ChatGLM 大模型作者 @ 唐杰** 老师在 ISWC 2023 大会的演讲 keynote,核心内容是 ChatGLM 模型的设计思路、技术创新点和最新进展。

整份报告 60+ 页,是来自大模型作者第一视角的难得分享,以下是一些页面截图,感兴趣可以前往星球下载完整报告。

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

相关推荐
我爱学Python!5 小时前
面试问我LLM中的RAG,秒过!!!
人工智能·面试·llm·prompt·ai大模型·rag·大模型应用
AIGC破防黑吗喽5 小时前
Midjourney零基础学习
人工智能·gpt·学习·ai·stable diffusion·midjourney·ai绘画
学习前端的小z6 小时前
【AIGC】ChatGPT是如何思考的:探索CoT思维链技术的奥秘
人工智能·chatgpt·aigc
程序员X小鹿7 小时前
大厂卷起来了!又一款AI对口型神器,让图片说话、唱歌,免费可用!吊打字节Loopy?
aigc
infominer7 小时前
RAGFlow 0.12 版本功能导读
人工智能·开源·aigc·ai-native
蛋先生DX7 小时前
网页也能跑大模型?
前端·机器学习·llm
知来者逆9 小时前
探索大型语言模型在文化常识方面的理解能力与局限性
人工智能·gpt·深度学习·语言模型·自然语言处理·chatgpt·llm
春末的南方城市18 小时前
FLUX的ID保持项目也来了! 字节开源PuLID-FLUX-v0.9.0,开启一致性风格写真新纪元!
人工智能·计算机视觉·stable diffusion·aigc·图像生成
龙的爹233321 小时前
论文 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust
人工智能·gpt·深度学习·语言模型·自然语言处理·prompt
我算是程序猿1 天前
用AI做电子萌宠,快速涨粉变现
人工智能·stable diffusion·aigc