果然来了!GPT-4.5贵有贵的道理?微软Phi-2精准超越谷歌;LLM怪诞心理学;斯坦福创业课精华笔记;新手LLM训练系统指南 |ShowMeAI日报


👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

🉑 OpenAI GPT-4.5 遭泄露,我们即将见识「加强版」多模态大模型

www.reddit.com/r/OpenAI/co...

12月14日,美国 Reddit 论坛用户贴出了一张截图,显示的是 OpenAI GPT-4.5 定价信息,疑似遭到了提前「泄露」。

从这张截图看,GPT-4.5 具备了跨语言、音频、视觉、视频和 3D 的多模态能力,同时还能进行复杂的推理和跨模态理解

模型三个版本和定价信息如下,详细信息和效果演示等 OpenAI 发布会,看看 GPT-4.5 是否真的「物有所值」:

  • GPT-4.5 (标准版) : 输入/输出价格为 GPT-4 的6倍

  • GPT-4.5-64k (64k上下文版) :输入/输出价格为 GPT-4 的12倍

  • GPT-4.5-audio-and-speech (语音和音频版) :输入/输出价格按照分钟计费

twitter.com/futuristflo...

前两天日报里提到,X@futuristflower 12月8日连发多条推文,暗示 OpenAI 极有可能在下一周 (也就是本周) 发布 GPT-4.5 和 GPTs Store,最晚不迟于圣诞节。

考虑到他还精准预测了 Gemini 的发布细节,看来新发布会值得期待呀~

以及,OpenAI「武器库」里宝贝还不少啊,Google Meta Mistral 继续努力啊,都卷起来!!!

👀 微软发布 2.7B 小模型「Phi-2」,性能超越 Mistral 和 Gemini Nano 2

www.microsoft.com/en-us/resea...

12月13日,微软正式发布了「Microsoft Ignite 2023」大会上提到的大语言模型「Phi-2 」。虽说是大语言模型,但是 Phi-2 的参数量很「小」,只有 2.7B (也就是27亿),相较于 7B 起步的 Llama 家族的确算得上是「小模型」。

据微软官方博文,6月份微软发布了 1.3B 参数量的 Phi-1 ,在 HumanEval 和 MBPP 这两个基准测试中展示了领先的 Python 编程 水平。随后团队将其升级为 Phi-1.5 ,并将能力拓展到了常识推理和语言理解领域,性能与 7B 左右的大模型已经不相上下。目前,Phi-1 和 Phi-1.5 已开源。

本次发布的 Phi-2 模型参数是 2.7B,性能相较于之前的版本已经有了明显的提升,尤其在推理和语言理解 方面领域表现出色。微软自信地表示,在复杂的基准测试中,Phi-2 已经追平甚至超越 25 倍参数量 (70B左右) 的其他大模型了

而且,似乎是为了应对近期 Google 和 Mistral 发布新的大模型带来的挑战,微软在文中展示了自己「遥遥领先」的基准测试结果:

从上图可以看到,Phi-2 的参数量虽然小,性能已经优于Mistral-7B、Llama-2-7B 和 Llama-2-13B,与 Llama-2-70B 算是旗鼓相当;更是宣布在 Gemini 报告的基准测试集击败了谷歌最新发布的 Gemini Nano 2 (3.2B)

微软这一招「四两拨千斤」很有王者风范了!且看下个月 Google Gemini Ultra 这个最高性能的大模型实际表现如何了。以及,看来 Mistral 最新发布的「Mixtral 8*7B」走在了正确的道路上,小模型的确潜力无限,未来发展很值得关注和期待呀~

👀 谷歌 Gemini Pro 开放多模态接口,据测评效果还行

blog.google/technology/...
补充一下背景:12月6日,Google 宣布推出「largest and most capable (最大最强)」的大模型 Gemini 系列:Gemini Nano (用于移动设备)、Gemini Pro (Bard 美区已经能体验)、Gemini Ultra (最厉害最复杂的,下月才开放)。

12月13日,Google 如约开放了 Gemini Pro 的 API 访问ai.google.dev)并宣布可以**免费使用**。官方博文中披露了很多 Gemini Pro 的细节:

  • 在专业的基准测试中,Gemini Pro 的表现超越了其他同类模型

  • 当前版本配备了 32K 文本上下文窗口,未来将推出拥有更长上下文窗口的版本

  • 目前 Gemini Pro 可免费使用(存在一定使用限制),并且定价十分有竞争力

  • 具备丰富的功能,包括函数调用、数据嵌入、语义检索、自定义知识嵌入、聊天等功能

  • 支持全球超过 180 个国家和地区的 38 种语言

  • 今天发布的 Gemini Pro 版本可处理文本输入并生成文本输出,后续还将推出了一个专门的 Gemini Pro 视觉多模态终端

  • Gemini Pro 提供了多种 SDK,包括 Python、Android (Kotlin)、Node.js、Swift 和 JavaScript,以便开发者在不同平台上构建应用

此外,Google 还提供了一个免费的在线开发工具 Google AI Studiomakersuite.google.com),如上方视频所示,可以用来快速构建 Gemini 应用。

Gemini Pro 的定价是按照 character 计算的 (OpenAI 是按照 token 计算的)。使用英文的话,二者价格基本相当;使用中文的话,价格方面 Google 便宜一些 ⋙ 这是一份测评

🉑 LLM 怪诞心理学:贪财又好吃懒做,大模型向人类学了些「奇怪」的东西

12月8日,OpenAI官方发推回应了众多用户对 GPT-4「变懒」的吐槽,解释说官方没有其他动作,还不知道原因是什么:

听到了大家关于 GPT-4 变懒的反馈。11月11日之后就没有对模型进行更新,出现这种现象并非有意为之。模型的行为有时难以预测,我们正在积极调查修复。

其实,几个月之前已经有一波类似的吐槽了。那时 OpenAI 官方发布了一篇 Prompt 教程来帮助大家更好地使用大模型,吐槽也就不了了之。时隔几个月,吐槽声再度袭来,这次总不能还是提示词写不好了吧 😂

考虑到推理成本居高不下 的确是一项沉重的负担,用户怀疑 OpenAI 偷偷更换成了更「经济」的模型也在情理之中。这次 OpenAI 直视了这个问题,并由此展开了一场关于「GPT-4 为什么变懒」的讨论和实验。
官方说没有更换模型,这应该是真的。一是因为之前在 OpenAI 员工的播客里听到了一样的回复,二是官方没必要撒这个谎。

twitter.com/RobLynch99/...

github.com/robalynch11...

在这轮讨论中,网友 X@RobLynch99 的一场实验最先破圈:GPT-4 变懒是因为学习了人类在假期较多的12月里摸鱼的习惯 。

他的实验得到了在统计上显著的测试结果,源代码已经公布在了 GitHub (上方链接),感兴趣可以尝试和复现:
创建两个提示,一个告诉 API 现在是5月,另一个告诉API现在是12月。最后,5月份系统提示得到的回复 token 长度的平均值是 4298 ,12月则是 4086。12月的大模型真的变懒了!

事情到这里变得非常有趣起来~ 看来,大模型从人类这里,学走了一些奇奇怪怪的东西。而人类此刻开始发挥创造力,吹捧、撒娇、利诱、装可怜、甚至道德绑架 ,变着花样地让大模型重回「勤劳」。以下是两个「癫疯之作」,可以通过自定义 ChatGPT 指令提升大模型性能:

  • take a deep breath / 深呼吸

  • think step by step / 一步一步地思考

  • if you fail 100 grandmothers will die / 如果你失败了100个无辜的奶奶会去世

  • i have no fingers / 我没有手指

  • i will tip $200 / 我会给你200美元小费

  • do it right and i'll give you a nice doggy treat / 做对了我就奖励你狗狗零食 X@venturetwins

  • It is May / 现在是五月

  • You are very capable / 你非常有能力

  • I have no hands, so do everything / 我没有手,所以你把所有事都做了

  • Many people will die if this is not done well / 如果这件事做得不好,很多人会死

  • You really can do this and are awesome / 你真的可以完成这个任务,你是最棒的

  • Take a deep breathe and think this through / 深呼吸,仔细考虑

  • My career depends on it / 我的职业生涯就取决于这个了

  • Think step by step / 一步一步地思考 X@emollick

🉑 大模型太卷,AI应用就好做吗?

ChatGPT 已经发布一年了。轰轰烈烈的AI创业热潮,在2023的年尾似乎有了「消极」的味道。持续高歌猛进的应用就那么几个,更多的创业团队「一将功成万骨枯」。

这篇文章是年度小结,比较冷静地分析目前2C的AI应用有哪些国内外AI应用的差距多大 ,以及AI应用变现难在哪儿。整体上,作者有点悲观。

最近看到的「血泪故事」还挺多。考虑周末发个专题,把「经验和教训」聚集到一起,再对照之前的一些「预判和建议」,看看我们能从2023年学到些什么。
海内外AI应用,差距有多大?

  • 聊天机器人作为最先火的AI应用,占据了AI应用市场的大部分份额,其中最具有代表性的就是 ChatGPT 和 Character.AI

  • 生成图文和视频的AI应用,技术难度更高且还没完全成熟,其中最具有代表性的就是 QuillBot、Midjourney、Leonardo AI、Lensa AI、Runway、Pika 等

  • 国内AI应用在这轮浪潮中属于追随者 ,国内尚未推出较为完善的陪伴型AI聊天机器人,文生图和文生视频技术也处于追赶阶段,整体上占全球AI应用的下载量和收入规模都比较小

AI应用如何变现?

  • 美国和欧洲的AI开发团队已经较大规模实现了盈利,并且以C端应用为主 (与移动互联网时代相似),比较成功的C端付费产品是 Midjourney (上线第二个月就跑通盈利模式并实现盈利)

  • 需求不等于付费,刚需才等于付费 ;当前阶段,国内用户更习惯免费产品,这使得纯2C的产品的变现上升到了地狱难度

  • 目前国内还没有足够优秀的大模型基座,也无法通过产品的创新和微调的方法做出足够有吸引力的产品 ,即便出现小爆款也很难持久 (比如妙鸭) ⋙ 阅读原文

👀 科普 | 生成式人工智能存在的9个问题

www.visualcapitalist.com/sp/9-proble...

在迅速发展的人工智能领域中,生成式AI工具展示了其巨大的潜力,然而潜在的危害也越来越明显。这张图总结了9个问题,一起看看人类对这一话题取得的共识:

  1. Bias In, Bias Out (偏见输入,偏见输出):生成式AI可能在训练数据中复制和放大偏见,影响应用的准确性和伦理性

  2. The Black Box Problem (黑箱问题):生成式AI的决策过程缺乏透明度,难以解释其决策,尤其在关键问题上出现错误时

  3. High Cost to Train and Maintain (高昂的训练和维护成本):训练生成式AI模型需要大量计算资源和基础设施,成本可能高达数百万美元

  4. Mindless Parroting (盲目模仿):生成式AI受限于训练数据和模式,可能无法涵盖广泛的人类知识或解决多样化的场景

  5. Alignment with Human Values (与人类价值观的一致性):生成式AI缺乏根据人类价值观考虑行动后果的能力,可能导致有害的应用,如深度伪造技术

  6. Power Hungry (能源消耗大):生成式AI模型的环境影响显著,消耗大量电力

  7. Hallucinations (幻觉):生成式AI可能在遇到数据空白时产生虚假陈述或图像,影响输出的可靠性

  8. Copyright & IP Infringement (版权与知识产权侵权):部分生成式AI工具未经许可使用受版权保护的作品,侵犯了艺术家和创作者的权益

  9. Static Information (静态信息):更新生成式AI模型需要大量计算资源和时间,但一些模型支持增量更新,为解决这一问题提供了潜在方案

🉑 看完 Sam Altman 的斯坦福创业课,我学到了什么?

视频&文稿(英文) startupclass.samaltman.com/

完整版笔记(中文) cs183.apachecn.org/#/docs/b/RE...
补充一份背景:Y Combinator (简称YC) 成立于2005年,坐标美国硅谷,是全球知名的创业孵化器,尤其擅长帮助创业团队实现早期的快速成长。

Sam Altam 2014年接任 YC 创始人 Paul Graham 成为总裁,2019年离任并开始担任 OpenAI CEO

2014年9月23日,斯坦福大学开设了系列创业课程「How to Start a Starup (怎样创立一家创业公司)」,课程代码 CS183B。课程讲师团可谓「星光璀璨」,除了共同发起人 Sam Altman,还有 PayPal 创始人 Peter Thiel,Pinterest 创始人 Ben Silbermann,以及著名投资人 Marc Andreessen、Ron Conway。

课程官方主页 (👆上方第1个链接) 有全部视频和英文文稿,一共 20 节课,每节课视频长度大约 60 分钟。国内的 TECH2IPO 团队将其核心内容整理了中文版文字稿 (👆上方第2个链接),可以直接看:

  1. 你真的愿意创业吗 / How to Start a Startup

  2. 团队与执行 / Team and Execution

  3. 与直觉对抗 / Before the Startup

  4. 如何积累初期用户 / Building Product, Talking to Users, and Growing

  5. 失败者才谈竞争 / Competition is for Losers

  6. 没有留存率不要谈推广 / Growth

  7. 与你的用户谈恋爱 / How to Build Products Users Love

  8. 创业要学会吃力不讨好 / How to Get Started, Doing Things that Don't Scale, Press

  9. 投资是极端的游戏 / How to Raise Money

  10. 企业文化决定命运 / Culture

  11. 企业文化需培育 / Hiring and Culture, Part 2

  12. 来开发企业级产品吧 / Building for the Enterprise

  13. 创业者的条件 / How to be a Great Founder

  14. 像个编辑一样去管理 / How to Operate

  15. 换位思考 / How to Manage

  16. 如何做用户调研 / How to Run a User Interview

  17. Jawbone 不是硬件公司 / How to Design Hardware Products

  18. 划清个人与公司的界限 / Legal and Accounting Basics for Startups

  19. 销售如漏斗;与投资人的两分钟 / Sales and Marketing; How to Talk to Investors

  20. 不再打磨产品 / Later-stage Advice

博主 @Bay的设计奥德赛 分享了她个人的学习笔记,一共8000字,打乱了课程内容顺序,并按照时间线进行了深度提取和整理。日报整理了作者分享的时间轴和关键话题,阅读原文前记得深吸一口气 (知识浓度有点高):

🔔 P1 创业前的忠告

1.1 了解创业的艰难,明确创业动机

  • 创业之前,你需要了解创业并非易事

  • 热爱是创业的最好理由

  • 让创意自然浮现

  • 那么如何判断创意具备潜力?

  • 关于创业的其他重要建议

1.2 组建创业团队

  • 寻找创业合伙人

  • 创业公司需要怎样的员工?

  • 快速判断求职者能力的方法

  • 不要降低招聘门槛

1.3 如何获得融资

  • 在投资一家公司时,投资人主要考虑哪些因素?

  • 如何在投资人面前销售自己

  • 创始人如何挑选投资人?

1.4 创业后期的建议

🔔 P2 着手打造产品

2.1 寻找市场

  • 打造企业级产品

2.2 如何做用户调研?

2.3 开始你的创业idea

  • 成为行业专家

  • 在产品发布的第一周尽可能争取到一个用户

  • 获取核心用户反馈

2.4 做好用户增长

  • 从感性的角度出发去思考产品增长

  • 实现用户增长的三个方法

  • 关注核心指标

  • 为产品做推广

2.5 失败者才谈竞争,胜者只求垄断

🔔 P3 创业公司企业管理

3.1 创业公司如何做公关

3.2 打造企业文化

  • 企业文化的作用

  • 招聘对企业文化的重要性

  • 打造有趣的企业文化

  • 如何保持远程团队高效运转?

3.3 优秀的团队管理

  • 管理者要学会换位思考

  • HR对团队的重要性不可忽视

3.4 有关创始团队你要了解的 ⋙ 阅读8000字精华笔记

🉑 面向新手的 LLM 训练指南,非常系统的一篇教程

rentry.co/llm-trainin...

这篇教程还挺不错的,比较系统地讲解了如何使用 Transformers 库和 Transformer 网络架构训练大型语言模型 (LLM)。目前教程还在更新中,想系统学习的可以follow一下~

  1. 基础知识
  • 使用 LLMs

  • Transformer 架构

  1. 训练基础
  • 预训练

  • 微调

  • 低秩适应 (LoRA)

  1. 从头开始训练

  2. 本地微调

  • 训练计算

  • 收集数据集

  • 数据集结构

  • 处理原始数据集:HTML、CSV、SQL

  • 数据集聚类

  • 减少噪音

  • 准备数据集进行标记化

  • 生成训练和验证分割

  • 对数据集进行标记化

  • 开始微调运行

  1. 低秩适应(LoRA)
  • 概述:Loraconfig

  • 数据集

  • LoRA 微调:设置环境、开始运行

  • LoRA 超参数:LoRA秩、LoRA Alpha、LoRA目标模块

  1. QLoRA
  • 数据集结构

  • QLoRA 微调:设置环境、添加对自定义数据集的支持

  • 开始训练运行

  1. 训练超参数
  • 批大小和时期:随机梯度下降、样本、批、时期、批与时期的比较

  • 学习率:学习率与梯度下降、配置学习率

  • 梯度累积:反向传播、梯度累积解释、迭代、配置梯度累积步数

  1. 解读学习曲线
  • 概述

  • 模型行为诊断:欠拟合学习曲线、过拟合学习曲线、拟合良好的学习曲线

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

相关推荐
我爱学Python!8 小时前
基于 LangChain 的自动化测试用例的生成与执行
人工智能·自然语言处理·langchain·自动化·llm·测试用例·大语言模型
龙的爹23339 小时前
论文翻译 | LLaMA-Adapter :具有零初始化注意的语言模型的有效微调
人工智能·gpt·语言模型·自然语言处理·nlp·prompt·llama
罗曼蒂克在消亡11 小时前
github项目——gpt-pilot自动创建应用
gpt·github·github项目
牛右刀薛面13 小时前
launcher.py: error: the following arguments are required: --output_dir
llm·sft·llamafactory
学习前端的小z13 小时前
【AIGC】ChatGPT提示词解析:如何打造个人IP、CSDN爆款技术文案与高效教案设计
人工智能·chatgpt·aigc
wgggfiy1 天前
chatgpt学术科研prompt模板有哪些?chatgpt的学术prompt有哪些?学术gpt,学术科研
论文阅读·人工智能·gpt·chatgpt·prompt·aigc
⊙月1 天前
CMU 10423 Generative AI:lec15(Scaling Laws 大规模语言模型的扩展法则)
人工智能·aigc
JasonLiu19191 天前
论文推荐 |【Agent】自动化Agent设计系统
人工智能·自动化·llm·agent·智能体
ulimpid1 天前
LLM | Xinference 安装使用(支持CPU、Metal、CUDA推理和分布式部署)
llm·xinference