人类千亿科学豪赌与参差的中美景观;超赞的LLM学习路线图;AI搜索引擎全面解析;美图AI动漫技术方案;O'Reilly LLM新书预览 | ShowMeAI日报


👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

👀 人类驶向新轨道:Adobe 放弃收购 Figma,与旧有规划割席

www.figma.com/blog/figma-...
补充一份背景:Adobe 是最大的设计软件公司,Figma 是最大的界面设计软件公司;Adobe 在2022年收购 Figma 是顺应时代潮流,在2023年底停止收购也是

2022年9月,Adobe 宣布与 Figma 达成收购意向,给出的价格是 200 亿美元;2023年12月,双方宣布停止此项收购计划,Adobe 向 Figma 支付 10 亿美元违约金。

Figma 构建了一个强大的 UX 设计工具、协作网络和开发者生态,牢牢占据着 UX 设计领域的第一把交椅。Adobe 在这个细分场景也不是对手,收购 Figma 就是借此拿下了一个对自己极其重要且冉冉上升的市场。

仅仅15个月之后,合作宣告破裂,这中间发生了什么呢

2022年底 ChatGPT 发布,以及2023年 AIGC 给众多行业带来了颠覆性的改变和影响,包括 UX 设计领域。具体说就是:

  1. 大量发展期公司选择「拉长发展扩张期」,整个行业对UX设计的需求开始变弱

  2. AIGC 颠覆了产品使用体验和设计理念,未来不再依靠「不断跳转页面和人机交互,在这个过程中完成任务并拿到结果」,或许可以直接通过对话和命令来完成,因此 Figma 的需求场景变得薄且弱

但这并不意味着 UX 行业或者软件行业的消亡,而是我们共同迈入了一个「图形用户界面和对话式界面混合使用 」的新时代,UX 设计将不再是一个设计师的专属岗位,而是人人都可以上手的基础技能 ⋙ 专业分析

🉑 Yahoo → Google → Perplexity,搜索引擎进入AI新时代

www.perplexity.ai
补充一份背景:Perplexity AI 由一批 OpenAI 前员工创办于2022年,核心产品是对话式AI搜索引擎 (👆 如上图和链接),并基于 OpenAI GPT、Anthropic Claude 等大模型回答用户提问,为用户提供检索和生成结果

这是一篇关于 Perplexity 的「产品向」解读,作者 @Super黄梳理了其发展历程,以及这款产品的成功带给开发者的一些启发:

  1. Perplexity 「成功」在于对用户需求的深刻理解和对技术趋势的敏锐把握

  2. Perplexity 商业模式和产品策略,为我们提供了一个关于如何在AI时代创新的宝贵案例

  3. Perplexity 挑战在于如何持续优化用户体验,同时建立起强大的品牌信任和市场地位

  4. 对于其他AI产品开发者来说,Perplexity 的发展历程是一个值得学习的蓝本,它展示了如何在竞争激烈的市场中找到自己的定位,并不断进化

  5. 中国市场也迫切需要这样以答案为导向的新型搜索引擎,创业者可以抓住时机布局,同时结合中国国情和互联网生态设计产品和商业模式

阅读完本文后,你可以对 Perplexity 有一个完整且清晰的认知 ,并对同类型产品的发展脉络和技术路径做到「心中有数」。以及,建议你也把 Perplexity 和 天工 纳入自己的密切关注名单 (都是技术牛逼但营销低调)

01 Perplexity有多牛?

  • 流量增长:在短时间内实现了显著的流量增长

  • 创始团队:成员在 LLM 和搜索引擎领域有这丰富经验和深入见解

  • 投资团队:包括 Jeff Dean 等知名投资者认可了它的发展潜力

02 Perplexity是什么?

  • 答案引擎:旨在提供直接的答案,而不是传统的搜索结果列表

  • 用户体验:通过 Generative UI,用户可以直接在搜索框中输入问题并获得结构化的答案,包括来源链接、明确答案和相关问题

  • 功能:包括Copilot (交互式研究助手) 、Collections (收藏夹) 、Profile (个性化设置) 和Discover (热门搜索结果)

03 Perplexity的演变 (重要)

  • 2022年8月:Perplexity公司成立,最初专注于企业市场的Text2SQL技术,获得种子轮投资

  • 2022年9月:为了内部使用,搭建了一个Slack机器人,帮助团队撰写SQL模板

  • 2022年10月:SlackBot开始联网搜索,并增加了摘要功能,可以回答真实问题

  • 2022年11月:在投资人 Nat Friedman 建议下,开发了 Discord Search Bot,随后逐步增加搜索聚焦 (Search Focus) 功能和对 StackOverflow 的搜索支持

  • 2022年12月:网页端正式上线

  • 2023年2月:开始专注于答案引擎,逐步推出插件、回答总增加link等功能

  • 2023年3月:推出 iOS 版本,宣布A轮融资

  • 2023年4月:宣布引入 GPT-4 和 Wolfram

  • 2023年5月:新增 Preplexity Copilot 功能,推出 Android 版本

  • 2023年6月:新增 AI Profile 功能,可以根据个人的简介、习惯的语言、地址和爱好来对回答进行个性化;推出 Perplexity Pro 会员服务

  • 2023年7月:支持用 Perplexity 代替浏览器中的默认搜索;引入 LLaMa Chat、LLaMa-13B、LLaMa-2-70B-Chat

  • 2023年8月:支持上传最高 10MB 的文件,引入 Code LLaMA ,引入 Claude-2

  • 2023年9月:收购AI增强的 iOS 键盘 Spellwise ,引入 Mistral-7B 模型

  • 2023年10月:推出 pplx-api,这是 Perplexity 自研的推理堆栈,提高了生成速度

  • 2023年11月:发布 pplx-70b-online 模型的测试对比数据,显示其在技术方面的持续进步

04 创始人Aravind对产品的思考

  • 产品理念:Aravind 强调了用户需求的理解和技术创新的重要性,以及如何将这些理念转化为产品特性

  • 产品迭代:遵循了快速迭代和用户反馈驱动的产品开发模式,从SQL搜索到答案引擎的转变

05 Perplexity的用户都是谁,为何用它?

  • 用户画像:主要用户群体包括软件工程师、投资银行家、产品经理等专业人士 ,他们追求效率和专业性

  • 使用场景:用户倾向于进行快速搜索和获取信息,尤其是在需要深入研究和实时信息的场景

06 国内竞品:天工AI搜索

  • 天工AI搜索在功能上与 Perplexity 相似,但在微信生态内的布局不够深入,缺乏有效的用户互动和内容分发
    07 两个方面理解它的下一步

技术持续进化

  1. 自建 online-LLM:已经推出了自己的两个全新 Online LLM,包括之前已经发布的 7b 和最新的70b,以减少对 OpenAI、Claude 等外部模型的依赖

  2. 构建索引库:正在构建自己的索引库,以减少对 Google、Bing 等搜索引擎API的依赖,降低成本,并提高搜索质量

  3. 优化索引排序:索引库使用复杂的排名算法,优先考虑高质量、非 SEO优化的网站,并定期对 LLM 进行微调以提高性能

  4. API 数据收集:通过API调用收集用户使用数据,这不仅有助于改进服务质量,还可以通过客户的 API 调用来构建和完善索引库

寻找用户场景

  1. Discover 功能:计划通过 Discover 功能帮助用户更好地发现信息,并快速传递信息给用户

  2. Library 功能:构建AI版本的维基百科,这可能涉及到引入专业内容,并逐步培育内容生态

  3. Copilot 功能:将 Copilot 升级为 Agent,直接帮助用户完成行为动作,减少用户的行为成本

  4. 商业模式探索:将继续探索合理的商业模式,包括基于用户 Profile 的精准广告投放和通过Agent付费带来佣金收入

08 商业模式

  • 收入来源:目前主要依赖 toC 订阅和 toB API 调用

  • 市场策略:通过提供 Pro 免费试用代码来吸引更多用户

09 Perplexity能否取代Google?

🉑 美图AI动漫功能的落地探索

补充一份背景:美图成立于2008年,旗下美图秀秀、美颜相机、Wink (视频剪辑软件) 等产品,在全球范围内拥有超过10亿用户;作为一家把AI写进 Slogan 的科技企业,美图近几年也在加强对人工智能领域的探索

文本生成和图像生成技术日趋成熟的今天,视频生成领域仍然面临着稳定性、部署等方方面面的挑战 。这篇美图工程师「AI动漫 」的主题分享,覆盖到了视频生成领域的探索和落地的解决方案,是一篇非常优质的大厂技术分享。

原文很长,日报总结了最核心的技术部分主要包括在视频内容理解、时域一致性以及长视频生成等方面的技术挑战和解决方案,感兴趣可以查看原文:

01 视频内容理解

  • 关键帧检测:通过检测视频的关键帧,提取出反映每个片段场景的关键信息

  • 图文内容匹配模型:对比了 CLIP 和 BLIP2 两种模型,最终选择了 BLIP2,因为它提供的文本描述更符合图片内容

  • 人脸属性提取:为了提高文本描述的准确性,使用了人脸属性提取网络,通过多任务学习输出性别、年龄等特征

  • 人脸特征注入:通过增加人脸特征提取和 Mapping 模块,将人脸特征映射到文本特征空间,以提高生成结果的相似度

02 时域一致性

  • 全景映射方案:通过训练网络得到视频前背景的全景映射图,对前景或背景进行风格化

  • 光流结合方案:引入相邻帧的光流信息,保证处理帧的全局一致性

  • 多帧渲染方案:风格化生成第一帧,然后通过拼接前一帧的结果和局部重绘方式得到

  • 帧间注意力机制:提出了 CFA (Cross Frame Attention) 模块,结合光流和 Controlnet 优化动作一致性,并引入多头注意力机制对齐帧间运动和光流信息

03 长视频生成策略

  • 分段处理:由于显存限制,长视频生成需要分段处理。通过多个窗口对视频进行分段处理,并在重叠区域的窗口特征进行融合,使得每个窗口都能得到视频全时域上的信息

  • 补帧算法:为了优化用户体验,采用固定抽取10帧的方案,然后通过补帧算法生成30fps的效果

  • 视频分片处理:将视频分片并执行前处理,通过片段处理集群并行处理,最后合并风格片段并加入补帧算法得到完整的风格视频 ⋙ 完整的大厂解决方案介绍

🉑 口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观

www.xiaoyuzhoufm.com/episode/659...
补充一份背景:拾象科技 CEO 李广密是一位非常优秀的投资人,也是一位优质的分享者------有着清晰的思考框架,更有密集的内幕和满满的细节~ 不愧是肉身在硅谷沉浸大半年的一线投资者 👍👍👍

这是一期信息非常密集的播客!!以下是播客时间线,非常推荐完整地听一遍,你会捕捉到李广密对中美大模型市场的深刻洞察 ,以及对未来行业布局、发展方向、发展节奏、关键要素等等核心话题的大胆预判

  • 02:03 过去一年,大模型的核心secret藏在这三家公司:OpenAI、Anthropic、Google

  • 04:22 回顾全球大模型这一年,我脑海里闪现的关键产品与瞬间

  • 07:56 从OpenAI分裂出去的Anthropic,它的前世今生

  • 10:26 硅谷大模型的融资是巨头在定价和主导了,硅谷VC几乎全体错过

  • 12:13 卷了这一年,全球大模型到底卷出了什么?

  • 14:03 如果复刻 GPT-4 是进入决赛圈,目前的3名入围选手和3名高潜黑马

  • 15:20 提升模型 capability 的北极星指标与关键变量?

  • 16:51 这次是极少数科学家推动的「登月时刻」,天才科学家的聚集效应与分布图

  • 23:05 模型竞赛很残酷,我们对于终局的推演、猜想

  • 23:53 中国模型公司现状:技术辨识度/资源集中度/领军人物

  • 25:53 人类烧尽千亿美金做一场AI实验,赌的是什么?AI能推动未来15年全球 GDP 翻倍?

  • 26:26 硅谷巨头和它们分裂的大模型阵营:微软和它支持的 OpenAI/Google、Amazon 和它们支持的 Anthropic / Google 自成一派 / Tesla 和它支持的 X.AI / Apple ------明年 Apple 支持谁值得关注

  • 30:29 2024年会决定大模型格局,窗⼝可能就在未来12个月

  • 33:39 大模型公司一定要追求 GPT-4 吗?不做怎么样?晚做到又怎么样?(壁垒)

  • 37:35 大模型有可能开启了「新摩尔时代」:明线是智能 capability 提升,隐线是成本下降

  • 46:16 硅谷模型公司更像 research lab,八成以上可能性会被收购

  • 49:15 学习硅谷经验,「国内公司也可以提前抱大腿」

  • 50:34 大模型时代与互联网时代的不同特征 (还没看到网络效应和数据飞轮)

  • 54:53 回头看,今年初我们低估了 GPT-4 的难度,高估了应用爆发的速度

  • 55:14 开源和闭源/大模型和小模型/通用模型和垂直模型的格局问题

  • 57:47 多模态和 Agent 的下一步?

  • 67:14 硅谷VC最大的竞争压力来自微软和 OpenAI,GitHub 前 CEO Nat Friedman 在这波AI里标的质量高,position 比很多传统硅谷VC要好

  • 71:33 对2024年的预测和猜想:应用大爆发?

  • 80:04 美国「模型即应用」,国内产品和场景定义可能做得更好

  • 86:00 说三条今年行业的最大噪音

  • 87:05 OpenAI 政变进展:Sam Altaman 像政客,Ilya Sutskever 不怎么去公司了

  • 89:09 接下来,我最想知道的4个问题

挑选出了几个「关于未来发展」的问答,并对李广密的回答进行了要点总结。再次强烈建议听播客或者阅读原文,感受爆炸的细节信息量,跟着分享者一起描画2024年AIGC世界的主脉络:

Q:这种 AI 巨头主导的阵营,可以分成哪几个派别?

A:最领先的是微软和 OpenAI,其次是亚马逊和 Google 支持的 Anthropic,第三个是 Google 自成一派;Apple 和 Tesla 是潜在的关键变量。Meta 推出的 Llama 对整个开源的贡献非常大,开源模型有可能未来就等于Meta
Q:如果我们把复现 GPT-3.5 或者复现 GPT-4 作为进入半决赛和决赛的关键门槛,现在入围了半决赛和决赛的人有谁?

A:目前 OpenAI、Anthropic、Google已经入围;Elon Musk 的 X.aiCharacter.AI 以及 字节跳动 也有机会;复刻 GPT-4 的难度比预期大得多,Google 用了一年时间才勉强接近
Q:这些成功复刻 GPT-4 的选手是怎么做到的?其中的关键变量是什么?

A:成功复刻 GPT-4 的关键变量包括人才壁垒和数据全球真正能对 GPT-4 > 有实际贡献的天才研究员可能只有两三百人,而且几乎都在头部的三家模型公司;数据,尤其是预训练和后训练阶段的数据,也是一个短期壁垒
Q:现在 GPT-4的训练成本是多少?下一代模型的训练成本会是多少?

A:GPT-4 训练成本接近 8000万美元;下一代模型的训练成本可能会更高,因为模型参数量扩大和多模态模型的需求,所需的GPU资源可能是之前的 10-20 倍以上
Q:复刻 GPT-4 是一条正确的路吗?如果达到了 GPT-4 的水平,但依然没有与之能相匹配的商业模式怎么办?

A:复刻 GPT-4 是一个里程碑,但不是终极目标。如果做不到 GPT-4 的水平,那么后续模型的发展会更加困难。至于商业模式,硅谷的大模型公司更像是研究实验室,除了 ChatGPT 之外,其他公司的商业模式还不清楚
Q:早一点或晚一点追齐 GPT-4 的区别是什么?最终模型公司形成的壁垒是什么呢?

A:早一点追齐 GPT-4 意味着可以更早地进入下一代模型的开发,并且有助于吸引人才和资金。如果大部分人都能达到GPT-4,那么门槛确实可能没有想象中那么高。模型公司的壁垒可能包括先发效应、规模效应以及持续的研发投入
Q:开源会不会冲击到闭源模型的生态?最终开源和闭源之间能达到什么样的格局状态?

A:开源模型不太可能赶上闭源模型,但开源模型的价值在于民主化和满足不同层次的需求。长期格局可能是大模型公司向下覆盖市场,或者因为需求分层而产品也分层
Q:你觉得硅谷这一波大模型的格局阵营会在什么时候稳定下来?

A:2024年可能会基本决定大模型的格局,如果在未来12个月内无法追赶上来,那么格局就很难改变了
Q:你觉得往未来看的话,发展应该关注的有哪些核心的要素?

A:第一条主线就是智能能力的进化,主要关注推理能力。另外一条主线是模型的成本,成本会是模型公司非常重要的隐形竞争力。这两条主线就会决定 AI-native 应用大爆发的幅度
Q:多模态和 Agent 会怎么进一步发展?

A:多模态将成为大模型公司的重点:Google Gemini已经展示了多模态理解能力,其他公司如 OpenAI、Anthropic 和 Character.AI 也将跟进。多模态发展的长期目标是实现输入和输出的多模态统一,以及更智能的内容生成。Agent的发展依赖于底层模型的推理能力提升,特别是多步推理的准确性和速度
Q:站在你的角度会对 2024 年、 2025 年的大模型战局做哪些预测?

A:应用大爆发可能需要模型再迭代1-2代,明年底有一定的可能性;但是应用方向很难预测,很有可能技术升级刺激了新的需求;另外就是数据中心的用电将大幅提升,能源竞争可能成为关键
Q:垂直模型的空间有多大?

A:可能不存在垂直模型 ,因为一个领域可能没有足够的训练 token 量来支持训练一个垂直模型;未来可能是通用模型,然后渗透到各行各业 ⋙ 本次对谈的文字版

👀 2024 国内 AI+2C 应用「及格线」 | 6个适合创业方向解析

补充一份背景:看多了乐观的畅想,再来看点「缺乏想象力的」最低期望

这篇是系列文章的概述篇,整体阐述了作者对2024年发展的整体判断,以及在6个2C创业方向上的「猜想」。作者文章的信息密度一如既往的高,可以期待本系列的后续详述文章。

⭐⭐⭐ 整体而言,不认为2024年国内会有颠覆性的生态变化或者所谓「杀手级」的应用为人所知。直接2C的适宜创业领域仍将是容错率较高的场景。

01 AI陪伴和虚拟社交

  • 继续是2024年最受关注的领域之一,特别是那些针对特定用户群体的产品,国内发展速度比海外略慢一步

  • 通用虚拟角色平台和已有高频用户的产品,将面临维持流量的挑战;需要通过更丰富的多模态交互、与硬件的高度结合、吸引自带IP的高质量PGC合作方入驻等方式来提高竞争力

02 AI+游戏

  • 游戏本质上也是一种陪伴产品,虚拟陪伴和游戏的界限在2024年变得更加模糊

  • 大公司积极利用AI作为生产工具,但不会将其直接融入游戏玩法破坏玩家体验;新创业团队可能会专注于轻度游戏,但面临盈利挑战和版号限制

03 AI+内容创造 (非游戏类)

  • 独立剧情化内容创作者将开始批量化涌现,与工具紧密结合的新兴内容发布平台可能会孕育下一个大厂

  • 视频形式 (如鬼畜、整活、拼接、换脸等)将提供机会,但剧情视频可能还无法实现

04 AI+教育

  • 将有大量面向学生的产品推出,试图证明AI技术可以实现个性化学习或提升学习动力,但效果可能不会显著优于现有教育APP

  • 现有教育硬件的厂商可能会获得优势,因为家长无需为新产品单独付费

  • 另一批产品可能会在学龄前、高等教育、职业教育、素质教育等人群中寻找机会,这些市场对AI噱头的容忍度更高,产品经理有很大的发挥空间

05 AI+个人生产力工具

  • 提高个人生产力的工具创业团队,将面临大厂和大模型的强大竞争压力,可能会有大量炮灰出现

  • 早期团队可能会持续进入这些领域,希望在聚拢用户后成功转型成天花板更高的产品;尽管如此,2024年可能不会有足够规模的并购案发生

06 AI+个人生活助理

👀 一文读懂GPU的过去、现在和未来

补充一份背景:GPU 是 AGI 时代的生产资料,当前阶段谁拥有更多「卡」谁就更有可能获得领先,以致先一步迈进 AGI 时代

这是一篇非常棒的科普文!作者清晰地讲解了「什么是GPU」,并围绕其关键技术和热点话题进行了解释。非常不错~ 以下是文章内容要点,如果有你感兴趣的话题,推荐前往原文对应位置直接查看:

00 前言:算力与GPU

01过去篇

  1. 为什么需要 GPU

  2. GPU 的起源

  3. GPU 的世界就是「两位华人之间的战争」

02现在篇

  1. 先进的微架构设计

  2. AI计算中的浮点数

  3. CUDA Core 和 Tensor Core

  4. 英伟达最近两代架构的特性

  5. 关于 FP8 量化带来了很好的效果

  6. 说说稀疏化加速 (HyperAttention)

  7. 说说投机采样

  8. 关于多卡互联的评测数据

03未来篇:趋势思考

  1. 说说 H100 比 A100 强在哪儿

  2. CPU 和 GPU 的二合一可能也是新的方向

  3. 还有一种 GPU 的变种==> IPU

  4. 「卡脖子」问题 ⋙ 推荐阅读原文

🉑 O'Reilly 2024新书预览 | 大语言模型实战:语言理解和生成

ShowMeAI 知识星球资源编码:R214
补充一份背景:这本书是 O'Reilly 的 Early Release 版本,就是还没初版但可以在网站提前阅读;O'Reilly 是一家非常顶级的出版社,在数据科学和人工智能领域的可谓鼎鼎大名,有「O'Reilly出品,必属精品」的说法~

这本书「Hands-On Large Language Models: Language Understanding and Generation」是大语言模型领域非常专业的新书,目前更新了5章。书籍大纲如下,你可以前往👇 上方网站登录后免费阅读 (注意有10天的免费期限)。

www.oreilly.com/library/vie...

🔔 1. 文本分类

监督文本分类

  • 模型选择

  • 数据

  • 分类头

  • 预训练嵌入

零样本分类

  • 预训练嵌入

  • 自然语言推理

生成模型的分类

  • 上下文学习

  • 命名实体识别

总结

🔔 2. 语义搜索

基于语言模型的搜索系统的三大类别

密集检索

  • 密集检索示例

  • 分块长文本

  • 最近邻搜索与向量数据库

  • 为密集检索微调嵌入模型

重排序

  • 重排序示例

  • 使用句子转换器的开源检索和重排序

  • 重排序模型的工作原理

生成搜索

  • 生成搜索是什么?

搜索中的其他大型语言模型应用

  • 评估指标

总结

🔔 3. 文本聚类与主题建模

文本聚类

  • 数据

  • 我们如何执行文本聚类?

主题建模

  • BERTopic

  • 示例

  • 表示模型

  • 文本生成

  • 主题建模变体

总结

🔔 4. 多模态大型语言模型

视觉转换器

多模态嵌入模型

  • CLIP:连接文本和图像

使文本生成模型多模态

  • BLIP-2:弥合模态差距

  • 预处理多模态输入

  • 用例1:图像标题

  • 用例2:多模态基于聊天的提示

总结

🔔 5. 标记与标记嵌入

大型语言模型的标记化

  • 分词器如何为语言模型准备输入

  • 词级 vs. 子词级 vs. 字符级 vs. 字节级标记

  • 比较训练过的LLM分词器

  • 分词器属性

  • 语言模型持有其分词器词汇表的嵌入

  • 使用语言模型创建上下文化词嵌入

词嵌入

  • 使用预训练词嵌入

  • Word2vec算法和对比训练

推荐系统的嵌入

  • 通过嵌入推荐歌曲

总结

🉑 LLM Roadmap | GitHub 狂飙 5.3K Star 的大语言模型学习路线图

github.com/mlabonne/ll...

这是一份非常完备的大语言模型学习路线图。不仅规划了学习路径,还列出了知识要点和学习资料,难怪 GitHub 已经 5.3K Star!确认过了,是非常不错的学习资料!!

路线图共分为「LLM Fundamentals」「The LLM Scientist」「The LLM Engineer」三部分,其中前两部分的内容规划和学习资料已经整理完成,第三部分「The LLM Engineer」仍待作者补充中 (盼星星⭐ 盼月亮🌙

数学基础

  • 线性代数:包括向量、矩阵、行列式、特征值和特征向量、向量空间、线性变换

  • 微积分:涉及导数、积分、极限、级数,以及多变量微积分和梯度概念

  • 概率与统计:包括概率论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计、贝叶斯推断

Python与机器学习

  • Python基础:理解 Python 语法、数据类型、错误处理和面向对象编程

  • 数据科学库:熟悉 NumPy、Pandas、Matplotlib、Seaborn 等库

  • 数据预处理:包括特征缩放、处理缺失数据、异常值检测、分类数据编码、数据集划分

  • 机器学习库:熟练使用 Scikit-learn,了解线性回归、逻辑回归、决策树、随机森林、K-NN、K-means等算法

神经网络

  • 基础知识:理解神经网络的结构,如层、权重、偏置、激活函数

  • 训练与优化:熟悉反向传播和损失函数,了解梯度下降、随机梯度下降、RMSprop、Adam 等优化算法

  • 过拟合:理解过拟合概念和防止过拟合的正则化技术,如 dropout、L1/L2 正则化、早停、数据增强

自然语言处理 (NLP)

  • 文本预处理:包括分词、词干提取、词形还原、停用词移除等

  • 特征提取技术:熟悉将文本数据转换为机器学习算法可理解格式的方法,如 BoW、TF-IDF、n-grams

  • 词嵌入:理解 Word2Vec、GloVe、FastText 等词嵌入方法

  • 循环神经网络 (RNN) :了解 RNN 工作原理,特别是 LSTM 和 GRU,它们能够学习长期依赖

LLM架构

  • 输入输出理解:了解Transformer架构的输入 (tokens) 和输出 (logits)

  • 注意力机制:掌握 vanilla attention 机制,包括自注意力和缩放点积注意力

  • 文本生成:学习模型生成输出序列的不同方法,如贪婪解码、束搜索、top-k 采样和核心采样

构建指令数据集

  • Alpaca-like数据集:使用 OpenAI API (GPT) 从头开始生成合成数据

  • 高级技术:学习如何使用Evol-Instruct等技术改进现有数据集

  • 数据过滤:了解使用正则表达式、去除近重复项、关注高 token 数量答案等传统技术

  • 提示模板:了解不同的聊天模板,如 ChatML、Alpaca 等

预训练模型

  • 数据管道:了解大规模数据集的过滤、分词和词汇表的构建过程

  • 因果语言建模:区分因果和遮蔽语言建模,以及相应的损失函数

  • 扩展法则:了解模型性能与模型大小、数据集大小和训练计算量之间的关系

  • 高性能计算:了解 HPC 对于从头开始创建自己的 LLM 的重要性

有监督微调 (SFT)

  • 全微调:训练模型的所有参数

  • LoRA:基于低秩适配器的参数高效技术 (PEFT)

  • QLoRA:基于LoRA的PEFT,量化模型权重为4位

  • Axolotl:用户友好且强大的微调工具

  • DeepSpeed:用于多GPU和多节点设置的LLM的高效预训练和微调

人类反馈强化学习 (RLHF)

  • 偏好数据集:了解包含多个答案和排名的偏好数据集

  • 近端策略优化 (PPO):利用奖励模型预测文本是否被人类高度排名

  • 直接偏好优化 (DPO):将过程简化为分类问题,使用参考模型而非奖励模型

评估

  • 传统指标:理解困惑度和 BLEU 分数等指标

  • 通用基准:基于语言模型评估工具的 Open LLM Leaderboard

  • 任务特定基准:了解特定任务的基准和指标

  • 人类评估:通过用户接受率或人类比较进行评估

量化

  • 基础技术:了解不同精度水平和朴素量化方法

  • GGUF 和 llama.cpp:在消费级硬件上运行 LLM 的工具

  • GPTQ 和 EXL2:在 GPU 上运行的快速量化格式

  • AWQ:更准确的量化格式,但使用更多 VRAM

推理优化

  • Flash Attention:将注意力机制的复杂度从二次优化为线性

  • 键值缓存:了解键值缓存和 MQA、GQA 的改进

  • 推测解码:使用小模型生成草稿,然后由大模型审查

  • 位置编码:理解 Transformer 中的位置编码,特别是相对方案

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

相关推荐
管二狗赶快去工作!2 分钟前
体系结构论文(五十四):Reliability-Aware Runahead 【22‘ HPCA】
人工智能·神经网络·dnn·体系结构·实时系统
AI绘画君11 分钟前
Stable Diffusion绘画 | AI 图片智能扩充,超越PS扩图的AI扩图功能(附安装包)
人工智能·ai作画·stable diffusion·aigc·ai绘画·ai扩图
AAI机器之心13 分钟前
LLM大模型:开源RAG框架汇总
人工智能·chatgpt·开源·大模型·llm·大语言模型·rag
Evand J34 分钟前
物联网智能设备:未来生活的变革者
人工智能·物联网·智能手机·智能家居·智能手表
HyperAI超神经43 分钟前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
sp_fyf_20241 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-03
人工智能·算法·机器学习·计算机视觉·语言模型·自然语言处理
新缸中之脑1 小时前
10个令人惊叹的AI工具
人工智能
学步_技术1 小时前
自动驾驶系列—线控悬架技术:自动驾驶背后的动力学掌控者
人工智能·机器学习·自动驾驶·线控系统·悬挂系统
DogDaoDao2 小时前
【预备理论知识——2】深度学习:线性代数概述
人工智能·深度学习·线性代数
牛哥带你学代码2 小时前
交叠型双重差分法
人工智能·深度学习·机器学习