人类千亿科学豪赌与参差的中美景观；超赞的LLM学习路线图；AI搜索引擎全面解析；美图AI动漫技术方案；O'Reilly LLM新书预览

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

👀 人类驶向新轨道：Adobe 放弃收购 Figma，与旧有规划割席

www.figma.com/blog/figma-...
补充一份背景：Adobe 是最大的设计软件公司，Figma 是最大的界面设计软件公司；Adobe 在2022年收购 Figma 是顺应时代潮流，在2023年底停止收购也是

2022年9月，Adobe 宣布与 Figma 达成收购意向，给出的价格是 200 亿美元；2023年12月，双方宣布停止此项收购计划，Adobe 向 Figma 支付 10 亿美元违约金。

Figma 构建了一个强大的 UX 设计工具、协作网络和开发者生态，牢牢占据着 UX 设计领域的第一把交椅。Adobe 在这个细分场景也不是对手，收购 Figma 就是借此拿下了一个对自己极其重要且冉冉上升的市场。

仅仅15个月之后，合作宣告破裂，这中间发生了什么呢？

2022年底 ChatGPT 发布，以及2023年 AIGC 给众多行业带来了颠覆性的改变和影响，包括 UX 设计领域。具体说就是：

大量发展期公司选择「拉长发展扩张期」，整个行业对UX设计的需求开始变弱

AIGC 颠覆了产品使用体验和设计理念，未来不再依靠「不断跳转页面和人机交互，在这个过程中完成任务并拿到结果」，或许可以直接通过对话和命令来完成，因此 Figma 的需求场景变得薄且弱

但这并不意味着 UX 行业或者软件行业的消亡，而是我们共同迈入了一个「图形用户界面和对话式界面混合使用 」的新时代，UX 设计将不再是一个设计师的专属岗位，而是人人都可以上手的基础技能 ⋙ 专业分析

🉑 Yahoo → Google → Perplexity，搜索引擎进入AI新时代

www.perplexity.ai
补充一份背景：Perplexity AI 由一批 OpenAI 前员工创办于2022年，核心产品是对话式AI搜索引擎 (👆 如上图和链接)，并基于 OpenAI GPT、Anthropic Claude 等大模型回答用户提问，为用户提供检索和生成结果

这是一篇关于 Perplexity 的「产品向」解读，作者 @Super黄梳理了其发展历程，以及这款产品的成功带给开发者的一些启发：

Perplexity 「成功」在于对用户需求的深刻理解和对技术趋势的敏锐把握

Perplexity 商业模式和产品策略，为我们提供了一个关于如何在AI时代创新的宝贵案例

Perplexity 挑战在于如何持续优化用户体验，同时建立起强大的品牌信任和市场地位

对于其他AI产品开发者来说，Perplexity 的发展历程是一个值得学习的蓝本，它展示了如何在竞争激烈的市场中找到自己的定位，并不断进化

中国市场也迫切需要这样以答案为导向的新型搜索引擎，创业者可以抓住时机布局，同时结合中国国情和互联网生态设计产品和商业模式

阅读完本文后，你可以对 Perplexity 有一个完整且清晰的认知 ，并对同类型产品的发展脉络和技术路径做到「心中有数」。以及，建议你也把 Perplexity 和天工纳入自己的密切关注名单 (都是技术牛逼但营销低调)：

01 Perplexity有多牛？

流量增长：在短时间内实现了显著的流量增长

创始团队：成员在 LLM 和搜索引擎领域有这丰富经验和深入见解

投资团队：包括 Jeff Dean 等知名投资者认可了它的发展潜力

02 Perplexity是什么？

答案引擎：旨在提供直接的答案，而不是传统的搜索结果列表

用户体验：通过 Generative UI，用户可以直接在搜索框中输入问题并获得结构化的答案，包括来源链接、明确答案和相关问题

功能：包括Copilot (交互式研究助手) 、Collections (收藏夹) 、Profile (个性化设置) 和Discover (热门搜索结果)

03 Perplexity的演变 (重要)

2022年8月：Perplexity公司成立，最初专注于企业市场的Text2SQL技术，获得种子轮投资

2022年9月：为了内部使用，搭建了一个Slack机器人，帮助团队撰写SQL模板

2022年10月：SlackBot开始联网搜索，并增加了摘要功能，可以回答真实问题

2022年11月：在投资人 Nat Friedman 建议下，开发了 Discord Search Bot，随后逐步增加搜索聚焦 (Search Focus) 功能和对 StackOverflow 的搜索支持

2022年12月：网页端正式上线

2023年2月：开始专注于答案引擎，逐步推出插件、回答总增加link等功能

2023年3月：推出 iOS 版本，宣布A轮融资

2023年4月：宣布引入 GPT-4 和 Wolfram

2023年5月：新增 Preplexity Copilot 功能，推出 Android 版本

2023年6月：新增 AI Profile 功能，可以根据个人的简介、习惯的语言、地址和爱好来对回答进行个性化；推出 Perplexity Pro 会员服务

2023年7月：支持用 Perplexity 代替浏览器中的默认搜索；引入 LLaMa Chat、LLaMa-13B、LLaMa-2-70B-Chat

2023年8月：支持上传最高 10MB 的文件，引入 Code LLaMA ，引入 Claude-2

2023年9月：收购AI增强的 iOS 键盘 Spellwise ，引入 Mistral-7B 模型

2023年10月：推出 pplx-api，这是 Perplexity 自研的推理堆栈，提高了生成速度

2023年11月：发布 pplx-70b-online 模型的测试对比数据，显示其在技术方面的持续进步

04 创始人Aravind对产品的思考

产品理念：Aravind 强调了用户需求的理解和技术创新的重要性，以及如何将这些理念转化为产品特性

产品迭代：遵循了快速迭代和用户反馈驱动的产品开发模式，从SQL搜索到答案引擎的转变

05 Perplexity的用户都是谁，为何用它？

用户画像：主要用户群体包括软件工程师、投资银行家、产品经理等专业人士 ，他们追求效率和专业性

使用场景：用户倾向于进行快速搜索和获取信息，尤其是在需要深入研究和实时信息的场景

06 国内竞品：天工AI搜索

天工AI搜索在功能上与 Perplexity 相似，但在微信生态内的布局不够深入，缺乏有效的用户互动和内容分发
07 两个方面理解它的下一步

技术持续进化

自建 online-LLM：已经推出了自己的两个全新 Online LLM，包括之前已经发布的 7b 和最新的70b，以减少对 OpenAI、Claude 等外部模型的依赖

构建索引库：正在构建自己的索引库，以减少对 Google、Bing 等搜索引擎API的依赖，降低成本，并提高搜索质量

优化索引排序：索引库使用复杂的排名算法，优先考虑高质量、非 SEO优化的网站，并定期对 LLM 进行微调以提高性能

API 数据收集：通过API调用收集用户使用数据，这不仅有助于改进服务质量，还可以通过客户的 API 调用来构建和完善索引库

寻找用户场景

Discover 功能：计划通过 Discover 功能帮助用户更好地发现信息，并快速传递信息给用户

Library 功能：构建AI版本的维基百科，这可能涉及到引入专业内容，并逐步培育内容生态

Copilot 功能：将 Copilot 升级为 Agent，直接帮助用户完成行为动作，减少用户的行为成本

商业模式探索：将继续探索合理的商业模式，包括基于用户 Profile 的精准广告投放和通过Agent付费带来佣金收入

08 商业模式

收入来源：目前主要依赖 toC 订阅和 toB API 调用

市场策略：通过提供 Pro 免费试用代码来吸引更多用户

09 Perplexity能否取代Google？

挑战：要取代Google还有很长的路要走

因素：Perplexity需要在用户体验、品牌建设和技术进步方面持续努力，同时寻找新的市场机会和用户场景 ⋙ 推荐阅读原文(公众号近期文章都不错)

🉑 美图AI动漫功能的落地探索

补充一份背景：美图成立于2008年，旗下美图秀秀、美颜相机、Wink (视频剪辑软件) 等产品，在全球范围内拥有超过10亿用户；作为一家把AI写进 Slogan 的科技企业，美图近几年也在加强对人工智能领域的探索

文本生成和图像生成技术日趋成熟的今天，视频生成领域仍然面临着稳定性、部署等方方面面的挑战 。这篇美图工程师「AI动漫 」的主题分享，覆盖到了视频生成领域的探索和落地的解决方案，是一篇非常优质的大厂技术分享。

原文很长，日报总结了最核心的技术部分 ，主要包括在视频内容理解、时域一致性以及长视频生成等方面的技术挑战和解决方案，感兴趣可以查看原文：

01 视频内容理解

关键帧检测：通过检测视频的关键帧，提取出反映每个片段场景的关键信息

图文内容匹配模型：对比了 CLIP 和 BLIP2 两种模型，最终选择了 BLIP2，因为它提供的文本描述更符合图片内容

人脸属性提取：为了提高文本描述的准确性，使用了人脸属性提取网络，通过多任务学习输出性别、年龄等特征

人脸特征注入：通过增加人脸特征提取和 Mapping 模块，将人脸特征映射到文本特征空间，以提高生成结果的相似度

02 时域一致性

全景映射方案：通过训练网络得到视频前背景的全景映射图，对前景或背景进行风格化

光流结合方案：引入相邻帧的光流信息，保证处理帧的全局一致性

多帧渲染方案：风格化生成第一帧，然后通过拼接前一帧的结果和局部重绘方式得到

帧间注意力机制：提出了 CFA (Cross Frame Attention) 模块，结合光流和 Controlnet 优化动作一致性，并引入多头注意力机制对齐帧间运动和光流信息

03 长视频生成策略

分段处理：由于显存限制，长视频生成需要分段处理。通过多个窗口对视频进行分段处理，并在重叠区域的窗口特征进行融合，使得每个窗口都能得到视频全时域上的信息

补帧算法：为了优化用户体验，采用固定抽取10帧的方案，然后通过补帧算法生成30fps的效果

视频分片处理：将视频分片并执行前处理，通过片段处理集群并行处理，最后合并风格片段并加入补帧算法得到完整的风格视频 ⋙ 完整的大厂解决方案介绍

🉑 口述全球大模型这一年：人类千亿科学豪赌与参差的中美景观

www.xiaoyuzhoufm.com/episode/659...
补充一份背景：拾象科技 CEO 李广密是一位非常优秀的投资人，也是一位优质的分享者------有着清晰的思考框架，更有密集的内幕和满满的细节~ 不愧是肉身在硅谷沉浸大半年的一线投资者 👍👍👍

这是一期信息非常密集的播客！！以下是播客时间线，非常推荐完整地听一遍，你会捕捉到李广密对中美大模型市场的深刻洞察 ，以及对未来行业布局、发展方向、发展节奏、关键要素等等核心话题的大胆预判。

02:03 过去一年，大模型的核心secret藏在这三家公司：OpenAI、Anthropic、Google

04:22 回顾全球大模型这一年，我脑海里闪现的关键产品与瞬间

07:56 从OpenAI分裂出去的Anthropic，它的前世今生

10:26 硅谷大模型的融资是巨头在定价和主导了，硅谷VC几乎全体错过

12:13 卷了这一年，全球大模型到底卷出了什么？

14:03 如果复刻 GPT-4 是进入决赛圈，目前的3名入围选手和3名高潜黑马

15:20 提升模型 capability 的北极星指标与关键变量？

16:51 这次是极少数科学家推动的「登月时刻」，天才科学家的聚集效应与分布图

23:05 模型竞赛很残酷，我们对于终局的推演、猜想

23:53 中国模型公司现状：技术辨识度/资源集中度/领军人物

25:53 人类烧尽千亿美金做一场AI实验，赌的是什么？AI能推动未来15年全球 GDP 翻倍？

26:26 硅谷巨头和它们分裂的大模型阵营：微软和它支持的 OpenAI/Google、Amazon 和它们支持的 Anthropic / Google 自成一派 / Tesla 和它支持的 X.AI / Apple ------明年 Apple 支持谁值得关注

30:29 2024年会决定大模型格局，窗⼝可能就在未来12个月

33:39 大模型公司一定要追求 GPT-4 吗？不做怎么样？晚做到又怎么样？(壁垒)

37:35 大模型有可能开启了「新摩尔时代」：明线是智能 capability 提升，隐线是成本下降

46:16 硅谷模型公司更像 research lab，八成以上可能性会被收购

49:15 学习硅谷经验，「国内公司也可以提前抱大腿」

50:34 大模型时代与互联网时代的不同特征 (还没看到网络效应和数据飞轮)

54:53 回头看，今年初我们低估了 GPT-4 的难度，高估了应用爆发的速度

55:14 开源和闭源/大模型和小模型/通用模型和垂直模型的格局问题

57:47 多模态和 Agent 的下一步？

67:14 硅谷VC最大的竞争压力来自微软和 OpenAI，GitHub 前 CEO Nat Friedman 在这波AI里标的质量高，position 比很多传统硅谷VC要好

71:33 对2024年的预测和猜想：应用大爆发？

80:04 美国「模型即应用」，国内产品和场景定义可能做得更好

86:00 说三条今年行业的最大噪音

87:05 OpenAI 政变进展：Sam Altaman 像政客，Ilya Sutskever 不怎么去公司了

89:09 接下来，我最想知道的4个问题

挑选出了几个「关于未来发展」的问答，并对李广密的回答进行了要点总结。再次强烈建议听播客或者阅读原文，感受爆炸的细节信息量，跟着分享者一起描画2024年AIGC世界的主脉络：

Q：这种 AI 巨头主导的阵营，可以分成哪几个派别？

A：最领先的是微软和 OpenAI，其次是亚马逊和 Google 支持的 Anthropic，第三个是 Google 自成一派；Apple 和 Tesla 是潜在的关键变量。Meta 推出的 Llama 对整个开源的贡献非常大，开源模型有可能未来就等于Meta
Q：如果我们把复现 GPT-3.5 或者复现 GPT-4 作为进入半决赛和决赛的关键门槛，现在入围了半决赛和决赛的人有谁？

A：目前 OpenAI、Anthropic、Google已经入围；Elon Musk 的 X.ai、Character.AI 以及字节跳动也有机会；复刻 GPT-4 的难度比预期大得多，Google 用了一年时间才勉强接近
Q：这些成功复刻 GPT-4 的选手是怎么做到的？其中的关键变量是什么？

A：成功复刻 GPT-4 的关键变量包括人才壁垒和数据 ；全球真正能对 GPT-4 > 有实际贡献的天才研究员可能只有两三百人，而且几乎都在头部的三家模型公司；数据，尤其是预训练和后训练阶段的数据，也是一个短期壁垒
Q：现在 GPT-4的训练成本是多少？下一代模型的训练成本会是多少？

A：GPT-4 训练成本接近 8000万美元；下一代模型的训练成本可能会更高，因为模型参数量扩大和多模态模型的需求，所需的GPU资源可能是之前的 10-20 倍以上
Q：复刻 GPT-4 是一条正确的路吗？如果达到了 GPT-4 的水平，但依然没有与之能相匹配的商业模式怎么办？

A：复刻 GPT-4 是一个里程碑，但不是终极目标。如果做不到 GPT-4 的水平，那么后续模型的发展会更加困难。至于商业模式，硅谷的大模型公司更像是研究实验室，除了 ChatGPT 之外，其他公司的商业模式还不清楚
Q：早一点或晚一点追齐 GPT-4 的区别是什么？最终模型公司形成的壁垒是什么呢？

A：早一点追齐 GPT-4 意味着可以更早地进入下一代模型的开发，并且有助于吸引人才和资金。如果大部分人都能达到GPT-4，那么门槛确实可能没有想象中那么高。模型公司的壁垒可能包括先发效应、规模效应以及持续的研发投入
Q：开源会不会冲击到闭源模型的生态？最终开源和闭源之间能达到什么样的格局状态？

A：开源模型不太可能赶上闭源模型，但开源模型的价值在于民主化和满足不同层次的需求。长期格局可能是大模型公司向下覆盖市场，或者因为需求分层而产品也分层
Q：你觉得硅谷这一波大模型的格局阵营会在什么时候稳定下来？

A：2024年可能会基本决定大模型的格局，如果在未来12个月内无法追赶上来，那么格局就很难改变了
Q：你觉得往未来看的话，发展应该关注的有哪些核心的要素？

A：第一条主线就是智能能力的进化，主要关注推理能力。另外一条主线是模型的成本，成本会是模型公司非常重要的隐形竞争力。这两条主线就会决定 AI-native 应用大爆发的幅度
Q：多模态和 Agent 会怎么进一步发展？

A：多模态将成为大模型公司的重点：Google Gemini已经展示了多模态理解能力，其他公司如 OpenAI、Anthropic 和 Character.AI 也将跟进。多模态发展的长期目标是实现输入和输出的多模态统一，以及更智能的内容生成。Agent的发展依赖于底层模型的推理能力提升，特别是多步推理的准确性和速度
Q：站在你的角度会对 2024 年、 2025 年的大模型战局做哪些预测？

A：应用大爆发可能需要模型再迭代1-2代，明年底有一定的可能性；但是应用方向很难预测，很有可能技术升级刺激了新的需求；另外就是数据中心的用电将大幅提升，能源竞争可能成为关键
Q：垂直模型的空间有多大？

A：可能不存在垂直模型 ，因为一个领域可能没有足够的训练 token 量来支持训练一个垂直模型；未来可能是通用模型，然后渗透到各行各业 ⋙ 本次对谈的文字版

👀 2024 国内 AI+2C 应用「及格线」 | 6个适合创业方向解析

补充一份背景：看多了乐观的畅想，再来看点「缺乏想象力的」最低期望

这篇是系列文章的概述篇，整体阐述了作者对2024年发展的整体判断，以及在6个2C创业方向上的「猜想」。作者文章的信息密度一如既往的高，可以期待本系列的后续详述文章。

⭐⭐⭐ 整体而言，不认为2024年国内会有颠覆性的生态变化或者所谓「杀手级」的应用为人所知。直接2C的适宜创业领域仍将是容错率较高的场景。

01 AI陪伴和虚拟社交

继续是2024年最受关注的领域之一，特别是那些针对特定用户群体的产品，国内发展速度比海外略慢一步

通用虚拟角色平台和已有高频用户的产品，将面临维持流量的挑战；需要通过更丰富的多模态交互、与硬件的高度结合、吸引自带IP的高质量PGC合作方入驻等方式来提高竞争力

02 AI+游戏

游戏本质上也是一种陪伴产品，虚拟陪伴和游戏的界限在2024年变得更加模糊

大公司积极利用AI作为生产工具，但不会将其直接融入游戏玩法破坏玩家体验；新创业团队可能会专注于轻度游戏，但面临盈利挑战和版号限制

03 AI+内容创造 (非游戏类)

独立剧情化内容创作者将开始批量化涌现，与工具紧密结合的新兴内容发布平台可能会孕育下一个大厂

视频形式 (如鬼畜、整活、拼接、换脸等)将提供机会，但剧情视频可能还无法实现

04 AI+教育

将有大量面向学生的产品推出，试图证明AI技术可以实现个性化学习或提升学习动力，但效果可能不会显著优于现有教育APP

现有教育硬件的厂商可能会获得优势，因为家长无需为新产品单独付费

另一批产品可能会在学龄前、高等教育、职业教育、素质教育等人群中寻找机会，这些市场对AI噱头的容忍度更高，产品经理有很大的发挥空间

05 AI+个人生产力工具

提高个人生产力的工具创业团队,将面临大厂和大模型的强大竞争压力，可能会有大量炮灰出现

早期团队可能会持续进入这些领域，希望在聚拢用户后成功转型成天花板更高的产品；尽管如此，2024年可能不会有足够规模的并购案发生

06 AI+个人生活助理

Copilot 或 Agent 进入实际应用阶段

个人生活助理，可能实现一些一些高频刚需但易出错的功能，作为现有网站和应用的一部分 (而非独立产品) ⋙ 推荐阅读原文(公众号文章都挺不错)

👀 一文读懂GPU的过去、现在和未来

补充一份背景：GPU 是 AGI 时代的生产资料，当前阶段谁拥有更多「卡」谁就更有可能获得领先，以致先一步迈进 AGI 时代

这是一篇非常棒的科普文！作者清晰地讲解了「什么是GPU」，并围绕其关键技术和热点话题进行了解释。非常不错~ 以下是文章内容要点，如果有你感兴趣的话题，推荐前往原文对应位置直接查看：

00 前言：算力与GPU

01过去篇

为什么需要 GPU

GPU 的起源

GPU 的世界就是「两位华人之间的战争」

02现在篇

先进的微架构设计

AI计算中的浮点数

CUDA Core 和 Tensor Core

英伟达最近两代架构的特性

关于 FP8 量化带来了很好的效果

说说稀疏化加速 (HyperAttention)

说说投机采样

关于多卡互联的评测数据

03未来篇：趋势思考

说说 H100 比 A100 强在哪儿

CPU 和 GPU 的二合一可能也是新的方向

还有一种 GPU 的变种==> IPU

「卡脖子」问题 ⋙ 推荐阅读原文

🉑 O'Reilly 2024新书预览 | 大语言模型实战：语言理解和生成

ShowMeAI 知识星球资源编码：R214
补充一份背景：这本书是 O'Reilly 的 Early Release 版本，就是还没初版但可以在网站提前阅读；O'Reilly 是一家非常顶级的出版社，在数据科学和人工智能领域的可谓鼎鼎大名，有「O'Reilly出品，必属精品」的说法~

这本书「Hands-On Large Language Models: Language Understanding and Generation」是大语言模型领域非常专业的新书，目前更新了5章。书籍大纲如下，你可以前往👇 上方网站登录后免费阅读 (注意有10天的免费期限)。

www.oreilly.com/library/vie...

🔔 1. 文本分类

监督文本分类

模型选择

数据

分类头

预训练嵌入

零样本分类

预训练嵌入

自然语言推理

生成模型的分类

上下文学习

命名实体识别

总结

🔔 2. 语义搜索

基于语言模型的搜索系统的三大类别

密集检索

密集检索示例

分块长文本

最近邻搜索与向量数据库

为密集检索微调嵌入模型

重排序

重排序示例

使用句子转换器的开源检索和重排序

重排序模型的工作原理

生成搜索

生成搜索是什么？

搜索中的其他大型语言模型应用

评估指标

总结

🔔 3. 文本聚类与主题建模

文本聚类

数据

我们如何执行文本聚类？

主题建模

BERTopic

示例

表示模型

文本生成

主题建模变体

总结

🔔 4. 多模态大型语言模型

视觉转换器

多模态嵌入模型

CLIP：连接文本和图像

使文本生成模型多模态

BLIP-2：弥合模态差距

预处理多模态输入

用例1：图像标题

用例2：多模态基于聊天的提示

总结

🔔 5. 标记与标记嵌入

大型语言模型的标记化

分词器如何为语言模型准备输入

词级 vs. 子词级 vs. 字符级 vs. 字节级标记

比较训练过的LLM分词器

分词器属性

语言模型持有其分词器词汇表的嵌入

使用语言模型创建上下文化词嵌入

词嵌入

使用预训练词嵌入

Word2vec算法和对比训练

推荐系统的嵌入

通过嵌入推荐歌曲

总结

🉑 LLM Roadmap | GitHub 狂飙 5.3K Star 的大语言模型学习路线图

github.com/mlabonne/ll...

这是一份非常完备的大语言模型学习路线图。不仅规划了学习路径，还列出了知识要点和学习资料，难怪 GitHub 已经 5.3K Star！确认过了，是非常不错的学习资料！！

路线图共分为「LLM Fundamentals」「The LLM Scientist」「The LLM Engineer」三部分，其中前两部分的内容规划和学习资料已经整理完成，第三部分「The LLM Engineer」仍待作者补充中 (盼星星⭐ 盼月亮🌙

数学基础

线性代数：包括向量、矩阵、行列式、特征值和特征向量、向量空间、线性变换

微积分：涉及导数、积分、极限、级数，以及多变量微积分和梯度概念

概率与统计：包括概率论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计、贝叶斯推断

Python与机器学习

Python基础：理解 Python 语法、数据类型、错误处理和面向对象编程

数据科学库：熟悉 NumPy、Pandas、Matplotlib、Seaborn 等库

数据预处理：包括特征缩放、处理缺失数据、异常值检测、分类数据编码、数据集划分

机器学习库：熟练使用 Scikit-learn，了解线性回归、逻辑回归、决策树、随机森林、K-NN、K-means等算法

神经网络

基础知识：理解神经网络的结构，如层、权重、偏置、激活函数

训练与优化：熟悉反向传播和损失函数，了解梯度下降、随机梯度下降、RMSprop、Adam 等优化算法

过拟合：理解过拟合概念和防止过拟合的正则化技术，如 dropout、L1/L2 正则化、早停、数据增强

自然语言处理 (NLP)

文本预处理：包括分词、词干提取、词形还原、停用词移除等

特征提取技术：熟悉将文本数据转换为机器学习算法可理解格式的方法，如 BoW、TF-IDF、n-grams

词嵌入：理解 Word2Vec、GloVe、FastText 等词嵌入方法

循环神经网络 (RNN) ：了解 RNN 工作原理，特别是 LSTM 和 GRU，它们能够学习长期依赖

LLM架构

输入输出理解：了解Transformer架构的输入 (tokens) 和输出 (logits)

注意力机制：掌握 vanilla attention 机制，包括自注意力和缩放点积注意力

文本生成：学习模型生成输出序列的不同方法，如贪婪解码、束搜索、top-k 采样和核心采样

构建指令数据集

Alpaca-like数据集：使用 OpenAI API (GPT) 从头开始生成合成数据

高级技术：学习如何使用Evol-Instruct等技术改进现有数据集

数据过滤：了解使用正则表达式、去除近重复项、关注高 token 数量答案等传统技术

提示模板：了解不同的聊天模板，如 ChatML、Alpaca 等

预训练模型

数据管道：了解大规模数据集的过滤、分词和词汇表的构建过程

因果语言建模：区分因果和遮蔽语言建模，以及相应的损失函数

扩展法则：了解模型性能与模型大小、数据集大小和训练计算量之间的关系

高性能计算：了解 HPC 对于从头开始创建自己的 LLM 的重要性

有监督微调 (SFT)

全微调：训练模型的所有参数

LoRA：基于低秩适配器的参数高效技术 (PEFT)

QLoRA：基于LoRA的PEFT，量化模型权重为4位

Axolotl：用户友好且强大的微调工具

DeepSpeed：用于多GPU和多节点设置的LLM的高效预训练和微调

人类反馈强化学习 (RLHF)

偏好数据集：了解包含多个答案和排名的偏好数据集

近端策略优化 (PPO)：利用奖励模型预测文本是否被人类高度排名

直接偏好优化 (DPO)：将过程简化为分类问题，使用参考模型而非奖励模型

评估

传统指标：理解困惑度和 BLEU 分数等指标

通用基准：基于语言模型评估工具的 Open LLM Leaderboard

任务特定基准：了解特定任务的基准和指标

人类评估：通过用户接受率或人类比较进行评估

量化

基础技术：了解不同精度水平和朴素量化方法

GGUF 和 llama.cpp：在消费级硬件上运行 LLM 的工具

GPTQ 和 EXL2：在 GPU 上运行的快速量化格式

AWQ：更准确的量化格式，但使用更多 VRAM

推理优化

Flash Attention：将注意力机制的复杂度从二次优化为线性

键值缓存：了解键值缓存和 MQA、GQA 的改进

推测解码：使用小模型生成草稿，然后由大模型审查

位置编码：理解 Transformer 中的位置编码，特别是相对方案

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们！

◉ 点击 👀日报&周刊合集，订阅话题 #ShowMeAI日报，一览AI领域发展前沿，抓住最新发展机会！

◉ 点击 🎡生产力工具与行业应用大全，一起在信息浪潮里扑腾起来吧！

人类千亿科学豪赌与参差的中美景观；超赞的LLM学习路线图；AI搜索引擎全面解析；美图AI动漫技术方案；O'Reilly LLM新书预览 | ShowMeAI日报