👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!
👀 人类驶向新轨道:Adobe 放弃收购 Figma,与旧有规划割席
www.figma.com/blog/figma-...
补充一份背景:Adobe 是最大的设计软件公司,Figma 是最大的界面设计软件公司;Adobe 在2022年收购 Figma 是顺应时代潮流,在2023年底停止收购也是
2022年9月,Adobe 宣布与 Figma 达成收购意向,给出的价格是 200 亿美元;2023年12月,双方宣布停止此项收购计划,Adobe 向 Figma 支付 10 亿美元违约金。
Figma 构建了一个强大的 UX 设计工具、协作网络和开发者生态,牢牢占据着 UX 设计领域的第一把交椅。Adobe 在这个细分场景也不是对手,收购 Figma 就是借此拿下了一个对自己极其重要且冉冉上升的市场。
仅仅15个月之后,合作宣告破裂,这中间发生了什么呢?
2022年底 ChatGPT 发布,以及2023年 AIGC 给众多行业带来了颠覆性的改变和影响,包括 UX 设计领域。具体说就是:
大量发展期公司选择「拉长发展扩张期」,整个行业对UX设计的需求开始变弱
AIGC 颠覆了产品使用体验和设计理念,未来不再依靠「不断跳转页面和人机交互,在这个过程中完成任务并拿到结果」,或许可以直接通过对话和命令来完成,因此 Figma 的需求场景变得薄且弱
但这并不意味着 UX 行业或者软件行业的消亡,而是我们共同迈入了一个「图形用户界面和对话式界面混合使用 」的新时代,UX 设计将不再是一个设计师的专属岗位,而是人人都可以上手的基础技能 ⋙ 专业分析
🉑 Yahoo → Google → Perplexity,搜索引擎进入AI新时代
www.perplexity.ai
补充一份背景:Perplexity AI 由一批 OpenAI 前员工创办于2022年,核心产品是对话式AI搜索引擎 (👆 如上图和链接),并基于 OpenAI GPT、Anthropic Claude 等大模型回答用户提问,为用户提供检索和生成结果
这是一篇关于 Perplexity 的「产品向」解读,作者 @Super黄梳理了其发展历程,以及这款产品的成功带给开发者的一些启发:
Perplexity 「成功」在于对用户需求的深刻理解和对技术趋势的敏锐把握
Perplexity 商业模式和产品策略,为我们提供了一个关于如何在AI时代创新的宝贵案例
Perplexity 挑战在于如何持续优化用户体验,同时建立起强大的品牌信任和市场地位
对于其他AI产品开发者来说,Perplexity 的发展历程是一个值得学习的蓝本,它展示了如何在竞争激烈的市场中找到自己的定位,并不断进化
中国市场也迫切需要这样以答案为导向的新型搜索引擎,创业者可以抓住时机布局,同时结合中国国情和互联网生态设计产品和商业模式
阅读完本文后,你可以对 Perplexity 有一个完整且清晰的认知 ,并对同类型产品的发展脉络和技术路径做到「心中有数」。以及,建议你也把 Perplexity 和 天工 纳入自己的密切关注名单 (都是技术牛逼但营销低调):
01 Perplexity有多牛?
流量增长:在短时间内实现了显著的流量增长
创始团队:成员在 LLM 和搜索引擎领域有这丰富经验和深入见解
投资团队:包括 Jeff Dean 等知名投资者认可了它的发展潜力
02 Perplexity是什么?
答案引擎:旨在提供直接的答案,而不是传统的搜索结果列表
用户体验:通过 Generative UI,用户可以直接在搜索框中输入问题并获得结构化的答案,包括来源链接、明确答案和相关问题
功能:包括Copilot (交互式研究助手) 、Collections (收藏夹) 、Profile (个性化设置) 和Discover (热门搜索结果)
03 Perplexity的演变 (重要)
2022年8月:Perplexity公司成立,最初专注于企业市场的Text2SQL技术,获得种子轮投资
2022年9月:为了内部使用,搭建了一个Slack机器人,帮助团队撰写SQL模板
2022年10月:SlackBot开始联网搜索,并增加了摘要功能,可以回答真实问题
2022年11月:在投资人 Nat Friedman 建议下,开发了 Discord Search Bot,随后逐步增加搜索聚焦 (Search Focus) 功能和对 StackOverflow 的搜索支持
2022年12月:网页端正式上线
2023年2月:开始专注于答案引擎,逐步推出插件、回答总增加link等功能
2023年3月:推出 iOS 版本,宣布A轮融资
2023年4月:宣布引入 GPT-4 和 Wolfram
2023年5月:新增 Preplexity Copilot 功能,推出 Android 版本
2023年6月:新增 AI Profile 功能,可以根据个人的简介、习惯的语言、地址和爱好来对回答进行个性化;推出 Perplexity Pro 会员服务
2023年7月:支持用 Perplexity 代替浏览器中的默认搜索;引入 LLaMa Chat、LLaMa-13B、LLaMa-2-70B-Chat
2023年8月:支持上传最高 10MB 的文件,引入 Code LLaMA ,引入 Claude-2
2023年9月:收购AI增强的 iOS 键盘 Spellwise ,引入 Mistral-7B 模型
2023年10月:推出 pplx-api,这是 Perplexity 自研的推理堆栈,提高了生成速度
2023年11月:发布 pplx-70b-online 模型的测试对比数据,显示其在技术方面的持续进步
04 创始人Aravind对产品的思考
产品理念:Aravind 强调了用户需求的理解和技术创新的重要性,以及如何将这些理念转化为产品特性
产品迭代:遵循了快速迭代和用户反馈驱动的产品开发模式,从SQL搜索到答案引擎的转变
05 Perplexity的用户都是谁,为何用它?
用户画像:主要用户群体包括软件工程师、投资银行家、产品经理等专业人士 ,他们追求效率和专业性
使用场景:用户倾向于进行快速搜索和获取信息,尤其是在需要深入研究和实时信息的场景
06 国内竞品:天工AI搜索
- 天工AI搜索在功能上与 Perplexity 相似,但在微信生态内的布局不够深入,缺乏有效的用户互动和内容分发
07 两个方面理解它的下一步技术持续进化
自建 online-LLM:已经推出了自己的两个全新 Online LLM,包括之前已经发布的 7b 和最新的70b,以减少对 OpenAI、Claude 等外部模型的依赖
构建索引库:正在构建自己的索引库,以减少对 Google、Bing 等搜索引擎API的依赖,降低成本,并提高搜索质量
优化索引排序:索引库使用复杂的排名算法,优先考虑高质量、非 SEO优化的网站,并定期对 LLM 进行微调以提高性能
API 数据收集:通过API调用收集用户使用数据,这不仅有助于改进服务质量,还可以通过客户的 API 调用来构建和完善索引库
寻找用户场景
Discover 功能:计划通过 Discover 功能帮助用户更好地发现信息,并快速传递信息给用户
Library 功能:构建AI版本的维基百科,这可能涉及到引入专业内容,并逐步培育内容生态
Copilot 功能:将 Copilot 升级为 Agent,直接帮助用户完成行为动作,减少用户的行为成本
商业模式探索:将继续探索合理的商业模式,包括基于用户 Profile 的精准广告投放和通过Agent付费带来佣金收入
08 商业模式
收入来源:目前主要依赖 toC 订阅和 toB API 调用
市场策略:通过提供 Pro 免费试用代码来吸引更多用户
09 Perplexity能否取代Google?
挑战:要取代Google还有很长的路要走
因素:Perplexity需要在用户体验、品牌建设和技术进步方面持续努力,同时寻找新的市场机会和用户场景 ⋙ 推荐阅读原文(公众号近期文章都不错)
🉑 美图AI动漫功能的落地探索
补充一份背景:美图成立于2008年,旗下美图秀秀、美颜相机、Wink (视频剪辑软件) 等产品,在全球范围内拥有超过10亿用户;作为一家把AI写进 Slogan 的科技企业,美图近几年也在加强对人工智能领域的探索
文本生成和图像生成技术日趋成熟的今天,视频生成领域仍然面临着稳定性、部署等方方面面的挑战 。这篇美图工程师「AI动漫 」的主题分享,覆盖到了视频生成领域的探索和落地的解决方案,是一篇非常优质的大厂技术分享。
原文很长,日报总结了最核心的技术部分 ,主要包括在视频内容理解、时域一致性以及长视频生成等方面的技术挑战和解决方案,感兴趣可以查看原文:
01 视频内容理解
关键帧检测:通过检测视频的关键帧,提取出反映每个片段场景的关键信息
图文内容匹配模型:对比了 CLIP 和 BLIP2 两种模型,最终选择了 BLIP2,因为它提供的文本描述更符合图片内容
人脸属性提取:为了提高文本描述的准确性,使用了人脸属性提取网络,通过多任务学习输出性别、年龄等特征
人脸特征注入:通过增加人脸特征提取和 Mapping 模块,将人脸特征映射到文本特征空间,以提高生成结果的相似度
02 时域一致性
全景映射方案:通过训练网络得到视频前背景的全景映射图,对前景或背景进行风格化
光流结合方案:引入相邻帧的光流信息,保证处理帧的全局一致性
多帧渲染方案:风格化生成第一帧,然后通过拼接前一帧的结果和局部重绘方式得到
帧间注意力机制:提出了 CFA (Cross Frame Attention) 模块,结合光流和 Controlnet 优化动作一致性,并引入多头注意力机制对齐帧间运动和光流信息
03 长视频生成策略
分段处理:由于显存限制,长视频生成需要分段处理。通过多个窗口对视频进行分段处理,并在重叠区域的窗口特征进行融合,使得每个窗口都能得到视频全时域上的信息
补帧算法:为了优化用户体验,采用固定抽取10帧的方案,然后通过补帧算法生成30fps的效果
视频分片处理:将视频分片并执行前处理,通过片段处理集群并行处理,最后合并风格片段并加入补帧算法得到完整的风格视频 ⋙ 完整的大厂解决方案介绍
🉑 口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观
www.xiaoyuzhoufm.com/episode/659...
补充一份背景:拾象科技 CEO 李广密是一位非常优秀的投资人,也是一位优质的分享者------有着清晰的思考框架,更有密集的内幕和满满的细节~ 不愧是肉身在硅谷沉浸大半年的一线投资者 👍👍👍
这是一期信息非常密集的播客!!以下是播客时间线,非常推荐完整地听一遍,你会捕捉到李广密对中美大模型市场的深刻洞察 ,以及对未来行业布局、发展方向、发展节奏、关键要素等等核心话题的大胆预判。
02:03 过去一年,大模型的核心secret藏在这三家公司:OpenAI、Anthropic、Google
04:22 回顾全球大模型这一年,我脑海里闪现的关键产品与瞬间
07:56 从OpenAI分裂出去的Anthropic,它的前世今生
10:26 硅谷大模型的融资是巨头在定价和主导了,硅谷VC几乎全体错过
12:13 卷了这一年,全球大模型到底卷出了什么?
14:03 如果复刻 GPT-4 是进入决赛圈,目前的3名入围选手和3名高潜黑马
15:20 提升模型 capability 的北极星指标与关键变量?
16:51 这次是极少数科学家推动的「登月时刻」,天才科学家的聚集效应与分布图
23:05 模型竞赛很残酷,我们对于终局的推演、猜想
23:53 中国模型公司现状:技术辨识度/资源集中度/领军人物
25:53 人类烧尽千亿美金做一场AI实验,赌的是什么?AI能推动未来15年全球 GDP 翻倍?
26:26 硅谷巨头和它们分裂的大模型阵营:微软和它支持的 OpenAI/Google、Amazon 和它们支持的 Anthropic / Google 自成一派 / Tesla 和它支持的 X.AI / Apple ------明年 Apple 支持谁值得关注
30:29 2024年会决定大模型格局,窗⼝可能就在未来12个月
33:39 大模型公司一定要追求 GPT-4 吗?不做怎么样?晚做到又怎么样?(壁垒)
37:35 大模型有可能开启了「新摩尔时代」:明线是智能 capability 提升,隐线是成本下降
46:16 硅谷模型公司更像 research lab,八成以上可能性会被收购
49:15 学习硅谷经验,「国内公司也可以提前抱大腿」
50:34 大模型时代与互联网时代的不同特征 (还没看到网络效应和数据飞轮)
54:53 回头看,今年初我们低估了 GPT-4 的难度,高估了应用爆发的速度
55:14 开源和闭源/大模型和小模型/通用模型和垂直模型的格局问题
57:47 多模态和 Agent 的下一步?
67:14 硅谷VC最大的竞争压力来自微软和 OpenAI,GitHub 前 CEO Nat Friedman 在这波AI里标的质量高,position 比很多传统硅谷VC要好
71:33 对2024年的预测和猜想:应用大爆发?
80:04 美国「模型即应用」,国内产品和场景定义可能做得更好
86:00 说三条今年行业的最大噪音
87:05 OpenAI 政变进展:Sam Altaman 像政客,Ilya Sutskever 不怎么去公司了
89:09 接下来,我最想知道的4个问题
挑选出了几个「关于未来发展」的问答,并对李广密的回答进行了要点总结。再次强烈建议听播客或者阅读原文,感受爆炸的细节信息量,跟着分享者一起描画2024年AIGC世界的主脉络:
Q:这种 AI 巨头主导的阵营,可以分成哪几个派别?
A:最领先的是微软和 OpenAI,其次是亚马逊和 Google 支持的 Anthropic,第三个是 Google 自成一派;Apple 和 Tesla 是潜在的关键变量。Meta 推出的 Llama 对整个开源的贡献非常大,开源模型有可能未来就等于Meta
Q:如果我们把复现 GPT-3.5 或者复现 GPT-4 作为进入半决赛和决赛的关键门槛,现在入围了半决赛和决赛的人有谁?A:目前 OpenAI、Anthropic、Google已经入围;Elon Musk 的 X.ai、Character.AI 以及 字节跳动 也有机会;复刻 GPT-4 的难度比预期大得多,Google 用了一年时间才勉强接近
Q:这些成功复刻 GPT-4 的选手是怎么做到的?其中的关键变量是什么?A:成功复刻 GPT-4 的关键变量包括人才壁垒和数据 ;全球真正能对 GPT-4 > 有实际贡献的天才研究员可能只有两三百人,而且几乎都在头部的三家模型公司;数据,尤其是预训练和后训练阶段的数据,也是一个短期壁垒
Q:现在 GPT-4的训练成本是多少?下一代模型的训练成本会是多少?A:GPT-4 训练成本接近 8000万美元;下一代模型的训练成本可能会更高,因为模型参数量扩大和多模态模型的需求,所需的GPU资源可能是之前的 10-20 倍以上
Q:复刻 GPT-4 是一条正确的路吗?如果达到了 GPT-4 的水平,但依然没有与之能相匹配的商业模式怎么办?A:复刻 GPT-4 是一个里程碑,但不是终极目标。如果做不到 GPT-4 的水平,那么后续模型的发展会更加困难。至于商业模式,硅谷的大模型公司更像是研究实验室,除了 ChatGPT 之外,其他公司的商业模式还不清楚
Q:早一点或晚一点追齐 GPT-4 的区别是什么?最终模型公司形成的壁垒是什么呢?A:早一点追齐 GPT-4 意味着可以更早地进入下一代模型的开发,并且有助于吸引人才和资金。如果大部分人都能达到GPT-4,那么门槛确实可能没有想象中那么高。模型公司的壁垒可能包括先发效应、规模效应以及持续的研发投入
Q:开源会不会冲击到闭源模型的生态?最终开源和闭源之间能达到什么样的格局状态?A:开源模型不太可能赶上闭源模型,但开源模型的价值在于民主化和满足不同层次的需求。长期格局可能是大模型公司向下覆盖市场,或者因为需求分层而产品也分层
Q:你觉得硅谷这一波大模型的格局阵营会在什么时候稳定下来?A:2024年可能会基本决定大模型的格局,如果在未来12个月内无法追赶上来,那么格局就很难改变了
Q:你觉得往未来看的话,发展应该关注的有哪些核心的要素?A:第一条主线就是智能能力的进化,主要关注推理能力。另外一条主线是模型的成本,成本会是模型公司非常重要的隐形竞争力。这两条主线就会决定 AI-native 应用大爆发的幅度
Q:多模态和 Agent 会怎么进一步发展?A:多模态将成为大模型公司的重点:Google Gemini已经展示了多模态理解能力,其他公司如 OpenAI、Anthropic 和 Character.AI 也将跟进。多模态发展的长期目标是实现输入和输出的多模态统一,以及更智能的内容生成。Agent的发展依赖于底层模型的推理能力提升,特别是多步推理的准确性和速度
Q:站在你的角度会对 2024 年、 2025 年的大模型战局做哪些预测?A:应用大爆发可能需要模型再迭代1-2代,明年底有一定的可能性;但是应用方向很难预测,很有可能技术升级刺激了新的需求;另外就是数据中心的用电将大幅提升,能源竞争可能成为关键
Q:垂直模型的空间有多大?A:可能不存在垂直模型 ,因为一个领域可能没有足够的训练 token 量来支持训练一个垂直模型;未来可能是通用模型,然后渗透到各行各业 ⋙ 本次对谈的文字版
👀 2024 国内 AI+2C 应用「及格线」 | 6个适合创业方向解析
补充一份背景:看多了乐观的畅想,再来看点「缺乏想象力的」最低期望
这篇是系列文章的概述篇,整体阐述了作者对2024年发展的整体判断,以及在6个2C创业方向上的「猜想」。作者文章的信息密度一如既往的高,可以期待本系列的后续详述文章。
⭐⭐⭐ 整体而言,不认为2024年国内会有颠覆性的生态变化或者所谓「杀手级」的应用为人所知。直接2C的适宜创业领域仍将是容错率较高的场景。
01 AI陪伴和虚拟社交
继续是2024年最受关注的领域之一,特别是那些针对特定用户群体的产品,国内发展速度比海外略慢一步
通用虚拟角色平台和已有高频用户的产品,将面临维持流量的挑战;需要通过更丰富的多模态交互、与硬件的高度结合、吸引自带IP的高质量PGC合作方入驻等方式来提高竞争力
02 AI+游戏
游戏本质上也是一种陪伴产品,虚拟陪伴和游戏的界限在2024年变得更加模糊
大公司积极利用AI作为生产工具,但不会将其直接融入游戏玩法破坏玩家体验;新创业团队可能会专注于轻度游戏,但面临盈利挑战和版号限制
03 AI+内容创造 (非游戏类)
独立剧情化内容创作者将开始批量化涌现,与工具紧密结合的新兴内容发布平台可能会孕育下一个大厂
视频形式 (如鬼畜、整活、拼接、换脸等)将提供机会,但剧情视频可能还无法实现
04 AI+教育
将有大量面向学生的产品推出,试图证明AI技术可以实现个性化学习或提升学习动力,但效果可能不会显著优于现有教育APP
现有教育硬件的厂商可能会获得优势,因为家长无需为新产品单独付费
另一批产品可能会在学龄前、高等教育、职业教育、素质教育等人群中寻找机会,这些市场对AI噱头的容忍度更高,产品经理有很大的发挥空间
05 AI+个人生产力工具
提高个人生产力的工具创业团队,将面临大厂和大模型的强大竞争压力,可能会有大量炮灰出现
早期团队可能会持续进入这些领域,希望在聚拢用户后成功转型成天花板更高的产品;尽管如此,2024年可能不会有足够规模的并购案发生
06 AI+个人生活助理
Copilot 或 Agent 进入实际应用阶段
个人生活助理,可能实现一些一些高频刚需但易出错的功能,作为现有网站和应用的一部分 (而非独立产品) ⋙ 推荐阅读原文(公众号文章都挺不错)
👀 一文读懂GPU的过去、现在和未来
补充一份背景:GPU 是 AGI 时代的生产资料,当前阶段谁拥有更多「卡」谁就更有可能获得领先,以致先一步迈进 AGI 时代
这是一篇非常棒的科普文!作者清晰地讲解了「什么是GPU」,并围绕其关键技术和热点话题进行了解释。非常不错~ 以下是文章内容要点,如果有你感兴趣的话题,推荐前往原文对应位置直接查看:
00 前言:算力与GPU
01过去篇
为什么需要 GPU
GPU 的起源
GPU 的世界就是「两位华人之间的战争」
02现在篇
先进的微架构设计
AI计算中的浮点数
CUDA Core 和 Tensor Core
英伟达最近两代架构的特性
关于 FP8 量化带来了很好的效果
说说稀疏化加速 (HyperAttention)
说说投机采样
关于多卡互联的评测数据
03未来篇:趋势思考
说说 H100 比 A100 强在哪儿
CPU 和 GPU 的二合一可能也是新的方向
还有一种 GPU 的变种==> IPU
「卡脖子」问题 ⋙ 推荐阅读原文
🉑 O'Reilly 2024新书预览 | 大语言模型实战:语言理解和生成
ShowMeAI 知识星球资源编码:R214
补充一份背景:这本书是 O'Reilly 的 Early Release 版本,就是还没初版但可以在网站提前阅读;O'Reilly 是一家非常顶级的出版社,在数据科学和人工智能领域的可谓鼎鼎大名,有「O'Reilly出品,必属精品」的说法~
这本书「Hands-On Large Language Models: Language Understanding and Generation」是大语言模型领域非常专业的新书,目前更新了5章。书籍大纲如下,你可以前往👇 上方网站登录后免费阅读 (注意有10天的免费期限)。
🔔 1. 文本分类
监督文本分类
模型选择
数据
分类头
预训练嵌入
零样本分类
预训练嵌入
自然语言推理
生成模型的分类
上下文学习
命名实体识别
总结
🔔 2. 语义搜索
基于语言模型的搜索系统的三大类别
密集检索
密集检索示例
分块长文本
最近邻搜索与向量数据库
为密集检索微调嵌入模型
重排序
重排序示例
使用句子转换器的开源检索和重排序
重排序模型的工作原理
生成搜索
- 生成搜索是什么?
搜索中的其他大型语言模型应用
- 评估指标
总结
🔔 3. 文本聚类与主题建模
文本聚类
数据
我们如何执行文本聚类?
主题建模
BERTopic
示例
表示模型
文本生成
主题建模变体
总结
🔔 4. 多模态大型语言模型
视觉转换器
多模态嵌入模型
- CLIP:连接文本和图像
使文本生成模型多模态
BLIP-2:弥合模态差距
预处理多模态输入
用例1:图像标题
用例2:多模态基于聊天的提示
总结
🔔 5. 标记与标记嵌入
大型语言模型的标记化
分词器如何为语言模型准备输入
词级 vs. 子词级 vs. 字符级 vs. 字节级标记
比较训练过的LLM分词器
分词器属性
语言模型持有其分词器词汇表的嵌入
使用语言模型创建上下文化词嵌入
词嵌入
使用预训练词嵌入
Word2vec算法和对比训练
推荐系统的嵌入
- 通过嵌入推荐歌曲
总结
🉑 LLM Roadmap | GitHub 狂飙 5.3K Star 的大语言模型学习路线图
这是一份非常完备的大语言模型学习路线图。不仅规划了学习路径,还列出了知识要点和学习资料,难怪 GitHub 已经 5.3K Star!确认过了,是非常不错的学习资料!!
路线图共分为「LLM Fundamentals」「The LLM Scientist」「The LLM Engineer」三部分,其中前两部分的内容规划和学习资料已经整理完成,第三部分「The LLM Engineer」仍待作者补充中 (盼星星⭐ 盼月亮🌙
数学基础
线性代数:包括向量、矩阵、行列式、特征值和特征向量、向量空间、线性变换
微积分:涉及导数、积分、极限、级数,以及多变量微积分和梯度概念
概率与统计:包括概率论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计、贝叶斯推断
Python与机器学习
Python基础:理解 Python 语法、数据类型、错误处理和面向对象编程
数据科学库:熟悉 NumPy、Pandas、Matplotlib、Seaborn 等库
数据预处理:包括特征缩放、处理缺失数据、异常值检测、分类数据编码、数据集划分
机器学习库:熟练使用 Scikit-learn,了解线性回归、逻辑回归、决策树、随机森林、K-NN、K-means等算法
神经网络
基础知识:理解神经网络的结构,如层、权重、偏置、激活函数
训练与优化:熟悉反向传播和损失函数,了解梯度下降、随机梯度下降、RMSprop、Adam 等优化算法
过拟合:理解过拟合概念和防止过拟合的正则化技术,如 dropout、L1/L2 正则化、早停、数据增强
自然语言处理 (NLP)
文本预处理:包括分词、词干提取、词形还原、停用词移除等
特征提取技术:熟悉将文本数据转换为机器学习算法可理解格式的方法,如 BoW、TF-IDF、n-grams
词嵌入:理解 Word2Vec、GloVe、FastText 等词嵌入方法
循环神经网络 (RNN) :了解 RNN 工作原理,特别是 LSTM 和 GRU,它们能够学习长期依赖
LLM架构
输入输出理解:了解Transformer架构的输入 (tokens) 和输出 (logits)
注意力机制:掌握 vanilla attention 机制,包括自注意力和缩放点积注意力
文本生成:学习模型生成输出序列的不同方法,如贪婪解码、束搜索、top-k 采样和核心采样
构建指令数据集
Alpaca-like数据集:使用 OpenAI API (GPT) 从头开始生成合成数据
高级技术:学习如何使用Evol-Instruct等技术改进现有数据集
数据过滤:了解使用正则表达式、去除近重复项、关注高 token 数量答案等传统技术
提示模板:了解不同的聊天模板,如 ChatML、Alpaca 等
预训练模型
数据管道:了解大规模数据集的过滤、分词和词汇表的构建过程
因果语言建模:区分因果和遮蔽语言建模,以及相应的损失函数
扩展法则:了解模型性能与模型大小、数据集大小和训练计算量之间的关系
高性能计算:了解 HPC 对于从头开始创建自己的 LLM 的重要性
有监督微调 (SFT)
全微调:训练模型的所有参数
LoRA:基于低秩适配器的参数高效技术 (PEFT)
QLoRA:基于LoRA的PEFT,量化模型权重为4位
Axolotl:用户友好且强大的微调工具
DeepSpeed:用于多GPU和多节点设置的LLM的高效预训练和微调
人类反馈强化学习 (RLHF)
偏好数据集:了解包含多个答案和排名的偏好数据集
近端策略优化 (PPO):利用奖励模型预测文本是否被人类高度排名
直接偏好优化 (DPO):将过程简化为分类问题,使用参考模型而非奖励模型
评估
传统指标:理解困惑度和 BLEU 分数等指标
通用基准:基于语言模型评估工具的 Open LLM Leaderboard
任务特定基准:了解特定任务的基准和指标
人类评估:通过用户接受率或人类比较进行评估
量化
基础技术:了解不同精度水平和朴素量化方法
GGUF 和 llama.cpp:在消费级硬件上运行 LLM 的工具
GPTQ 和 EXL2:在 GPU 上运行的快速量化格式
AWQ:更准确的量化格式,但使用更多 VRAM
推理优化
Flash Attention:将注意力机制的复杂度从二次优化为线性
键值缓存:了解键值缓存和 MQA、GQA 的改进
推测解码:使用小模型生成草稿,然后由大模型审查
位置编码:理解 Transformer 中的位置编码,特别是相对方案
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!
◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!