极智一周 | MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on

欢迎关注我的公众号 [极智视界],获取我的更多技术分享

大家好,我是极智视界,带来本周的 [极智一周],关键词:MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on。

邀您加入我的知识星球「极智视界」,星球目前促销优惠 内有超多好玩的项目实战源码和资源下载,链接:t.zsxq.com/0aiNxERDq

极智视界本周热点文章回顾

(1) MoE专家混合架构正成为主流

首先需要明确的是 MoE 肯定不是非常新的架构,因为早在 2017 年,谷歌就已经引入了 MoE。而最近 MoE 的火热主要源于 Mistral AI,它是由前 Google、Meta 和 OpenAI 的研究人员创立的一家新科大模型公司,被称为 "欧洲 OpenAI",而首个开源的 MoE 多专家混合模型 Mixtral 8x7B 就来自于 Mistral AI。大部分 MoE 的工作都是出自 Google 之手,但让 Google 尴尬的是这个技术由 OpenAI GPT 发扬光大。而其实你也可以看到,最近 Google 的号称 "最强大模型" 的 Gemini,也是一种 "分布式模型架构",大抵也是一种 MoE 的变体。这么看来,Transformer + FlashAttention (可参考我的上篇解读) + MoE 似乎已经成为目前大模型主流架构的标配了。那么,你还不赶紧学起来。

(2) 一图看懂大模型优化技术FlashAttention

所谓一图胜千言 ,一张好的图对于一个工作的表达很重要,通常能够让人更能直观理解这个工作在做什么。这里基于一张图,来解读大模型优化技术之 FlashAttention。先用一句话来总结 FlashAttention 的优化之道:算子融合,矩阵分块分而治之。具体可见分析。

(3) PTQ 后量化系列

之前陆续输出过一些 PTQ 后量化算法的讲解分享,会涉及十余篇,这里进行一个系列汇总,方便系统地展现给同样对模型小型化感兴趣的朋友。

(4) MI300 禁令

说到美国的两轮芯片禁令,很自然就会想到英伟达 A100、H100、璧仞、寒武纪等,但是好像都不太容易联系到 AMD。我们在上次的解读中得出了一个结论:MI300X 相比于英伟达最强芯 H100,不管是显存还是算力,都是呈碾压之势的 ,这个话题的具体分析可以参考我的这篇解读《极智芯 | MI300X呈碾压之势 修正解读AMD MI300X vs NVIDIA H100 关于稀疏算力的解释》。按这样的结论,AMD MI300X 应是妥妥的禁令之中。因为禁令禁的并不是具体什么什么卡,不是说具体指明了就是要禁你 A100,还是要禁你 H100,而是提供了两个指标范围,在这个范围内的就要禁。对于具体的禁令指标解读可以参考我的这篇汇总篇《极智芯 | 解读美国芯片禁令及英伟达特供芯片系列》或者直接这篇《极智AI | 老美升级芯片禁令限制中的性能指标到底指什么》。那么到底 AMD Instinct MI300 系列,或者说 MI300X 芯片在不在芯片禁令范围之内呢。先给答案:肯定在。具体可见分析。

(5) H100 利润空间

在马克思关于 "利润" 的解读中,300% 基本就属上限。而外网路透社之前有过报道,英伟达 H100 成本约 3320 美元,售价则为 30000 美元,它的利润率甚至高达 1000%,这明显非常不符合市场规律。这里来剖析一下 H100 的成本,到底这个 "3320 美元" 的数字靠不靠谱。具体可见分析。回过头来,市场肯定是足够聪明的,既然能够维持这么久的 "供不应求",其实就是在说明大家还是认可它的 "价值",而这些 "价值" 应该就存在于那 "看不见的" 1000% 的 "利润空间" 之中。

(6) 实战戴口罩检测

带来两个实战戴口罩检测项目分享,分别是基于 OpenCV 和 Pytorch 的,也是承诺的提供 "基于 OpenCV基于 pytorch 、提供 tensorflow、基于 tensorflow、基于 paddle、基于 caffe、基于 mxnet、基于 keras 版本" 系列中的其中之二,其他版本敬请期待。项目提供完整的代码,包括推理代码、一键执行脚本、模型权重、三方依赖库、待检测的图片、检测后的效果图等。欢迎下载体验。

极智一周,祝大家周末愉快!


【公众号传送】

《极智一周 | MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on》

畅享人工智能的科技魅力,让好玩的AI项目不难玩。邀请您加入我的知识星球, 星球内我精心整备了大量好玩的AI项目,皆以工程源码形式开放使用,涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。一定会对你学习有所帮助,也一定非常好玩,并持续更新更加有趣的项目。 t.zsxq.com/0aiNxERDq

相关推荐
xindoo4 分钟前
最近AI领域爆火的 Agent Skills 是什么?
大数据·人工智能
图生生15 分钟前
跨境电商图片翻译痛点解决:AI工具实现多语言适配一键生成
人工智能·ai
码农三叔15 分钟前
(7-3)自动驾驶中的动态环境路径重规划:实战案例:探险家的行进路线
人工智能·算法·机器学习·机器人·自动驾驶
无代码专家17 分钟前
制造业ERP管理系统平台对比与适配选型解决方案
人工智能·低代码
hkNaruto17 分钟前
【AI】AI学习笔记:直接使用Python+BM25算法实现RAG的可行性以及实用价值
人工智能·笔记·学习
琛説19 分钟前
【时间序列】MSSP股票数据集(含市场情绪、上证指数等指标)
深度学习·数据分析
Niuguangshuo19 分钟前
深入浅出解析自然语言处理的核心——分词器
人工智能·自然语言处理
dazzle27 分钟前
计算机视觉处理:OpenCV车道线检测实战(二):车道线提取技术详解
人工智能·opencv·计算机视觉
赋创小助手28 分钟前
超微 SYS-E403-14B-FRN2T 深度解析:面向边缘与 IoT 场景的高扩展紧凑型服务器
运维·服务器·人工智能·科技·物联网·ai·边缘计算
棒棒的皮皮32 分钟前
【深度学习】YOLO 模型典型应用场景分析(安防 / 自动驾驶 / 工业质检 / 医疗影像 / 智慧城市)
人工智能·深度学习·yolo·计算机视觉·自动驾驶