极智一周 | MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on

欢迎关注我的公众号 [极智视界],获取我的更多技术分享

大家好,我是极智视界,带来本周的 [极智一周],关键词:MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on。

邀您加入我的知识星球「极智视界」,星球目前促销优惠 内有超多好玩的项目实战源码和资源下载,链接:t.zsxq.com/0aiNxERDq

极智视界本周热点文章回顾

(1) MoE专家混合架构正成为主流

首先需要明确的是 MoE 肯定不是非常新的架构,因为早在 2017 年,谷歌就已经引入了 MoE。而最近 MoE 的火热主要源于 Mistral AI,它是由前 Google、Meta 和 OpenAI 的研究人员创立的一家新科大模型公司,被称为 "欧洲 OpenAI",而首个开源的 MoE 多专家混合模型 Mixtral 8x7B 就来自于 Mistral AI。大部分 MoE 的工作都是出自 Google 之手,但让 Google 尴尬的是这个技术由 OpenAI GPT 发扬光大。而其实你也可以看到,最近 Google 的号称 "最强大模型" 的 Gemini,也是一种 "分布式模型架构",大抵也是一种 MoE 的变体。这么看来,Transformer + FlashAttention (可参考我的上篇解读) + MoE 似乎已经成为目前大模型主流架构的标配了。那么,你还不赶紧学起来。

(2) 一图看懂大模型优化技术FlashAttention

所谓一图胜千言 ,一张好的图对于一个工作的表达很重要,通常能够让人更能直观理解这个工作在做什么。这里基于一张图,来解读大模型优化技术之 FlashAttention。先用一句话来总结 FlashAttention 的优化之道:算子融合,矩阵分块分而治之。具体可见分析。

(3) PTQ 后量化系列

之前陆续输出过一些 PTQ 后量化算法的讲解分享,会涉及十余篇,这里进行一个系列汇总,方便系统地展现给同样对模型小型化感兴趣的朋友。

(4) MI300 禁令

说到美国的两轮芯片禁令,很自然就会想到英伟达 A100、H100、璧仞、寒武纪等,但是好像都不太容易联系到 AMD。我们在上次的解读中得出了一个结论:MI300X 相比于英伟达最强芯 H100,不管是显存还是算力,都是呈碾压之势的 ,这个话题的具体分析可以参考我的这篇解读《极智芯 | MI300X呈碾压之势 修正解读AMD MI300X vs NVIDIA H100 关于稀疏算力的解释》。按这样的结论,AMD MI300X 应是妥妥的禁令之中。因为禁令禁的并不是具体什么什么卡,不是说具体指明了就是要禁你 A100,还是要禁你 H100,而是提供了两个指标范围,在这个范围内的就要禁。对于具体的禁令指标解读可以参考我的这篇汇总篇《极智芯 | 解读美国芯片禁令及英伟达特供芯片系列》或者直接这篇《极智AI | 老美升级芯片禁令限制中的性能指标到底指什么》。那么到底 AMD Instinct MI300 系列,或者说 MI300X 芯片在不在芯片禁令范围之内呢。先给答案:肯定在。具体可见分析。

(5) H100 利润空间

在马克思关于 "利润" 的解读中,300% 基本就属上限。而外网路透社之前有过报道,英伟达 H100 成本约 3320 美元,售价则为 30000 美元,它的利润率甚至高达 1000%,这明显非常不符合市场规律。这里来剖析一下 H100 的成本,到底这个 "3320 美元" 的数字靠不靠谱。具体可见分析。回过头来,市场肯定是足够聪明的,既然能够维持这么久的 "供不应求",其实就是在说明大家还是认可它的 "价值",而这些 "价值" 应该就存在于那 "看不见的" 1000% 的 "利润空间" 之中。

(6) 实战戴口罩检测

带来两个实战戴口罩检测项目分享,分别是基于 OpenCV 和 Pytorch 的,也是承诺的提供 "基于 OpenCV基于 pytorch 、提供 tensorflow、基于 tensorflow、基于 paddle、基于 caffe、基于 mxnet、基于 keras 版本" 系列中的其中之二,其他版本敬请期待。项目提供完整的代码,包括推理代码、一键执行脚本、模型权重、三方依赖库、待检测的图片、检测后的效果图等。欢迎下载体验。

极智一周,祝大家周末愉快!


【公众号传送】

《极智一周 | MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on》

畅享人工智能的科技魅力,让好玩的AI项目不难玩。邀请您加入我的知识星球, 星球内我精心整备了大量好玩的AI项目,皆以工程源码形式开放使用,涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。一定会对你学习有所帮助,也一定非常好玩,并持续更新更加有趣的项目。 t.zsxq.com/0aiNxERDq

相关推荐
共享家95271 分钟前
Vibe Coding 与 LangChain、LangGraph 的协同进化
人工智能
dvlinker4 分钟前
2026远程桌面安全白皮书:ToDesk/TeamViewer/向日葵核心安全性与合规性横向测评
人工智能
2的n次方_5 分钟前
CANN ascend-transformer-boost 深度解析:针对大模型的高性能融合算子库与算力优化机制
人工智能·深度学习·transformer
熊猫_豆豆5 分钟前
YOLOP车道检测
人工智能·python·算法
nimadan126 分钟前
**热门短剧小说扫榜工具2025推荐,精准捕捉爆款趋势与流量
人工智能·python
qq_124987075310 分钟前
基于JavaWeb的大学生房屋租赁系统(源码+论文+部署+安装)
java·数据库·人工智能·spring boot·计算机视觉·毕业设计·计算机毕业设计
杜子不疼.10 分钟前
CANN算子基础框架库opbase的算子开发与扩展机制深度解析
人工智能
程序猿追11 分钟前
CANN ops-math仓库解读 数学算子的底层支撑与高性能实现
人工智能·架构
结局无敌12 分钟前
统一算子语言:cann/ops-nn 如何为异构AI世界建立通用“方言”
人工智能·cann
杜子不疼.19 分钟前
CANN计算机视觉算子库ops-cv的图像处理与特征提取优化实践
图像处理·人工智能·计算机视觉