技术栈

flashattention

Nicolas893
6 天前
gpt·ollama部署·flashattention·部署问题·vllm部署·gpt-oss·gpt-oss-120b
【大模型实战篇】部署GPT-OSS-120B踩得坑(vllm / ollama等推理框架)之前在《gpt-oss系列模型初探》介绍了GPT-OSS的相关内容,接下来个人尝试做了部署和测试,也遇到一些坑。
仙人掌_lz
3 个月前
人工智能·python·深度学习·算法·ai·flashattention
从零开始理解FlashAttention:算法细节图解“学习不是装满一桶水,而是点燃一把火。” —— 叶芝我的博客主页: https://lizheng.blog.csdn.net
Fulin_Gao
1 年前
llama·原理·代码·rope·rmsnorm·swiglu·flashattention
【多模态大模型】LLaMA in arXiv 2023论文: LLaMA: Open and Efficient Foundation Language Models 作者: Meta AI 代码: LLaMA 特点: 该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。