技术栈
大模型原理
AI、少年郎
21 天前
linux
·
运维
·
服务器
·
ai
·
大模型训练
·
大模型微调
·
大模型原理
MiniMind第 2 篇:破除大模型 “神秘感“, 环境搭建|Win/Linux 本地快速部署
承接上一篇内容:我们完整介绍了 MiniMind 项目核心价值、硬件成本、模型体量与全流程能力,打破了「大模型训练只能依赖超算、高额算力」的固有认知。
AI、少年郎
22 天前
人工智能
·
ai编程
·
大模型训练
·
大模型微调
·
大模型原理
MiniMind第 3 篇:底层原理|Decoder-Only 小模型核心:RMSNorm/SwiGLU/RoPE 极简吃透
承接上一篇内容:我们已经完成了 Windows / Linux 全平台环境搭建,成功跑通 MiniMind 依赖配置、CUDA 适配,现在终于可以「掀开小模型的 hood」,深入底层原理。
一夜了
2 年前
人工智能
·
深度学习
·
transformer
·
llama
·
大模型原理
·
transformer理解
·
llm深层理解
论文阅读-Transformer Layers as Painters
尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致,并且中间层有着惊人的一致性。
我是有底线的