技术栈

位置掩码

nju_spy
4 小时前
人工智能·pytorch·深度学习·大模型·多头注意力·rmsnorm·位置掩码
南京大学 LLM开发基础(二)大语言模型解析 -- 基于HF LlaMA实现的讲解https://njudeepengine.github.io/llm-course-lecture/2025/lecture4.html#1
我是有底线的