大模型算法学习2026.6.1

「維他檸檬茶」2026-06-02 8:27

主播是双非本211硕研0，计科本软工硕，之前了解过简单的机器学习和深度学习，目前打算冲大模型算法，同时准备agent应用开发作为planB。暂时打算是学cs224n、cs336和之前准备复试买的一个深度学习课，学完后做2个项目投小厂的算法实习，以后会不定期更新学习内容。

----------------------------------------------------------分割线--------------------------------------------------------------

Softmax函数作用：Softmax函数的核心作用是将一组任意实数转换为总和为1、取值在0到1之间的概率分布，它通过指数运算放大数值间的差距，让较大数值对应的概率更突出、较小数值对应的概率被压缩，从而清晰呈现每个类别的置信度；该函数广泛用于深度学习的分类任务，在Transformer架构（含大语言模型）中，注意力机制权重计算和模型输出层预测下一个词的概率时都依赖Softmax，是连接模型原始分数与概率决策的关键函数。

分布语义学：一个单词的含义由经常出现在它附近的单词给出。

数据用100维、300维来表示是什么意思？

用100维、300维表示数据就是把一个原本复杂的事物（比如一个词、一张图、一个人）抽象成由100个或300个数字组成的列表（数学上叫"向量"），每一个数字都代表这个事物的某个潜在特征或属性，而这些特征通常是计算机从大量数据中自动学习出来的，不是我们人为定义的。比如，假设用300维的稠密向量表示"苹果"，第38维表示"水果"，第102维表示"手机"。当然维度越高表达能力越强，但计算成本和数据需求也越大。