主播是双非本211硕研0,计科本软工硕,之前了解过简单的机器学习和深度学习,目前打算冲大模型算法,同时准备agent应用开发作为planB。暂时打算是学cs224n、cs336和之前准备复试买的一个深度学习课,学完后做2个项目投小厂的算法实习,以后会不定期更新学习内容。
----------------------------------------------------------分割线--------------------------------------------------------------
Softmax函数作用:Softmax函数的核心作用是将一组任意实数转换为总和为1、取值在0到1之间的概率分布,它通过指数运算放大数值间的差距,让较大数值对应的概率更突出、较小数值对应的概率被压缩,从而清晰呈现每个类别的置信度;该函数广泛用于深度学习的分类任务,在Transformer架构(含大语言模型)中,注意力机制权重计算和模型输出层预测下一个词的概率时都依赖Softmax,是连接模型原始分数与概率决策的关键函数。
分布语义学:一个单词的含义由经常出现在它附近的单词给出。
数据用100维、300维来表示是什么意思?
用100维、300维表示数据就是把一个原本复杂的事物(比如一个词、一张图、一个人)抽象成由100个或300个数字组成的列表(数学上叫"向量"),每一个数字都代表这个事物的某个潜在特征或属性,而这些特征通常是计算机从大量数据中自动学习出来的,不是我们人为定义的。比如,假设用300维的稠密向量表示"苹果",第38维表示"水果",第102维表示"手机"。当然维度越高表达能力越强,但计算成本和数据需求也越大。