大模型算法学习2026.6.1

主播是双非本211硕研0,计科本软工硕,之前了解过简单的机器学习和深度学习,目前打算冲大模型算法,同时准备agent应用开发作为planB。暂时打算是学cs224n、cs336和之前准备复试买的一个深度学习课,学完后做2个项目投小厂的算法实习,以后会不定期更新学习内容。

----------------------------------------------------------分割线--------------------------------------------------------------

Softmax函数作用:Softmax函数的核心作用是将一组任意实数转换为总和为1、取值在0到1之间的概率分布,它通过指数运算放大数值间的差距,让较大数值对应的概率更突出、较小数值对应的概率被压缩,从而清晰呈现每个类别的置信度;该函数广泛用于深度学习的分类任务,在Transformer架构(含大语言模型)中,注意力机制权重计算和模型输出层预测下一个词的概率时都依赖Softmax,是连接模型原始分数与概率决策的关键函数。

分布语义学:一个单词的含义由经常出现在它附近的单词给出。

数据用100维、300维来表示是什么意思?

用100维、300维表示数据就是把一个原本复杂的事物(比如一个词、一张图、一个人)抽象成由100个或300个数字组成的列表(数学上叫"向量"),每一个数字都代表这个事物的某个潜在特征或属性,而这些特征通常是计算机从大量数据中自动学习出来的,不是我们人为定义的。比如,假设用300维的稠密向量表示"苹果",第38维表示"水果",第102维表示"手机"。当然维度越高表达能力越强,但计算成本和数据需求也越大。

相关推荐
kisshyshy12 小时前
🍦 雪糕、食堂、火车厢:三幅漫画吃透栈、队列与链表
javascript·算法
猿人谷19 小时前
不只是 CPU 阈值:STAR 如何用 GAT + Transformer 做容器级自动扩缩容?
人工智能·算法
复杂网络21 小时前
Stable Diffusion 视觉大模型微调技术深度调研
算法
复杂网络21 小时前
基于 Stable Diffusion 架构的视觉大模型代表性工作与原理深度解析
算法
MrZhao40021 小时前
Agent Loop 如何用 Hook 扩展:权限、日志与工具拦截
算法
MrZhao40021 小时前
Agent 为什么需要 Skills:别把所有知识都塞进 system prompt
算法
aqi002 天前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
JieE2122 天前
LeetCode 101. 对称二叉树|JS 递归 + 迭代双解法,彻底搞懂镜像判断
javascript·算法
aqi003 天前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用