NNLM神经网络语言模型总结

一开始还以为很复杂,总结一下就是:

NNLM 将某个单词前 n−1 个词各自转为 embedding,拼接成一个 (n−1)⋅d 维的向量,再通过隐藏层 + 输出层 + softmax,预测下一个词的概率分布

可以发现,这个2003年提出的模型在架构上和GPT大体是没区别的,都是用之前的文字预测下一个文字;都是用之前文字的embedding经过一个特殊层(前者是FFN,后者是transformer decoder)来得到一个词表向量,根据向量的分量大小选择某个单词。

后话

当然,前者的效果差多啦,也存在不能辨别n-1个token顺序等问题。但是,还是感觉挺神奇的。

相关推荐
人工智能训练14 小时前
Docker中容器的备份方法和步骤
linux·运维·人工智能·ubuntu·docker·容器·nvidia
高洁0114 小时前
具身智能-8家国内外典型具身智能VLA模型深度解析
深度学习·神经网络·aigc·transformer·知识图谱
渡我白衣14 小时前
深入 Linux 内核启动:从按下电源到用户登录的全景解剖
java·linux·运维·服务器·开发语言·c++·人工智能
甄心爱学习14 小时前
数据挖掘11-分类的高级方法
人工智能·算法·分类·数据挖掘
李昊哲小课14 小时前
wsl ubuntu24.04 cuda13 cudnn9 pytorch 显卡加速
人工智能·pytorch·python·cuda·cudnn
小程故事多_8015 小时前
LangChain1.0系列:中间件深度解析,让 AI智能体上下文控制不失控
人工智能·中间件·langchain
中国国际健康产业博览会15 小时前
2026第35届中国国际健康产业博览会探索健康与科技的完美结合!
大数据·人工智能
数字化脑洞实验室15 小时前
选择AI决策解决方案需要注意哪些安全和数据隐私问题?
人工智能·安全
Guheyunyi15 小时前
安全风险监测系统核心技术
运维·网络·人工智能·安全
golang学习记15 小时前
再见了,claude code
人工智能