NNLM神经网络语言模型总结

一开始还以为很复杂,总结一下就是:

NNLM 将某个单词前 n−1 个词各自转为 embedding,拼接成一个 (n−1)⋅d 维的向量,再通过隐藏层 + 输出层 + softmax,预测下一个词的概率分布

可以发现,这个2003年提出的模型在架构上和GPT大体是没区别的,都是用之前的文字预测下一个文字;都是用之前文字的embedding经过一个特殊层(前者是FFN,后者是transformer decoder)来得到一个词表向量,根据向量的分量大小选择某个单词。

后话

当然,前者的效果差多啦,也存在不能辨别n-1个token顺序等问题。但是,还是感觉挺神奇的。

相关推荐
AI题库5 分钟前
NLTK自然语言处理实战:2.4 停用词与文本清理
人工智能·自然语言处理
Coder个人博客7 分钟前
Llama.cpp Tools 实用工具深度分析
人工智能·自动驾驶·llama
Coder个人博客12 分钟前
Llama.cpp Examples 示例程序深度分析
人工智能·自动驾驶·llama
新知图书18 分钟前
FastGPT开发一个智能客服案例
人工智能·fastgpt·ai agent·智能体·大模型应用
小毅&Nora21 分钟前
【人工智能】【大模型】 从“读心术“到“智能助手“:大模型架构的演进与革命
人工智能·架构·大模型
俞凡27 分钟前
AI 智能体高可靠设计模式:预生成
人工智能
中杯可乐多加冰27 分钟前
文档解析与问答实战——三步搭建基于TextIn与Coze的智能文档Agent方案
人工智能
狂炫冰美式28 分钟前
Meta 收购 Manus:当巨头搭台时,你要做那个递钥匙的人
前端·人工智能·后端
小二·29 分钟前
AI工程化实战《八》:RAG + Agent 融合架构全解——打造能思考、会行动的企业大脑
人工智能·架构
Rabbit_QL30 分钟前
【深度学习原理】数值稳定性(一):为什么深度神经网络如此脆弱
人工智能·深度学习·dnn