NNLM神经网络语言模型总结

侃山2025-05-15 9:25

一开始还以为很复杂，总结一下就是：

NNLM 将某个单词前 n−1 个词各自转为 embedding，拼接成一个 (n−1)⋅d 维的向量，再通过隐藏层 + 输出层 + softmax，预测下一个词的概率分布

可以发现，这个2003年提出的模型在架构上和GPT大体是没区别的，都是用之前的文字预测下一个文字；都是用之前文字的embedding经过一个特殊层（前者是FFN，后者是transformer decoder）来得到一个词表向量，根据向量的分量大小选择某个单词。

后话

当然，前者的效果差多啦，也存在不能辨别n-1个token顺序等问题。但是，还是感觉挺神奇的。

上一篇：2023年12月中国电子学会青少年软件编程（Python）等级考试试卷（六级）答案 + 解析

下一篇：svn status . 命令返回分析

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE Rules 实践：为项目配置 6A 工作流