词向量:从 One-Hot 到 BERT Embedding,NLP 文本表示的核心技术在自然语言处理(NLP)领域,“让计算机理解文本” 的第一步,是将人类可读的文字转化为机器可计算的数值形式 —— 这就是文本表示的核心目标。而词向量(Word Embedding)作为文本表示的基础单元,直接决定了后续 NLP 任务(如文本分类、机器翻译、情感分析)的效果上限。从早期的 One-Hot 编码到如今的预训练词向量(如 BERT Embedding),词向量技术已完成从 “离散稀疏” 到 “连续稠密” 的跨越式发展。本文将以技术演进为主线,从原理、模型、实践到进阶方向,全面解析词向量的核心技术