1 NLP导论及环境准备

1 NLP导论

在20世纪50年代至80年代初，自然语言处理主要依赖人工编写的语言规则，这些规则由语言学家和程序员手动制定。

这一阶段的代表系统有早期的机器翻译系统（如Georgetown-IBM实验）和ELIZA聊天机器人。这类系统在特定领域表现良好，但缺乏通用性，扩展性差，对语言的复杂性处理有限。

90年代，随着计算能力的提升和语料资源的积累，统计方法逐渐成为主流。通过对大量文本数据进行概率建模，系统能够"学习"语言中的模式和规律。

典型方法包括 N-gram 模型、隐马尔可夫模型（HMM）和最大熵模型。这一阶段标志着从"专家经验"向"数据驱动"方法的转变。

N-gram 模型是一种基于统计的方法，用于预测一个词在给定前几个词之后出现的可能性。它是自然语言处理中最早出现的语言建模方法之一。该模型的核心思想是一个词出现的概率，只取决于它前面 N-1 个词。

进入21世纪，NLP技术逐步引入传统机器学习方法，如逻辑回归、支持向量机（SVM）、决策树、条件随机场（CRF）等。这些方法在命名实体识别、文本分类等任务上表现出色。

在此阶段，特征工程成为关键环节，研究者需要设计大量手工特征来提升模型性能。该阶段的特点是学习算法更为复杂，模型泛化能力增强。

例如：基于词袋模型与逻辑回归的文本分类。词袋模型通过统计词频来表示文本，虽直接且简单，但它有一个明显的局限------它完全忽略了词语的顺序。

如下两条完全相反的评论：

分词后结果分别是：

很明显，这两条评论在词袋模型中的特证向量是完全相同的。为了解决这个问题，引入了 N-gram。N-gram 是将相邻的 n 个词作为一个整体来建模，这样就能保留一部分的词序信息。

自2010年代中期开始，深度学习在NLP中迅速崛起。基于神经网络的模型RNN、LSTM、GRU等，取代了传统手工特征工程，能够从海量数据中自动提取语义表示。

随后，Transformer架构的提出极大提升了语言理解与生成的能力，深度学习不仅在精度上实现突破，也推动了预训练语言模型（如GPT、BERT等）和迁移学习的发展，使NLP技术更通用、更强大。

安装pytorch
使用nvidia-smi查看CUDA版本，并根据其版本选择PyTorch版本进行安装：pip3 install torch --index-url https://download.pytorch.org/whl/cu128
安装其余依赖
其余依赖安装最新版本即可：pip install jieba gensim transformers datasets tensorboard tqdm jupyter