lesson-01 NLP 概述学习笔记 & 学习心得

它主要分两大能力：一是自然语言理解 ，让计算机从文字里提取关键信息 ，比如知道用户想订明天去上海的机票；二是自然语言生成 ，让计算机把内部数据变成人话，比如天气 APP 根据数据播报天气，现在的大模型能同时做到这两件事。

计算机理解语言要分四层：先拆分词语 、标注词性 ，再分析句子语法结构 ，接着理解文字真实含义，最后结合语境看懂说话人的真实意图，一步比一步难。

2. NLP 的发展历程

NLP 发展了 70 多年，从简单到智能经历了四个阶段：

萌芽期：1950 年图灵提出图灵测试，1954 年出现首次机器翻译演示，当时人们低估了语言的复杂，以为很快能实用。
规则时代：语言学家用逻辑规则教计算机理解语言，做出了能简单对话、执行限定指令的系统，但规则列不完，处理不了意外情况。
统计时代：让计算机从海量数据里自己学语言规律，用数学计算判断语言合理性，Google 翻译就是代表，翻译效果比规则系统好很多。
深度学习时代：用神经网络技术实现大突破，先把词语变成数字向量让计算机识别，又出现注意力机制 、Transformer 架构等核心技术，诞生了 BERT、GPT-3、ChatGPT 等大模型，让 NLP 的理解和生成能力大幅提升，也让 AI 更贴近普通人的生活。

3. NLP 的主要任务

日常用到的 NLP 相关功能，其实都是不同的核心任务，比如：

给文本贴标签，像判断评论是好评还是差评、识别垃圾邮件（文本分类）；
从文字里找关键信息，比如人名、地名、时间（命名实体识别 ），还能判断这些信息的关系，比如知道马云是阿里巴巴的创始人（关系抽取）；
还有机器翻译、把长文缩成短文（文本摘要 ）、解答问题（问答系统 ）、AI 写文章 / 代码（文本生成 ）、智能助手聊天（对话系统）等。

4. NLP 目前的挑战

现在的 NLP 虽然很厉害，但还有不少解决不了的问题，主要分两类：

语言本身的问题：人类语言有很多歧义，一句话能有多种理解，而且计算机缺乏人类的常识，不会深层推理，也看不懂反讽、网络梗这些需要文化背景的内容；
技术、数据和伦理的问题：模型会凭空编造事实（模型幻觉 ），很多小语种没有足够的训练数据，训练数据里的偏见会让模型输出不公平的内容；训练大模型需要超高的算力和成本，还特别耗能 ；模型的决策过程无法解释，在医疗、金融等领域用起来有风险，还得防止模型被用来生成不良信息。

学习心得

第一次课程学习让我对 NLP 有了基础的认识，原来平时用的语音助手、AI 写作、机器翻译这些看似神奇的功能，背后都是 NLP 在支撑，它的核心就是架起人类语言和计算机之间的桥梁。

最直观的感受是 NLP 的发展特别贴合技术进步的规律，从一开始靠专家定规则，到让计算机自己从数据里学习，再到深度学习时代的大模型爆发，每一步都在解决之前的痛点，也让计算机对语言的理解越来越接近人类。但也发现，语言本身的复杂性和人类的思维、文化背景，是 NLP 最难突破的点，计算机能学会语言的规律，却很难真正拥有人类的 "常识" 和 "共情"，比如看不懂反讽、会编造事实，这些都是目前绕不开的问题。

另外也意识到，NLP 的发展不只是技术问题，还牵扯到数据、成本、伦理等方方面面。比如小语种的技术鸿沟、模型偏见带来的公平性问题、大模型的能耗和安全问题，这些都说明技术发展不能只看能力提升，还要兼顾公平、安全和可持续性。

作为小白，感觉 NLP 是一门既有趣又有深度的学科，它的发展让 AI 和人类的交互更自然，未来还有很多值得探索的地方，而基础的词法、句法分析这些知识，是理解后续更复杂技术的关键，需要慢慢打牢基础。

除此之外，我也学会了在Windows10系统上安装Anaconda 虚拟环境管理工具 并配置了国内镜像源 ，以及创建了课程所需的代码运行环境base-llm ，还有在环境中安装常用的依赖等。

参考链接：

1、https://datawhalechina.github.io/base-llm/#/chapter1/01_nlp_intro

2、https://datawhalechina.github.io/base-llm/#/chapter1/02_preparation

lesson-01 NLP 概述学习笔记 & 学习心得

目录

学习笔记

1. 什么是 NLP

2. NLP 的发展历程

3. NLP 的主要任务

4. NLP 目前的挑战

学习心得