目录
[lesson-01 NLP 概述学习笔记 & 学习心得](#lesson-01 NLP 概述学习笔记 & 学习心得)
[1. 什么是 NLP](#1. 什么是 NLP)
[2. NLP 的发展历程](#2. NLP 的发展历程)
[3. NLP 的主要任务](#3. NLP 的主要任务)
[4. NLP 目前的挑战](#4. NLP 目前的挑战)
学习笔记
1. 什么是 NLP
自然语言处理,简单说就是让计算机能看懂人类的文字、听懂人类的话,还能像人一样说话、完成语言相关任务,是人工智能的重要部分。
它主要分两大能力:一是自然语言理解 ,让计算机从文字里提取关键信息 ,比如知道用户想订明天去上海的机票;二是自然语言生成 ,让计算机把内部数据变成人话,比如天气 APP 根据数据播报天气,现在的大模型能同时做到这两件事。
计算机理解语言要分四层:先拆分词语 、标注词性 ,再分析句子语法结构 ,接着理解文字真实含义,最后结合语境看懂说话人的真实意图,一步比一步难。
2. NLP 的发展历程
NLP 发展了 70 多年,从简单到智能经历了四个阶段:
-
萌芽期:1950 年图灵提出图灵测试,1954 年出现首次机器翻译演示,当时人们低估了语言的复杂,以为很快能实用。
-
规则时代:语言学家用逻辑规则教计算机理解语言,做出了能简单对话、执行限定指令的系统,但规则列不完,处理不了意外情况。
-
统计时代:让计算机从海量数据里自己学语言规律,用数学计算判断语言合理性,Google 翻译就是代表,翻译效果比规则系统好很多。
-
深度学习时代:用神经网络技术实现大突破,先把词语变成数字向量让计算机识别,又出现注意力机制 、Transformer 架构等核心技术,诞生了 BERT、GPT-3、ChatGPT 等大模型,让 NLP 的理解和生成能力大幅提升,也让 AI 更贴近普通人的生活。
3. NLP 的主要任务
日常用到的 NLP 相关功能,其实都是不同的核心任务,比如:
-
给文本贴标签,像判断评论是好评还是差评、识别垃圾邮件(文本分类);
-
从文字里找关键信息,比如人名、地名、时间(命名实体识别 ),还能判断这些信息的关系,比如知道马云是阿里巴巴的创始人(关系抽取);
-
还有机器翻译、把长文缩成短文(文本摘要 )、解答问题(问答系统 )、AI 写文章 / 代码(文本生成 )、智能助手聊天(对话系统)等。
4. NLP 目前的挑战
现在的 NLP 虽然很厉害,但还有不少解决不了的问题,主要分两类:
-
语言本身的问题:人类语言有很多歧义,一句话能有多种理解,而且计算机缺乏人类的常识,不会深层推理,也看不懂反讽、网络梗这些需要文化背景的内容;
-
技术、数据和伦理的问题:模型会凭空编造事实(模型幻觉 ),很多小语种没有足够的训练数据,训练数据里的偏见会让模型输出不公平的内容;训练大模型需要超高的算力和成本,还特别耗能 ;模型的决策过程无法解释,在医疗、金融等领域用起来有风险,还得防止模型被用来生成不良信息。
学习心得
第一次课程学习让我对 NLP 有了基础的认识,原来平时用的语音助手、AI 写作、机器翻译这些看似神奇的功能,背后都是 NLP 在支撑,它的核心就是架起人类语言和计算机之间的桥梁。
最直观的感受是 NLP 的发展特别贴合技术进步的规律,从一开始靠专家定规则,到让计算机自己从数据里学习,再到深度学习时代的大模型爆发,每一步都在解决之前的痛点,也让计算机对语言的理解越来越接近人类。但也发现,语言本身的复杂性和人类的思维、文化背景,是 NLP 最难突破的点,计算机能学会语言的规律,却很难真正拥有人类的 "常识" 和 "共情",比如看不懂反讽、会编造事实,这些都是目前绕不开的问题。
另外也意识到,NLP 的发展不只是技术问题,还牵扯到数据、成本、伦理等方方面面。比如小语种的技术鸿沟、模型偏见带来的公平性问题、大模型的能耗和安全问题,这些都说明技术发展不能只看能力提升,还要兼顾公平、安全和可持续性。
作为小白,感觉 NLP 是一门既有趣又有深度的学科,它的发展让 AI 和人类的交互更自然,未来还有很多值得探索的地方,而基础的词法、句法分析这些知识,是理解后续更复杂技术的关键,需要慢慢打牢基础。
除此之外,我也学会了在Windows10系统上安装Anaconda 虚拟环境管理工具 并配置了国内镜像源 ,以及创建了课程所需的代码运行环境base-llm ,还有在环境中安装常用的依赖等。
参考链接:
1、https://datawhalechina.github.io/base-llm/#/chapter1/01_nlp_intro
2、https://datawhalechina.github.io/base-llm/#/chapter1/02_preparation