lesson-01 NLP 概述学习笔记 & 学习心得

目录

[lesson-01 NLP 概述学习笔记 & 学习心得](#lesson-01 NLP 概述学习笔记 & 学习心得)

学习笔记

[1. 什么是 NLP](#1. 什么是 NLP)

[2. NLP 的发展历程](#2. NLP 的发展历程)

[3. NLP 的主要任务](#3. NLP 的主要任务)

[4. NLP 目前的挑战](#4. NLP 目前的挑战)

学习心得


学习笔记

1. 什么是 NLP

自然语言处理,简单说就是让计算机能看懂人类的文字、听懂人类的话,还能像人一样说话、完成语言相关任务,是人工智能的重要部分。

它主要分两大能力:一是自然语言理解 ,让计算机从文字里提取关键信息 ,比如知道用户想订明天去上海的机票;二是自然语言生成 ,让计算机把内部数据变成人话,比如天气 APP 根据数据播报天气,现在的大模型能同时做到这两件事。

计算机理解语言要分四层:先拆分词语标注词性 ,再分析句子语法结构 ,接着理解文字真实含义,最后结合语境看懂说话人的真实意图,一步比一步难。

2. NLP 的发展历程

NLP 发展了 70 多年,从简单到智能经历了四个阶段:

  • 萌芽期:1950 年图灵提出图灵测试,1954 年出现首次机器翻译演示,当时人们低估了语言的复杂,以为很快能实用。

  • 规则时代:语言学家用逻辑规则教计算机理解语言,做出了能简单对话、执行限定指令的系统,但规则列不完,处理不了意外情况。

  • 统计时代:让计算机从海量数据里自己学语言规律,用数学计算判断语言合理性,Google 翻译就是代表,翻译效果比规则系统好很多。

  • 深度学习时代:用神经网络技术实现大突破,先把词语变成数字向量让计算机识别,又出现注意力机制 、Transformer 架构等核心技术,诞生了 BERT、GPT-3、ChatGPT 等大模型,让 NLP 的理解和生成能力大幅提升,也让 AI 更贴近普通人的生活。

3. NLP 的主要任务

日常用到的 NLP 相关功能,其实都是不同的核心任务,比如:

  • 给文本贴标签,像判断评论是好评还是差评、识别垃圾邮件(文本分类);

  • 从文字里找关键信息,比如人名、地名、时间(命名实体识别 ),还能判断这些信息的关系,比如知道马云是阿里巴巴的创始人(关系抽取);

  • 还有机器翻译、把长文缩成短文(文本摘要 )、解答问题(问答系统 )、AI 写文章 / 代码(文本生成 )、智能助手聊天(对话系统)等。

4. NLP 目前的挑战

现在的 NLP 虽然很厉害,但还有不少解决不了的问题,主要分两类:

  • 语言本身的问题:人类语言有很多歧义,一句话能有多种理解,而且计算机缺乏人类的常识,不会深层推理,也看不懂反讽、网络梗这些需要文化背景的内容;

  • 技术、数据和伦理的问题:模型会凭空编造事实(模型幻觉 ),很多小语种没有足够的训练数据,训练数据里的偏见会让模型输出不公平的内容;训练大模型需要超高的算力和成本,还特别耗能 ;模型的决策过程无法解释,在医疗、金融等领域用起来有风险,还得防止模型被用来生成不良信息

学习心得

第一次课程学习让我对 NLP 有了基础的认识,原来平时用的语音助手、AI 写作、机器翻译这些看似神奇的功能,背后都是 NLP 在支撑,它的核心就是架起人类语言和计算机之间的桥梁。

最直观的感受是 NLP 的发展特别贴合技术进步的规律,从一开始靠专家定规则,到让计算机自己从数据里学习,再到深度学习时代的大模型爆发,每一步都在解决之前的痛点,也让计算机对语言的理解越来越接近人类。但也发现,语言本身的复杂性和人类的思维、文化背景,是 NLP 最难突破的点,计算机能学会语言的规律,却很难真正拥有人类的 "常识" 和 "共情",比如看不懂反讽、会编造事实,这些都是目前绕不开的问题。

另外也意识到,NLP 的发展不只是技术问题,还牵扯到数据、成本、伦理等方方面面。比如小语种的技术鸿沟、模型偏见带来的公平性问题、大模型的能耗和安全问题,这些都说明技术发展不能只看能力提升,还要兼顾公平、安全和可持续性。

作为小白,感觉 NLP 是一门既有趣又有深度的学科,它的发展让 AI 和人类的交互更自然,未来还有很多值得探索的地方,而基础的词法、句法分析这些知识,是理解后续更复杂技术的关键,需要慢慢打牢基础。

除此之外,我也学会了在Windows10系统上安装Anaconda 虚拟环境管理工具 并配置了国内镜像源 ,以及创建了课程所需的代码运行环境base-llm ,还有在环境中安装常用的依赖等。

参考链接:

1、https://datawhalechina.github.io/base-llm/#/chapter1/01_nlp_intro

2、https://datawhalechina.github.io/base-llm/#/chapter1/02_preparation

相关推荐
龙腾AI白云2 小时前
数字孪生在航空领域的应用方法及案例
学习·django·virtualenv·pygame
赫尔·普莱蒂科萨·帕塔2 小时前
重构AI漫剧工业化
人工智能·重构·动画·agi
墨澜逸客2 小时前
现代书法学习核心:笔法、字法、章法系统全解——含基础笔画、古法九用与实战训练
学习·其他·学习方法
米小虾2 小时前
从MCP到A2A:AI Agent 互操作性协议的演进与实战
人工智能
2301_764441332 小时前
GitNexus:AI智能体代码库索引知识图谱
人工智能·数据挖掘·知识图谱
福客AI智能客服2 小时前
智能客服机器人正在改变电商服务模式
人工智能·机器人
xyzhan2 小时前
人工智能代理AI Agent如何自动化CRM、Jira、计费和Slack之间的工作流程
运维·人工智能·自动化·jira·ai agent
黑客说2 小时前
WAIC人气加冕|白日梦科技,AI重塑无限流游戏
人工智能·科技·游戏
smallyoung2 小时前
Harness Engineering:重塑Al Agent时代的软件工程
人工智能