Happy-LLM task2 第一章 NLP 基础概念(2天)

NLP 基础概念简介

自然语言处理(Natural Language Processing,NLP)是人工智能领域的核心分支,旨在让计算机理解、处理并生成人类语言,实现人机自然交互。

一、NLP 定义与目标

NLP 融合计算机科学、语言学、心理学等多学科知识,通过算法让计算机模拟人类的语言认知过程。其核心目标是打破自然语言与机器语言的壁垒,使计算机能处理语义、语境、情感等复杂语言要素,完成从基础分词到深层语义理解的任务。

二、NLP 发展历程
  1. 早期探索(1940s-1960s)

    • 以规则驱动为主,如机器翻译依赖字典查找和词序规则,效果有限。
    • 图灵测试(1950年)和乔姆斯基生成语法理论为后续研究奠定基础。
  2. 符号主义与统计方法(1970s-1990s)

    • 研究者分为"规则派"(关注形式语言)和"统计派"(侧重概率模型)。
    • 1980年代后,统计模型逐步取代手写规则,推动NLP向数据驱动转型。
  3. 机器学习与深度学习(2000s至今)

    • 循环神经网络(RNN)、长短期记忆网络(LSTM)等深度学习模型广泛应用。
    • 2013年Word2Vec开创词向量表示时代,2018年BERT引领预训练语言模型浪潮,GPT系列等大模型进一步提升文本生成与理解能力。
三、NLP 核心任务
  1. 中文分词(CWS)

    • 将连续中文文本切分为有意义的词汇序列(如"今天天气真好"→"今天/天气/真/好"),是后续处理的基础。
  2. 子词切分

    • 将单词分解为更小单位(如"unhappiness"→"un/happi/ness"),解决罕见词处理问题,常见于BERT等模型。
  3. 词性标注(POS Tagging)

    • 为单词分配词性标签(如"她在弹吉他"中"弹"标注为动词),辅助句法分析。
  4. 文本分类

    • 将文本自动归类(如新闻分为"体育""政治"等),应用于情感分析、垃圾邮件过滤等场景。
  5. 实体识别(NER)

    • 提取文本中的命名实体(如人名、地名、组织名),如"北京是中国首都"中识别"北京""中国"。
  6. 关系抽取

    • 识别实体间语义关系(如"比尔·盖茨是微软创始人"中的"创始人"关系),用于构建知识图谱。
  7. 文本摘要

    • 生成文本的简洁概括,分为抽取式(直接选关键句)和生成式(重新组织语义)。
  8. 机器翻译

    • 将一种语言自动译为另一种语言,如"今天天气好"→"The weather is nice today"。
  9. 自动问答(QA)

    • 计算机理解问题并给出答案,涉及信息检索、推理等技术,如智能客服。
四、文本表示发展

文本表示是将自然语言转换为计算机可处理的数字形式,直接影响NLP系统性能:

  1. 词向量模型

    • 向量空间模型(VSM):用高维向量表示文本,权重由词频(TF)、逆文档频率(TF-IDF)计算,但存在数据稀疏性问题。
    • Word2Vec(2013):通过上下文学习词的密集向量表示(如"国王-男人+女人≈王后"),分为CBOW和Skip-Gram架构。
  2. 语言模型

    • N-gram:基于马尔可夫假设,用前N-1个词预测当前词概率(如bigram用前一个词预测下一个词),简单但无法捕捉长距离依赖。
  3. 预训练模型

    • ELMo(2018):首次引入预训练思想,用双向LSTM生成动态词向量,解决一词多义问题,但计算成本高。
五、总结与挑战

NLP已从规则驱动发展到深度学习主导,在机器翻译、问答系统等领域取得显著进展,但仍面临歧义处理、隐喻理解、跨文化语境等挑战。未来,更大规模的预训练模型、多模态融合及更精细的语义建模将是重要发展方向。

相关推荐
moonless022214 分钟前
🌈Transformer说人话版(二)位置编码 【持续更新ing】
人工智能·llm
小爷毛毛_卓寿杰14 分钟前
基于大模型与知识图谱的对话引导意图澄清系统技术解析
人工智能·llm
聚客AI25 分钟前
解构高效提示工程:分层模型、文本扩展引擎与可视化调试全链路指南
人工智能·llm·掘金·日新计划
摆烂工程师38 分钟前
Claude Code 落地实践的工作简易流程
人工智能·claude·敏捷开发
亚马逊云开发者40 分钟前
得心应手:探索 MCP 与数据库结合的应用场景
人工智能
大明哥_1 小时前
100 个 Coze 精品案例 - 小红书爆款图文,单篇点赞 20000+,用 Coze 智能体一键生成有声儿童绘本!
人工智能
聚客AI1 小时前
🚀拒绝试错成本!企业接入MCP协议的避坑清单
人工智能·掘金·日新计划·mcp
rocksun1 小时前
GraphRAG vs. RAG:差异详解
人工智能
一块plus1 小时前
什么是去中心化 AI?区块链驱动智能的初学者指南
人工智能·后端·算法
txwtech2 小时前
第10.4篇 使用预训练的目标检测网络
人工智能·计算机视觉·目标跟踪