Happy-LLM task2 第一章 NLP 基础概念(2天)

NLP 基础概念简介

自然语言处理(Natural Language Processing,NLP)是人工智能领域的核心分支,旨在让计算机理解、处理并生成人类语言,实现人机自然交互。

一、NLP 定义与目标

NLP 融合计算机科学、语言学、心理学等多学科知识,通过算法让计算机模拟人类的语言认知过程。其核心目标是打破自然语言与机器语言的壁垒,使计算机能处理语义、语境、情感等复杂语言要素,完成从基础分词到深层语义理解的任务。

二、NLP 发展历程
  1. 早期探索(1940s-1960s)

    • 以规则驱动为主,如机器翻译依赖字典查找和词序规则,效果有限。
    • 图灵测试(1950年)和乔姆斯基生成语法理论为后续研究奠定基础。
  2. 符号主义与统计方法(1970s-1990s)

    • 研究者分为"规则派"(关注形式语言)和"统计派"(侧重概率模型)。
    • 1980年代后,统计模型逐步取代手写规则,推动NLP向数据驱动转型。
  3. 机器学习与深度学习(2000s至今)

    • 循环神经网络(RNN)、长短期记忆网络(LSTM)等深度学习模型广泛应用。
    • 2013年Word2Vec开创词向量表示时代,2018年BERT引领预训练语言模型浪潮,GPT系列等大模型进一步提升文本生成与理解能力。
三、NLP 核心任务
  1. 中文分词(CWS)

    • 将连续中文文本切分为有意义的词汇序列(如"今天天气真好"→"今天/天气/真/好"),是后续处理的基础。
  2. 子词切分

    • 将单词分解为更小单位(如"unhappiness"→"un/happi/ness"),解决罕见词处理问题,常见于BERT等模型。
  3. 词性标注(POS Tagging)

    • 为单词分配词性标签(如"她在弹吉他"中"弹"标注为动词),辅助句法分析。
  4. 文本分类

    • 将文本自动归类(如新闻分为"体育""政治"等),应用于情感分析、垃圾邮件过滤等场景。
  5. 实体识别(NER)

    • 提取文本中的命名实体(如人名、地名、组织名),如"北京是中国首都"中识别"北京""中国"。
  6. 关系抽取

    • 识别实体间语义关系(如"比尔·盖茨是微软创始人"中的"创始人"关系),用于构建知识图谱。
  7. 文本摘要

    • 生成文本的简洁概括,分为抽取式(直接选关键句)和生成式(重新组织语义)。
  8. 机器翻译

    • 将一种语言自动译为另一种语言,如"今天天气好"→"The weather is nice today"。
  9. 自动问答(QA)

    • 计算机理解问题并给出答案,涉及信息检索、推理等技术,如智能客服。
四、文本表示发展

文本表示是将自然语言转换为计算机可处理的数字形式,直接影响NLP系统性能:

  1. 词向量模型

    • 向量空间模型(VSM):用高维向量表示文本,权重由词频(TF)、逆文档频率(TF-IDF)计算,但存在数据稀疏性问题。
    • Word2Vec(2013):通过上下文学习词的密集向量表示(如"国王-男人+女人≈王后"),分为CBOW和Skip-Gram架构。
  2. 语言模型

    • N-gram:基于马尔可夫假设,用前N-1个词预测当前词概率(如bigram用前一个词预测下一个词),简单但无法捕捉长距离依赖。
  3. 预训练模型

    • ELMo(2018):首次引入预训练思想,用双向LSTM生成动态词向量,解决一词多义问题,但计算成本高。
五、总结与挑战

NLP已从规则驱动发展到深度学习主导,在机器翻译、问答系统等领域取得显著进展,但仍面临歧义处理、隐喻理解、跨文化语境等挑战。未来,更大规模的预训练模型、多模态融合及更精细的语义建模将是重要发展方向。

相关推荐
中杯可乐多加冰41 分钟前
OpenClaw到底能做什么?有什么用?先装这几个实用的Skills
人工智能
千寻girling1 小时前
一份不可多得的 《 Python 》语言教程
人工智能·后端·python
aircrushin3 小时前
从春晚看分布式实时协同算法与灵巧手工程实现
人工智能·机器人
恋猫de小郭3 小时前
Apple 的 ANE 被挖掘,AI 硬件公开,宣传的 38 TOPS 居然是"数字游戏"?
前端·人工智能·ios
银河系搭车客指南3 小时前
AI Agent 的失忆症:我是怎么给它装上"第二个大脑"的
人工智能
张拭心3 小时前
春节后,有些公司明确要求 AI 经验了
android·前端·人工智能
我的username4 小时前
极致简单的openclaw安装教程
人工智能
小锋java12344 小时前
【技术专题】嵌入模型与Chroma向量数据库 - Chroma 集合操作
人工智能
七月丶4 小时前
别再手动凑 PR 了:这个 AI Skill 会按仓库习惯自动建分支、拆提交、提 PR
人工智能·设计模式·程序员
用户5191495848454 小时前
CVE-2024-10793 WordPress插件权限提升漏洞利用演示
人工智能·aigc