自然语言处理基础及应用场景

自然语言处理定义

让计算机理解人所说的文本 语音

Imitation Game 图灵测试 行为主义 鸭子理论

自然语言处理的基本任务

  • 词性标注:区分每个词名词、动词、形容词等词性
  • 命名实体的识别:名词的具体指代是哪一类事物
  • 共指消解:代词指代的是前面哪一个实体
  • 句法关系:主谓宾这种
  • 中文的自动分词:标注词和词间的空格

应用:

  • 搜索引擎 Search Engines and Ads
    文本匹配
    查询quary和文档document的相似度
    quary和个性化广告
    匹配质量
  • 知识图谱 knowledge graph 2012Google提出
  • 机器阅读 Machine Reading
  • 人类助手 Personal Assistant
  • 机器翻译 Machine Translation
  • 情感分类和意见挖掘 Sentiment Analysis and Opinion Mining
  • 计算社会科学 Computational Social Science

基础概念

词表示 Word Representation

复制代码
- 词相似度
- 词关系
  1. 用和词有关的一些词来表示当前词
    缺点:细微差距丢失、 新的词义缺失、 主观性问题、 数据稀疏、 大量人工
  2. One-Hot Representation
    向量维度 = 词表长度
    缺点:增加了相似词之间的距离
  3. Represent Word by Context
    利用上下文来表示这个词
  4. Co-Occurrence Counts
    包含了上下文信息,上下文出现的频度,稠密向量
    缺点:词表越大,存储需求大,频度出现少的词,上下文出现的就少,词表示会变得稀疏因而效果不好
  5. 深度学习 Word Embedding
    Word2Vec 词向量 将词汇投射到低维空间

语言模型

主要完成两个工作:

联合概率:计算一个序列的词成为一句话的概率是多少(一句话人能读懂的概率)

条件概率:根据前面的词,预测下一个词

传统语言模型的基本假设:

一个未来的词,只会受到前面的词的影响

N-gram Model

前面出现N - 1个词,第N个词的概率是多少

问题:很少考虑长前文,统计是稀疏的;还是One-Hot编码,每个词是一个符号

Neural Language Model

神经网络模型 每个词表示为一个低维的向量

大模型范式

预训练(无标注、自监督) + 微调

四大步骤

预训练->监督式微调->奖励建模->强化学习

预训练占算例99%以上

问答对1w-10w

奖励建模和强化学习,基于人类反馈的强化学习,RLHF

相关推荐
Soari2 分钟前
GitHub 开源项目解析:EveryInc/compound-engineering-plugin —— 让 AI 编程从“一次性生成”走向“持续复利工程”
人工智能·开源·github·claude code
xixixi777776 分钟前
Hugging Face 开源模型供应链安全平台、AI 数据隐私保护法草案发布:AI 安全合规进入技术 + 法律双驱动阶段
大数据·人工智能·安全·ai·开源·大模型·智能体
真实的菜7 分钟前
Deepseek V4 Flash 深度评测:参数解析与实战边界
人工智能
扫地僧9857 分钟前
基于改进版YOLOv11的海洋垃圾检测系统设计与实现
人工智能·深度学习·yolo
ZHW_AI课题组7 分钟前
基于XGBoost的鸢尾花花瓣长度回归预测
人工智能·数据挖掘·回归
moMo7 分钟前
藏好Key的小妙招,从搭建node.js+大模型项目开始
人工智能·node.js
前端摸鱼匠7 分钟前
YOLOv11 深入 Ultralytics 框架的源码目录,解析 ultralytics/cfg/models/11/ 下的模型配置文件,以及 ultralytics/nn/modules/下的模块
人工智能·yolo·目标检测·计算机视觉·目标跟踪
KaMeidebaby8 分钟前
卡梅德生物技术快报|组蛋白乙酰化修饰调控动脉粥样硬化的分子机制及中药表观干预研究
网络·人工智能·网络协议·tcp/ip·算法
SEO_juper8 分钟前
搜索进入 Agentic 智能体时代,内容要能 “被 AI 直接用”
人工智能·ai·seo·跨境电商·geo·谷歌优化·2026