自然语言处理基础及应用场景

自然语言处理定义

让计算机理解人所说的文本 语音

Imitation Game 图灵测试 行为主义 鸭子理论

自然语言处理的基本任务

  • 词性标注:区分每个词名词、动词、形容词等词性
  • 命名实体的识别:名词的具体指代是哪一类事物
  • 共指消解:代词指代的是前面哪一个实体
  • 句法关系:主谓宾这种
  • 中文的自动分词:标注词和词间的空格

应用:

  • 搜索引擎 Search Engines and Ads
    文本匹配
    查询quary和文档document的相似度
    quary和个性化广告
    匹配质量
  • 知识图谱 knowledge graph 2012Google提出
  • 机器阅读 Machine Reading
  • 人类助手 Personal Assistant
  • 机器翻译 Machine Translation
  • 情感分类和意见挖掘 Sentiment Analysis and Opinion Mining
  • 计算社会科学 Computational Social Science

基础概念

词表示 Word Representation

- 词相似度
- 词关系
  1. 用和词有关的一些词来表示当前词
    缺点:细微差距丢失、 新的词义缺失、 主观性问题、 数据稀疏、 大量人工
  2. One-Hot Representation
    向量维度 = 词表长度
    缺点:增加了相似词之间的距离
  3. Represent Word by Context
    利用上下文来表示这个词
  4. Co-Occurrence Counts
    包含了上下文信息,上下文出现的频度,稠密向量
    缺点:词表越大,存储需求大,频度出现少的词,上下文出现的就少,词表示会变得稀疏因而效果不好
  5. 深度学习 Word Embedding
    Word2Vec 词向量 将词汇投射到低维空间

语言模型

主要完成两个工作:

联合概率:计算一个序列的词成为一句话的概率是多少(一句话人能读懂的概率)

条件概率:根据前面的词,预测下一个词

传统语言模型的基本假设:

一个未来的词,只会受到前面的词的影响

N-gram Model

前面出现N - 1个词,第N个词的概率是多少

问题:很少考虑长前文,统计是稀疏的;还是One-Hot编码,每个词是一个符号

Neural Language Model

神经网络模型 每个词表示为一个低维的向量

大模型范式

预训练(无标注、自监督) + 微调

四大步骤

预训练->监督式微调->奖励建模->强化学习

预训练占算例99%以上

问答对1w-10w

奖励建模和强化学习,基于人类反馈的强化学习,RLHF

相关推荐
MongoDB 数据平台1 分钟前
Alan Chhabra:MongoDB AI应用程序计划(MAAP) 为客户提供价值
数据库·人工智能·mongodb
网智圈--一起AI赋能网络4 分钟前
【AI+网络/仿真数据集】1分钟搭建云原生端到端5G网络
网络·人工智能·5g·云原生·信息与通信
三月七(爱看动漫的程序员)5 分钟前
The Rise and Potential of Large Language ModelBased Agents:A Survey---代理社会
人工智能·深度学习·机器学习·语言模型·自然语言处理·chatgpt·langchain
mingdaoyun8 分钟前
零代码平台在智慧城市政务信息化软件项目管理领域的实践
人工智能·智慧城市·政务
肉包之16 分钟前
OpenCV实验:图片加水印
人工智能·python·opencv·计算机视觉
带带老表学爬虫23 分钟前
opencv礼帽和黑帽运算
人工智能·opencv·计算机视觉
卧蚕土豆36 分钟前
【有啥问啥】大语言模型Prompt中的“System指令”:深入剖析与误区澄清
人工智能·语言模型·prompt
dundunmm40 分钟前
数据挖掘之聚类分析
人工智能·机器学习·数据挖掘·聚类
IT古董42 分钟前
【机器学习】机器学习的基本分类-无监督学习-t-SNE(t-分布随机邻域嵌入)
人工智能·学习·机器学习·分类
ApiHug43 分钟前
电子商务人工智能指南 5/6 - 丰富的产品数据
人工智能·搜索引擎·apihug