自然语言处理基础及应用场景

自然语言处理定义

让计算机理解人所说的文本语音

Imitation Game 图灵测试行为主义鸭子理论

复制代码

- 词相似度
- 词关系

用和词有关的一些词来表示当前词
缺点：细微差距丢失、新的词义缺失、主观性问题、数据稀疏、大量人工
One-Hot Representation
向量维度 = 词表长度
缺点：增加了相似词之间的距离
Represent Word by Context
利用上下文来表示这个词
Co-Occurrence Counts
包含了上下文信息，上下文出现的频度，稠密向量
缺点：词表越大，存储需求大，频度出现少的词，上下文出现的就少，词表示会变得稀疏因而效果不好
深度学习 Word Embedding
Word2Vec 词向量将词汇投射到低维空间

主要完成两个工作：

联合概率：计算一个序列的词成为一句话的概率是多少（一句话人能读懂的概率）

条件概率：根据前面的词，预测下一个词

一个未来的词，只会受到前面的词的影响

前面出现N - 1个词，第N个词的概率是多少

问题：很少考虑长前文，统计是稀疏的；还是One-Hot编码，每个词是一个符号

神经网络模型每个词表示为一个低维的向量

预训练（无标注、自监督） + 微调

预训练->监督式微调->奖励建模->强化学习

预训练占算例99%以上

问答对1w-10w

奖励建模和强化学习，基于人类反馈的强化学习，RLHF