NLP的一些概念

语料库

就是收集的句子,比如一下这5句话就是个语料库。

  1. 我喜欢吃苹果。

  2. 他喜欢吃香蕉,我也喜欢吃香蕉。

  3. 苹果和香蕉都是水果。

  4. 水果很好吃,他每天都吃水果。

  5. 我喜欢这个苹果。

词表

从语料库中统计生成"词表"。

按频率排序的词表(这也是一种词表)

出现次数
吃/水果 4 次
的/香蕉/苹果/喜欢 2 次
我/他/也/都/很/好/和/是/这个 1 次
制作一个真正的"好词表"

它不是简单的频率排序,而是会过滤 掉某些词(比如功能词"的、也、呢、吗")或者只保留特定类别的词。

比如:我想针对初级中文学习者制作一个"水果主题好词表"。基于上面的语料库,我不会把所有词都放进去,而是会:

  • 删掉代词(我、他)、副词(也、都)、结构助词(的)、连词(和)、形容词(好、很)、动词(是、吃、喜欢)------ 这些对于"水果主题"不是核心。

  • 只保留名词:苹果、香蕉、水果

这样得到的"好词表"是:

苹果、香蕉、水果

这个表很小、很聚焦,适合初学者学习"水果"这一类词。

总结

维度 语料库(那5个句子) 词频表(统计结果) 好词表(水果主题)
内容 完整、原始的句子 所有词 + 次数 仅苹果、香蕉、水果
大小 5句,约30个词 10多个词条 3个词条
作用 研究语言真实用法 了解哪些词更常见 教/学特定词汇
是否人工筛选 只需收集文本 自动统计 人为挑选

上下文长度(Context Length)

上下文长度 指的是模型一次能够处理的最大 token 数量(可以粗略理解为词或字符片段的数量),包含输入和输出。

  • 输入部分:用户的问题 + 历史对话 + 系统提示 + 其他信息

  • 输出部分:模型生成的回答

举例

  • GPT-3.5 早期的上下文长度是 4k tokens(约 3000 个英文单词或 2000 个汉字左右)。

  • GPT-4 Turbo 可以达到 128k tokens(相当于一本 300 页的书)。

  • 一些新模型(如 Claude 3)支持 200k tokens。

为什么重要

  • 如果对话历史太长,超过了上下文长度,模型就会"忘记"最早的内容(就像你念了很长的代码,让模型只能记住最后一部分)。

  • 越长的上下文长度,模型越能处理长篇文档、长时间对话。

注意 :上下文长度是硬上限。即使你把一个 100k tokens 的上下文对象传给模型,如果模型的最大上下文长度只有 8k,那么超出的部分会被截断或报错。

token

就是一个一个的组词,可以是单词也可以是字符。

Tokenizer‌(分词器)的作用是:

  • 将输入的原始文本(字符串)拆分为有意义的子单元(tokens);
  • 将这些 tokens 映射为模型能理解的整数 ID(通过词汇表查找);
  • 支持特殊标记如 [CLS][SEP][PAD][UNK] 等,用于任务结构化或处理未知词。

embedding

把字符映射成一个密集的数字向量,也就是向量化。

复制代码
原始文本:"我爱苹果"
   ↓ 分词/token化
Token序列:["我", "爱", "苹果"]
   ↓ 查Embedding表(或经过Embedding层)
向量序列:
  "我"   → [0.12, -0.34, 0.56, ...]
  "爱"   → [0.33, 0.21, -0.47, ...]
  "苹果" → [0.78, -0.05, 0.63, ...]

句子的长度就是你输入一句话的token数吧!!

相关推荐
暗夜猎手-大魔王1 小时前
转载--AI Agent 架构设计:安全与可控性设计(OpenClaw、Claude Code、Hermes Agent 对比)
人工智能·安全
Air_July1 小时前
Brower User Web UI部署详细步骤
人工智能·python·测试工具
ting94520001 小时前
纳米 AI 全面解析:定义原理、技术架构、落地场景、行业变革与未来发展趋势
人工智能·架构
weixin_6681 小时前
NVIDIA VSSVideo Search and Summarization视频搜索与摘要蓝图详尽使用说明与技术报告版本
人工智能·音视频
minstbe1 小时前
【AI本体论研究学习】本体的核心元素:类、属性、实例与关系——拆解 OWL/RDF 四大基石
人工智能·学习
YJlio1 小时前
Windows Internals 读书笔记 10.3.3:Task Scheduler 架构详解
人工智能·windows·笔记·python·学习·chatgpt·架构
新加坡内哥谈技术1 小时前
长时间运行的智能体
人工智能
AI木马人1 小时前
4.人工智能实战:大模型服务如何避免被突发流量打崩?从“接口直连GPU”到“队列调度架构”的完整工程重构
人工智能·重构·架构