NLP的一些概念

语料库

就是收集的句子,比如一下这5句话就是个语料库。

  1. 我喜欢吃苹果。

  2. 他喜欢吃香蕉,我也喜欢吃香蕉。

  3. 苹果和香蕉都是水果。

  4. 水果很好吃,他每天都吃水果。

  5. 我喜欢这个苹果。

词表

从语料库中统计生成"词表"。

按频率排序的词表(这也是一种词表)

出现次数
吃/水果 4 次
的/香蕉/苹果/喜欢 2 次
我/他/也/都/很/好/和/是/这个 1 次
制作一个真正的"好词表"

它不是简单的频率排序,而是会过滤 掉某些词(比如功能词"的、也、呢、吗")或者只保留特定类别的词。

比如:我想针对初级中文学习者制作一个"水果主题好词表"。基于上面的语料库,我不会把所有词都放进去,而是会:

  • 删掉代词(我、他)、副词(也、都)、结构助词(的)、连词(和)、形容词(好、很)、动词(是、吃、喜欢)------ 这些对于"水果主题"不是核心。

  • 只保留名词:苹果、香蕉、水果

这样得到的"好词表"是:

苹果、香蕉、水果

这个表很小、很聚焦,适合初学者学习"水果"这一类词。

总结

维度 语料库(那5个句子) 词频表(统计结果) 好词表(水果主题)
内容 完整、原始的句子 所有词 + 次数 仅苹果、香蕉、水果
大小 5句,约30个词 10多个词条 3个词条
作用 研究语言真实用法 了解哪些词更常见 教/学特定词汇
是否人工筛选 只需收集文本 自动统计 人为挑选

上下文长度(Context Length)

上下文长度 指的是模型一次能够处理的最大 token 数量(可以粗略理解为词或字符片段的数量),包含输入和输出。

  • 输入部分:用户的问题 + 历史对话 + 系统提示 + 其他信息

  • 输出部分:模型生成的回答

举例

  • GPT-3.5 早期的上下文长度是 4k tokens(约 3000 个英文单词或 2000 个汉字左右)。

  • GPT-4 Turbo 可以达到 128k tokens(相当于一本 300 页的书)。

  • 一些新模型(如 Claude 3)支持 200k tokens。

为什么重要

  • 如果对话历史太长,超过了上下文长度,模型就会"忘记"最早的内容(就像你念了很长的代码,让模型只能记住最后一部分)。

  • 越长的上下文长度,模型越能处理长篇文档、长时间对话。

注意 :上下文长度是硬上限。即使你把一个 100k tokens 的上下文对象传给模型,如果模型的最大上下文长度只有 8k,那么超出的部分会被截断或报错。

token

就是一个一个的组词,可以是单词也可以是字符。

Tokenizer‌(分词器)的作用是:

  • 将输入的原始文本(字符串)拆分为有意义的子单元(tokens);
  • 将这些 tokens 映射为模型能理解的整数 ID(通过词汇表查找);
  • 支持特殊标记如 [CLS][SEP][PAD][UNK] 等,用于任务结构化或处理未知词。

embedding

把字符映射成一个密集的数字向量,也就是向量化。

复制代码
原始文本:"我爱苹果"
   ↓ 分词/token化
Token序列:["我", "爱", "苹果"]
   ↓ 查Embedding表(或经过Embedding层)
向量序列:
  "我"   → [0.12, -0.34, 0.56, ...]
  "爱"   → [0.33, 0.21, -0.47, ...]
  "苹果" → [0.78, -0.05, 0.63, ...]

句子的长度就是你输入一句话的token数吧!!

相关推荐
这token有力气1 小时前
Function Calling 格式漂移
人工智能
onething3651 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 5 —— SSE 流式输出 + 打字机效果
人工智能·后端·全栈
onething3651 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 6 —— 业务完善 + 会话消息预览
人工智能·后端·全栈
IT_陈寒2 小时前
SpringBoot自动配置的坑,我爬了三天才出来
前端·人工智能·后端
甲维斯3 小时前
笑抽了!DeepSeek识图,豆包完胜了!
人工智能·deepseek
Lei活在当下12 小时前
【AI手记系列-2026/6/18】iSparto & Harness,Caveman 以及AI时代的生存指南
人工智能·llm·openai
冬奇Lab13 小时前
每日一个开源项目(第134篇):Zvec - 阿里开源的嵌入式向量数据库,向量搜索界的 SQLite
数据库·人工智能·llm
冬奇Lab13 小时前
Agent 系列(22):Context Engineering 深度——三种上下文管理策略的量化对比
人工智能·agent
hboot13 小时前
AI工程师第二课 - 数据处理
人工智能·python·数据分析
程序员cxuan14 小时前
DeepSeek 杀入多模态,识图功能正式上线!
人工智能·后端·程序员