【计算机科学技术/AI领域】名词释义：词元（token）!

lisw052026-05-06 9:16

在AI领域，词元（Token） 是大语言模型处理文本时使用的基本单位。它指的是模型将输入文本分割成的一个个片段，这些片段可以是单词、子词、单个字符甚至标点符号。

核心要点：

分词（Tokenization）：将文本转换成词元序列的过程，是模型理解文本的第一步。
数字化：每个独特的词元都会被映射成一个唯一的数字ID，以便模型进行计算。
并非总是"词"：例如，英文中"playing"可能被分成"play"和"ing"两个子词词元；中文中，一个汉字、一个词语或一个标点都可能是一个独立的词元。
影响与限制：模型的上下文长度（如128K）就是指它能处理的词元总数上限。同时，计费也常以词元数为基础。

简单例子：

句子"我爱AI。"可能会被分词为 ["我", "爱", "AI", "。"] 四个词元，然后每个词元被转换为对应的数字ID输入模型。

上一篇：transformer系列：#3 深度解析多头注意力

下一篇：后台服务开发、前端/手机端开发、服务器部署的版本及框架的终极推荐【2026年】

热门推荐

01GitHub 镜像站点 02DeepSeek V4 + Claude Code thinking mode 400 错误修复方案 03Codex 接入 DeepSeek API 完整配置文档 04【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 05【AI】2026 年具身智能模型和世界模型总结 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07CC-Switch & Claude 基于 Linux 服务器安装使用指南 08CC-Switch 全平台下载、安装与使用全指南（Windows/macOS/Linux）09几个好用的ip纯净度检测网站 10API Key 登录 Codex 也能用插件了，还支持会话删除和导出