在 ChatGPT 中,token 是连接自然语言与计算的纽带,通过将文本切分成最小单位,然后将其转化为计算机可处理的形式,使得模型能够理解和生成人类语言。
什么是 token
在自然语言处理中,token 指的是文本序列中的最小单位。这些 token 可以是一个字、一个单词、一个标点符号或者其他更小的文本单元。在 ChatGPT 模型中,输入和输出的文本都会被切分成一系列的 token 进行处理。因此,token 在 ChatGPT 中扮演着连接自然语言和计算机处理之间的桥梁,使得模型能够理解和生成人类语言。它们在文本表示、模型输入输出方面起着关键作用。
less
// 中文版
我:你好(使用4个token)
chatGPT:你好!有什么我可以帮助你的吗?(使用31个token)
共计:35个token
// 英文版
我:hello(使用1个token)
chatGPT:Hello! How can I assist you today? (使用9个toke)
共计:10个token
相同的一个对话回答,使用英文消耗的 token 会远比中文来的更少,而且在问题越复杂的情况下,表现的越为明显。
token 价格
ChatGPT 的输入和输出的 token 都是需要计费的,我们来看下计费规则:
GPT-4 价格
- 8k tokens内,输入是0.03/1k tokens,输出是0.06/1k tokens
- 32k tokens内,输入是0.06/1k tokens,输出是0.12/1k tokens
GPT-3.5 Turbo 价格
- 4k tokens内,输入是0.0015/1k tokens,输出是0.002/1k tokens
- 16k tokens内,输入是0.003/1k tokens,输出是0.004/1k tokens
假设上下文都是 4k tokens,GPT4 的价格相比于 GPT-3.5 Turbo
- 输入价格多出20倍
- 输出价格多出30倍
显然,GPT-4 更加的昂贵,但是相比于 GPT-3.5 Turbo,它有着更为强大的功能:
- 更强的创造力
GPT-4 比以往任何时候都更具创造性和协作性。它可以生成、编辑并与用户一起迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。
- 图像识别
GPT-4 可以接受图像作为输入并生成说明、分类和分析。
- 更长的上下文
GPT-4 能够处理 32,000 个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。
- 更强的高级推理能力、更强的深度学习方法
- 更安全、更稳定
token 计算方式
通常情况下:
- 一个简体中文占用 2 个 token
- 一个繁体中文占用 3 个 token
- 一个英文单词占用 4/3 个 Token (1个 token ~= 4个字符的文本)
1000个 token 约等于 750 个英文单词或者 400~500 个汉字。
100万个 token 约等于 75 万个英文单词或者 40~50 万个汉字,而 100 万个 token 在 GPT-3.5 Turbo 下仅仅需要2$。
我尝试通过中文询问 ChatGPT 关于前端开发的相关问题,每次的 token 花费大约在 600~1000 个token。取中间值,假设每次消耗 800 个token,则 100万 token 可以回答 1250 次技术问题,每次提问仅需要开销0.0016$,按照现在美元兑换人民币 1:7.3 的比例,则每次提问需要开销 0.01168¥,即为一分钱。
如果需要提供聊天式的问答,整个上下文也会被计算在token内:
假设每次问答均花费 800 token
- 第一次问答,花费 800 个 token
- 第二次问答,需要关联上下文,即 800 token + 当前回答 800 token = 1600 token
- 第三次问答,即 1600 token + 当前回答 800 token = 2400 token
在聊天式的问答中,token 的消耗将会大幅度增加,即当前的上下文内容越多,下次提问消耗的 token 则越多。当然,上下文的长度也不能无限增长,目前 GPT-3.5 Turbo 最大仅支持 16,000 token 长度,GPT4 最大仅支持 32,000 token 长度。
ChatGPT 和 搜索引擎 有什么不同
使用搜索引擎时,提炼关键字显得尤为重要,因为它们会根据你提供的关键字从数据库里面拉出一堆列表让你选择。而 ChatGPT 则是通过你的上下文描述,给出对应的回答,所以你的回答描述的尽量详细,它的回答就会更加准确。所以当我们使用 ChatGPT 解决问题时,应该给出尽量详细的Prompt,当问题较为复杂时,可以通过预设角色 + 多次问答的方式进行提问。
还有 ChatGPT 并不会给出固定答案,即使在同一时间段内,发出同样的提问,ChatGPT 的回答可能都不太一样,需要使用者具备灵活处理的能力以及甄别错误的能力。