AIGC: 关于ChatGPT中token和tiktoken工具

什么是token

  • token是GPT处理文本的基本的单位
  • token本身可以是一个字,可以是一个词语,或特定语言中的一个字符
  • token负责将输入的文本数据转换为GPT可以处理的数据格式
  • GPT不同模型的计费就是根据token来的

token 的拆分

  • 这里有一个 tiktoken 工具
    • 是 open ai 开源的一个快速分词的工具
    • 可以将我们输入的文本的字符串去进行拆分, 拆分成token的列表
      • 我们通过对 Prompt 进行拆分,计算出token的数量
      • 不同的模型对于token是有限制的,可以判断 Prompt 是不是比较长, 导致GPT对应的模型没有办法处理
      • 我们也可以通过 token 的数量去进行费用的计算
        • 我们开发了一个自助的聊天工具,向用户进行开放
        • 对用户而言,我们可以通过计算token的数量来计算费用
        • 因为openAI它的API的调用的费用也是通过token去进行计算的
      • 举一个例子
        • 比如我们要做一个聊天机器人,对于聊天机器人,是需要我们的历史的一些聊天的信息
        • 需要去判断历史信息,也就是追加上下文的信息,是不是能够被GPT进行处理
        • 这个时候, 可能就会涉及到对于token的一个计算,我们需要将上下文的信息去计算它的token
        • 看是不是超过了我们想要去设置的阈值,这是token拆分实际的一个使用

如何拆分 token

  • openai 通过不同的编码来指定如何将文本转换成token
  • 不同的模型,使用不同的编码
  • open ai的模型分为三种编码
    • cl100k_base: gpt4, gpt-3.5-turbo
    • p50k_base: text-davinci-003, text-davinci-002
    • r50k_base: gpt-3
    • 这是相关的 token 的编码和模型的一个映射的关系
  • 各个语言的支持情况
    • 对于不同的语言,openai 也提供了相关的一些模块去进行引用
    • Python: tiktoken
    • Java: jtokkit
  • 通过这些包完成文本的token的一个拆分,去计算指定文本tokens的数量

Java 示例程序如下

Model.java

java 复制代码
package org.example;

import lombok.AllArgsConstructor;
import lombok.Getter;

@Getter
@AllArgsConstructor
public enum Model {
    /**
     * gpt-3.5-turbo
     */
    GPT_3_5_TURBO("gpt-3.5-turbo"),
    GPT_3_5_TURBO_0613("gpt-3.5-turbo-0613"),
    GPT_3_5_TURBO_16K("gpt-3.5-turbo-16k"),
    TEXT_DAVINCI_003("text-davinci-003");
    private String name;
}

Main.java

java 复制代码
package org.example;

import com.knuddels.jtokkit.Encodings;
import com.knuddels.jtokkit.api.Encoding;
import com.knuddels.jtokkit.api.EncodingRegistry;
import java.util.*;

public class Main {
    private static final EncodingRegistry encodingRegistry = Encodings.newDefaultEncodingRegistry();

    public static int tokens(String modelName, String message) {
        // 根据模型名称获取编码
        Optional<Encoding> encodingForModel = encodingRegistry.getEncodingForModel(modelName);
        if(encodingForModel.isPresent()) {
            // 利用编码计算 token 的数量
            Encoding encoding = encodingForModel.get();
            int sum = encoding.countTokens(message);
            return sum;
        } else {
            throw new RuntimeException("model not support");
        }
    }

    public static void getTokens(String modelName, String message) {
        // 根据模型名称获取编码
        Optional<Encoding> encodingForModel = encodingRegistry.getEncodingForModel(modelName);
        if(encodingForModel.isPresent()) {
            // 利用编码计算 token 的数量
            Encoding encoding = encodingForModel.get();
            List<Integer> encodeList = encoding.encode(message);
            // 输出
            for(Integer en:encodeList) {
                System.out.print(encoding.decode(Arrays.asList(en))); // 这里有可能存在乱码的情况
                System.out.print("  ");
            }
            System.out.println("");
        } else {
            throw new RuntimeException("model not support");
        }
    }

    public static void main(String[] args) {
        int tokens = tokens(Model.GPT_3_5_TURBO.getName(), "你是一个诗人,请写一首七言绝句");
        getTokens(Model.GPT_3_5_TURBO.getName(), "你是一个诗人,请写一首七言绝句");
        System.out.println("Prompt:你是一个诗人,请写一首七言绝句! Tokens count:"+ tokens);
    }
}
  • 现在运行一下, 可以看到我们的结果已经成功的进行了执行
  • 对于我们本次的 Prompt ,它的tokens的数量是 17
相关推荐
花千树-0109 分钟前
Agent核心架构:感知-规划-行动-观察循环
aigc·agent·ai agent·ai harness·ai react·agent 模式
阿钱真强道1 小时前
03 ComfyUI + SVD 系列(一):Ubuntu 24 + RTX 4090D 环境安装与启动验证
aigc·stable-diffusion·svd·comfyui·图生视频·rtx4090
Miku163 小时前
OpenClaw+image-downloader-skill: 打造关键词图片批量下载工作流
aigc·agent·claude
视觉&物联智能5 小时前
【杂谈】-洞察业务风险潜藏暗礁:影子人工智能如何重塑移动威胁格局
人工智能·网络安全·aigc·agi
洛卡卡了5 小时前
Hermes Agent 火了,我也把它从安装到飞书聊天跑了一遍
人工智能·aigc·ai编程
春末的南方城市5 小时前
CVPR 2026 | 复旦开源首个端到端多模态矢量动画生成框架OmniLottie:UI动效革命,文本/图像一键转Lottie动画!
人工智能·深度学习·机器学习·计算机视觉·aigc
怕浪猫6 小时前
第12章 工具(Tools)与函数调用(LangChain实战)
langchain·aigc·ai编程
小程故事多_807 小时前
从Claude Code源码泄露,读懂12个可复用的Agentic Harness设计模式(生产级落地指南)
人工智能·设计模式·aigc·ai编程·harness
阿杰学AI7 小时前
AI核心知识116—大语言模型之 目标驱动的可控架构 (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·机械学习·目标驱动的可控架构
墨风如雪16 小时前
越用越强不是广告语:拆解 Hermes Agent 的三层学习机制
aigc