GPT4模型的token可视化

本文给出一个 GPT4 模型可视化token的工具网站,大家可以去上面测试一下效果。

网址:

platform.openai.com/tokenizer

使用说明

通过该网站工具,你可以了解一段文本如何被GPT-4模型token化的,以及文本的被token化之后的token总数是多少。

比如像下面这样:

当输入文本中含有debugger时,同样被拆分为了debug和##ger,这和之前介绍token的文章时提到的是一致的,比如这篇文章:利用bert对文本token化

这说明debug确实是一个非常常见的基础子词。

当然你也可以将token转换为tokenID来查看。关于tokenID,后面会详细介绍其作用。

需要注意的是,具体的文本token化结果与模型有关。

像GPT-3.5和GPT-4这样的模型使用的方法与旧模型(比如GPT-2)会有不同,不同的token算法对于相同的输入文本会产生不同的token序列。

按照GPT-4官方给出的经验数据:对于常见的英文文本,一个tokne大概对应4个英文字符,大约相当于 3/4 个单词。

所以100个token大约等于75个单词。

本节为一个工具介绍,仅做了解即可。


最近开始撰写《Transformer专栏》了,会以最通俗的讲解方式来讲透其中的所有算法原理和使用动机。欢迎关注。移步:我的 Transformer 专栏来了

相关推荐
风筝在晴天搁浅6 小时前
代码随想录 516.最长回文子序列
算法
菜鸟233号7 小时前
力扣513 找树左下角的值 java实现
java·数据结构·算法·leetcode
亭上秋和景清7 小时前
指针进阶:函数指针详解
开发语言·c++·算法
leoufung7 小时前
LeetCode 22:Generate Parentheses 题解(DFS / 回溯)
算法·leetcode·深度优先
断剑zou天涯8 小时前
【算法笔记】bfprt算法
java·笔记·算法
youngee118 小时前
hot100-47岛屿数量
算法
无限进步_9 小时前
深入理解 C/C++ 内存管理:从内存布局到动态分配
c语言·c++·windows·git·算法·github·visual studio
长安er9 小时前
LeetCode 34排序数组中查找元素的第一个和最后一个位置-二分查找
数据结构·算法·leetcode·二分查找·力扣
点云SLAM9 小时前
C++ 中traits 类模板(type traits / customization traits)设计技术深度详解
c++·算法·c++模板·c++高级应用·traits 类模板·c++17、20·c++元信息
CoderYanger9 小时前
动态规划算法-两个数组的dp(含字符串数组):48.最长重复子数组
java·算法·leetcode·动态规划·1024程序员节