离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千

没工作也要「卷」。

闲不下来的 Andrej Karpathy 又有了新项目!

过去几天,OpenAI 非常热闹,先有 AI 大牛 Andrej Karpathy 官宣离职,后有视频生成模型 Sora 撼动 AI 圈。

在宣布离开 OpenAI 之后,Karpathy 发推表示「这周可以歇一歇了。」

图源:twitter.com/karpathy/st...

这种无事要做的状态让马斯克都羡慕(I am envious)了。

但是,如果你真的认为 Karpathy 会闲下来,那就有点「too young, too navie」了。

这不,有眼尖的网友发现了 Karpathy 的新项目 ------minbpe,致力于为 LLM 分词中常用的 BPE(Byte Pair Encoding, 字节对编码)算法创建最少、干净以及教育性的代码

仅仅一天的时间,该项目的 GitHub 标星已经达到了 1.2 k。

图源:twitter.com/ZainHasan6/...

有人 P 了一张图,表示 Karpathy 为大家「烹制了一顿大餐」。

图源:twitter.com/andrewcyu/s...

更有人欢呼,Karpathy is back。

图源:twitter.com/fouriergalo...

我们来看一看「minbpe」项目具体讲了些什么。

项目介绍

GitHub 地址:github.com/karpathy/mi...

我们知道,BPE 算法是「字节级」的,在 UTF-8 编码的字符串上运行。该算法通过 GPT-2 论文和 GPT-2 相关的代码在大语言模型(LLM)中得到推广。

现如今,所有现代的 LLM(比如 GPT、Llama、Mistral)都使用 BPE 算法来训练它们的分词器(tokenizer)。

Karpathy 的 minbpe 项目存储库中提供了两个 Tokenizer,它们都可以执行分词器的 3 个主要功能:1)训练 tokenizer 词汇并合并给指定文本,2)从文本编码到 token,3)从 token 解码到文本。

详细的存储库文件分别如下:

  • minbpe/base.py:实现 Tokenizer 类,是基类。它包含了训练、编码和解码存根、保存 / 加载功能,还有一些常见的实用功能。不过,该类不应直接使用,而是要继承。

  • minbpe/basic.py:实现 BasicTokenizer,这是直接在文本上运行的 BPE 算法的最简单实现。

  • minbpe/regex.py:实现 RegexTokenizer,它通过正则表达式模式进一步拆分输入文本。作为一个预处理阶段,它在分词之前按类别(例如字母、数字、标点符号)拆分输入文本。这确保不会发生跨类别边界的合并。它是在 GPT-2 论文中引入的,并继续在 GPT-4 中使用。

  • minbpe/gpt4.py:实现 GPT4Tokenizer。此类是 RegexTokenizer 的轻量级封装,它精确地复现了 tiktoken(OpenAI 开源分词神器)库中 GPT-4 的分词。封装处理有关恢复 tokenizer 中精确合并的一些细节,并处理一些 1 字节的 token 排列。需要注意,奇偶校验尚未完全完成,没有处理特殊的 token。

脚本 train.py 在输入文本 tests/taylorswift.txt 上训练两个主要的 tokenizer,并将词汇保存到磁盘以进行可视化。Karpathy 称,该脚本在他的 MacBook (M1) 上运行大约需要 25 秒。

Karpathy 还表示,所有文件都非常短且注释详尽,并包含使用示例。如下为 BPE 维基百科文章的复现例子。

css 复制代码
<span><span>from</span> minbpe <span>import</span> BasicTokenizer</span>

此外还提供了如何实现 GPT4Tokenizer,以及它与 tiktoken 的比较。

css 复制代码
<span>text = <span>"hello123!!!? (안녕하세요!) 😉"</span></span>

当然,Karpathy 不满足只推出 GitHub 项目,他表示视频很快就会发布。

扩展阅读:

相关推荐
redreamSo17 小时前
AI Daily | AI日报:ChatGPT识破10年顽疾,医疗AI震撼登场; 微信支付MCP开放,机遇与风险并存; 蒙娜丽莎图让大模型几乎全军覆没
程序员·aigc·资讯
redreamSo2 天前
AI Daily | AI日报:马斯克Grok 4跑分泄露,有望改写LLM格局; 猫猫话术让大模型数学答错率翻3倍; 安克创新All in AI,代码采纳率破50%
程序员·aigc·资讯
德育处主任2 天前
键盘简史:从打字机到机械轴,怎么还是QWERTY布局啊?
资讯
redreamSo3 天前
AI Daily | AI日报:Nature:超14%生物医学论文或由AI代写; Grok 4测试成绩优异,数据真实性引争议; 李飞飞:攻克空间智能,为AGI补拼图
程序员·aigc·资讯
三花AI3 天前
阿里开源 OmniAvatar:音频驱动数字人模型
开源·资讯
NocoBase3 天前
为什么越来越多 Airtable 用户开始尝试 NocoBase?
低代码·开源·资讯
redreamSo4 天前
AI Daily | AI日报:LinkedIn:90% 应用迁移,弃 Kafka 用 Northguard; 谷歌发布免费AI教育功能,重塑课堂!; 小扎143亿请新贵,Meta员工冰火两重天
程序员·aigc·资讯
不摸鱼4 天前
顶级AI评论员:算力狂飙撞墙后,AI的下一场革命靠什么?| 不摸鱼的独立开发者日报(第43期)
人工智能·开源·资讯
NocoBase14 天前
Airtable 的数据超出上限,3 种常见应对方式
低代码·开源·资讯
redreamSo14 天前
AI Daily | AI日报:Anthropic:主流AI模型或成“内鬼”; 微软发布Mu模型,小参数跑出10倍性能; 斯坦福2025 CS336课程全公开搓大模型
程序员·aigc·资讯