抛弃纯文本?我写了个工具验证 DeepSeek-OCR 猜想:代码转 PDF 节省 40% Token

引言:Token 还是不够用?

作为一名重度依赖 Claude和 Gemini辅助编程的开发者,我经常遇到一个尴尬的场景:

我想让 AI 重构一个模块,但这个模块依赖错综复杂。当我试图把整个 monorepo 的相关文件丢进对话框时,Token 瞬间爆炸,或者因为上下文过长(Lost in the Middle),模型开始胡言乱语。

传统的 RAG(检索增强生成)通过切片(Chunking)解决了容量问题,但破坏了代码的整体结构感

直到最近,我读到了 DeepSeek 团队的论文 DeepSeek-OCR 和另一篇 Text or Pixels? ,它们提出了一个反直觉的观点:对于结构化数据(如代码、表格),视觉编码(Vision Encoder)比文本编码(Text Tokenizer)效率更高。

于是我造了个轮子 ------ Pixrep

什么是 Pixrep?

简单来说,它是一个 Python CLI 工具,能把你的整个代码仓库"拍"成一组结构化的、带语法高亮和语义分析的 PDF。

GitHub: github.com/TingjiaInFu...

核心原理:为什么"看图"比"读字"更省 Token?

我们在写代码时,为了可读性会使用大量的缩进、换行和空格。在 Text Tokenizer 眼里,这些都是昂贵的 Token。

而在 Vision Model 眼里,代码的缩进、层级关系就是一张图上的几何结构。现代多模态模型的 Vision Encoder(如 ViT)通过 Patch 处理图像,对于稀疏的文本结构,压缩率极高。

实测数据说话:

我将一个约 2 万行的 Python Monorepo 分别以"纯文本"和"Pixrep PDF"的形式喂给 Google AI Studio (Gemini 3 Pro):

  • 纯文本文件组: 31,812 Tokens(上下文杂乱,包含大量重复的文件头信息)
  • Pixrep OnePDF: 19,041 Tokens(结构清晰,单文件)

立省 40%+ 的 Token! 且模型对代码结构的理解并未下降,反而因为有了视觉辅助(如颜色高亮),在定位变量作用域时更加精准。

Pixrep 的三大杀手级功能

1. OnePDF 模式 (The "All-in-One" Context)

bash 复制代码
pixrep onepdf .

工具会扫描整个仓库(自动识别 .gitignore),应用 ASCII 优化的 PDF 写入器,生成一个极小的 ONEPDF_CORE.pdf。这个文件是专门为 LLM 的"视觉皮层"设计的,剔除了所有不必要的装饰,只保留核心代码和目录树。

2. 语义微缩图 (Semantic Minimap)

给代码加"导航"。

Pixrep 内置了一个轻量级的 AST 分析引擎(基于 Python ast 库和正则)。在每个文件的 PDF 头部,它会自动绘制一张 UML 类图 / 调用关系图

这意味着 Claude 在阅读具体代码行之前,已经先看懂了:

  • 这个文件里有哪些类?
  • 继承关系是什么?
  • 核心函数调用了谁?

这极大地缓解了 LLM 在长上下文中"迷路"的问题。

3. Linter 热力图 (Visual Linter)

这是我觉得最 Cool 的功能。

Pixrep 会自动调用你环境中的 ruff (Python) 或 eslint (JS/TS)。如果某行代码有潜在 Bug 或不规范,Pixrep 会在 PDF 中该行背景上绘制红色或黄色的热力图

当模型"看"到这些颜色时,它会本能地注意到:"哦,这里有个 Bug 需要修复"。这比纯文本的 Linter 报错报告直观得多。

如何使用?

安装非常简单(支持 Python 3.10+):

bash 复制代码
pip install pixrep

场景一:我想把整个项目喂给 Claude 做 Code Review

bash 复制代码
# 生成一个优化过的单体 PDF
pixrep onepdf .

然后把生成的 ONEPDF_CORE.pdf 拖进 Claude 对话框即可。

场景二:我想生成一份精美的项目文档

bash 复制代码
# 生成目录索引和分文件的 PDF
pixrep generate .

你会得到一个 00_INDEX.pdf(包含项目树状图和统计)以及每个源文件的独立 PDF。

结语

多模态 LLM 的时代,代码不仅仅是文本,更是一种视觉结构

Pixrep 只是一个开始,它试图探索 "Visual RAG" 的可能性。如果你也受够了 Token 爆炸,或者想体验一下让 AI "看"代码的感觉,欢迎尝试 Pixrep。

项目地址: github.com/TingjiaInFu...

(觉得好用的话,求一个 Star ⭐️)

相关推荐
九狼JIULANG10 小时前
基于Flutter+Riverpod+MVI 实现的跨平台「AI 提示词优化工具」
android·开源·github
冬奇Lab10 小时前
一天一个开源项目(第27篇):Awesome AI Coding - 一站式 AI 编程资源导航
人工智能·开源·资讯
Elastic 中国社区官方博客11 小时前
Elasticsearch 用于词形还原的开源 Hebrew 分析器
大数据·elasticsearch·搜索引擎·ai·开源·全文检索·中文分词
魔乐社区21 小时前
GLM-5上线魔乐社区,基于昇腾的模型推理+训练部署教程请查收!
人工智能·开源·大模型
摸鱼仙人~1 天前
区间 DP 的两种遍历方式详解:从“左端点倒序”到“按长度递增”
开源
正宗咸豆花1 天前
物理AI革命:当算法走出屏幕,制造业如何被重新定义
人工智能·机器人·开源
冬奇Lab1 天前
一天一个开源项目(第26篇):ZeroClaw - 零开销、全 Rust 的自主 AI 助手基础设施,与 OpenClaw 的关系与对比
人工智能·开源·资讯
LitchiCheng1 天前
Mujoco 如何添加 Apriltag 并获得相机视野进行识别
人工智能·python·开源
沐曦股份MetaX1 天前
【智算芯闻】沐曦MXMACA软件平台:让大模型训练更简单、更高效
开源