抛弃纯文本？我写了个工具验证 DeepSeek-OCR 猜想：代码转 PDF 节省 40% Token

引言：Token 还是不够用？

作为一名重度依赖 Claude和 Gemini辅助编程的开发者，我经常遇到一个尴尬的场景：

我想让 AI 重构一个模块，但这个模块依赖错综复杂。当我试图把整个 monorepo 的相关文件丢进对话框时，Token 瞬间爆炸，或者因为上下文过长（Lost in the Middle），模型开始胡言乱语。

传统的 RAG（检索增强生成）通过切片（Chunking）解决了容量问题，但破坏了代码的整体结构感。

直到最近，我读到了 DeepSeek 团队的论文 DeepSeek-OCR 和另一篇 Text or Pixels? ，它们提出了一个反直觉的观点：对于结构化数据（如代码、表格），视觉编码（Vision Encoder）比文本编码（Text Tokenizer）效率更高。

于是我造了个轮子 ------ Pixrep。

简单来说，它是一个 Python CLI 工具，能把你的整个代码仓库"拍"成一组结构化的、带语法高亮和语义分析的 PDF。

GitHub: github.com/TingjiaInFu...

我们在写代码时，为了可读性会使用大量的缩进、换行和空格。在 Text Tokenizer 眼里，这些都是昂贵的 Token。

而在 Vision Model 眼里，代码的缩进、层级关系就是一张图上的几何结构。现代多模态模型的 Vision Encoder（如 ViT）通过 Patch 处理图像，对于稀疏的文本结构，压缩率极高。

实测数据说话：

我将一个约 2 万行的 Python Monorepo 分别以"纯文本"和"Pixrep PDF"的形式喂给 Google AI Studio (Gemini 3 Pro)：

立省 40%+ 的 Token！ 且模型对代码结构的理解并未下降，反而因为有了视觉辅助（如颜色高亮），在定位变量作用域时更加精准。

bash 复制代码

pixrep onepdf .

工具会扫描整个仓库（自动识别 .gitignore），应用 ASCII 优化的 PDF 写入器，生成一个极小的 ONEPDF_CORE.pdf。这个文件是专门为 LLM 的"视觉皮层"设计的，剔除了所有不必要的装饰，只保留核心代码和目录树。

给代码加"导航"。

Pixrep 内置了一个轻量级的 AST 分析引擎（基于 Python ast 库和正则）。在每个文件的 PDF 头部，它会自动绘制一张 UML 类图 / 调用关系图。

这意味着 Claude 在阅读具体代码行之前，已经先看懂了：

这极大地缓解了 LLM 在长上下文中"迷路"的问题。

这是我觉得最 Cool 的功能。

Pixrep 会自动调用你环境中的 ruff (Python) 或 eslint (JS/TS)。如果某行代码有潜在 Bug 或不规范，Pixrep 会在 PDF 中该行背景上绘制红色或黄色的热力图。

当模型"看"到这些颜色时，它会本能地注意到："哦，这里有个 Bug 需要修复"。这比纯文本的 Linter 报错报告直观得多。

安装非常简单（支持 Python 3.10+）：

bash 复制代码

pip install pixrep

场景一：我想把整个项目喂给 Claude 做 Code Review

bash 复制代码

# 生成一个优化过的单体 PDF
pixrep onepdf .

然后把生成的 ONEPDF_CORE.pdf 拖进 Claude 对话框即可。

场景二：我想生成一份精美的项目文档

bash 复制代码

# 生成目录索引和分文件的 PDF
pixrep generate .

你会得到一个 00_INDEX.pdf（包含项目树状图和统计）以及每个源文件的独立 PDF。

多模态 LLM 的时代，代码不仅仅是文本，更是一种视觉结构。

Pixrep 只是一个开始，它试图探索 "Visual RAG" 的可能性。如果你也受够了 Token 爆炸，或者想体验一下让 AI "看"代码的感觉，欢迎尝试 Pixrep。

项目地址： github.com/TingjiaInFu...

(觉得好用的话，求一个 Star ⭐️)