抛弃纯文本?我写了个工具验证 DeepSeek-OCR 猜想:代码转 PDF 节省 40% Token

引言:Token 还是不够用?

作为一名重度依赖 Claude和 Gemini辅助编程的开发者,我经常遇到一个尴尬的场景:

我想让 AI 重构一个模块,但这个模块依赖错综复杂。当我试图把整个 monorepo 的相关文件丢进对话框时,Token 瞬间爆炸,或者因为上下文过长(Lost in the Middle),模型开始胡言乱语。

传统的 RAG(检索增强生成)通过切片(Chunking)解决了容量问题,但破坏了代码的整体结构感

直到最近,我读到了 DeepSeek 团队的论文 DeepSeek-OCR 和另一篇 Text or Pixels? ,它们提出了一个反直觉的观点:对于结构化数据(如代码、表格),视觉编码(Vision Encoder)比文本编码(Text Tokenizer)效率更高。

于是我造了个轮子 ------ Pixrep

什么是 Pixrep?

简单来说,它是一个 Python CLI 工具,能把你的整个代码仓库"拍"成一组结构化的、带语法高亮和语义分析的 PDF。

GitHub: github.com/TingjiaInFu...

核心原理:为什么"看图"比"读字"更省 Token?

我们在写代码时,为了可读性会使用大量的缩进、换行和空格。在 Text Tokenizer 眼里,这些都是昂贵的 Token。

而在 Vision Model 眼里,代码的缩进、层级关系就是一张图上的几何结构。现代多模态模型的 Vision Encoder(如 ViT)通过 Patch 处理图像,对于稀疏的文本结构,压缩率极高。

实测数据说话:

我将一个约 2 万行的 Python Monorepo 分别以"纯文本"和"Pixrep PDF"的形式喂给 Google AI Studio (Gemini 3 Pro):

  • 纯文本文件组: 31,812 Tokens(上下文杂乱,包含大量重复的文件头信息)
  • Pixrep OnePDF: 19,041 Tokens(结构清晰,单文件)

立省 40%+ 的 Token! 且模型对代码结构的理解并未下降,反而因为有了视觉辅助(如颜色高亮),在定位变量作用域时更加精准。

Pixrep 的三大杀手级功能

1. OnePDF 模式 (The "All-in-One" Context)

bash 复制代码
pixrep onepdf .

工具会扫描整个仓库(自动识别 .gitignore),应用 ASCII 优化的 PDF 写入器,生成一个极小的 ONEPDF_CORE.pdf。这个文件是专门为 LLM 的"视觉皮层"设计的,剔除了所有不必要的装饰,只保留核心代码和目录树。

2. 语义微缩图 (Semantic Minimap)

给代码加"导航"。

Pixrep 内置了一个轻量级的 AST 分析引擎(基于 Python ast 库和正则)。在每个文件的 PDF 头部,它会自动绘制一张 UML 类图 / 调用关系图

这意味着 Claude 在阅读具体代码行之前,已经先看懂了:

  • 这个文件里有哪些类?
  • 继承关系是什么?
  • 核心函数调用了谁?

这极大地缓解了 LLM 在长上下文中"迷路"的问题。

3. Linter 热力图 (Visual Linter)

这是我觉得最 Cool 的功能。

Pixrep 会自动调用你环境中的 ruff (Python) 或 eslint (JS/TS)。如果某行代码有潜在 Bug 或不规范,Pixrep 会在 PDF 中该行背景上绘制红色或黄色的热力图

当模型"看"到这些颜色时,它会本能地注意到:"哦,这里有个 Bug 需要修复"。这比纯文本的 Linter 报错报告直观得多。

如何使用?

安装非常简单(支持 Python 3.10+):

bash 复制代码
pip install pixrep

场景一:我想把整个项目喂给 Claude 做 Code Review

bash 复制代码
# 生成一个优化过的单体 PDF
pixrep onepdf .

然后把生成的 ONEPDF_CORE.pdf 拖进 Claude 对话框即可。

场景二:我想生成一份精美的项目文档

bash 复制代码
# 生成目录索引和分文件的 PDF
pixrep generate .

你会得到一个 00_INDEX.pdf(包含项目树状图和统计)以及每个源文件的独立 PDF。

结语

多模态 LLM 的时代,代码不仅仅是文本,更是一种视觉结构

Pixrep 只是一个开始,它试图探索 "Visual RAG" 的可能性。如果你也受够了 Token 爆炸,或者想体验一下让 AI "看"代码的感觉,欢迎尝试 Pixrep。

项目地址: github.com/TingjiaInFu...

(觉得好用的话,求一个 Star ⭐️)

相关推荐
明略科技7 小时前
什么是 RAG?为什么光靠大模型的记忆力远远不够
开源·agent
tudoSearcher11 小时前
手机、平板、电脑同时控制Claude Code / Codex ?:Paseo实战指南
网络·开源·开源软件·个人开发·ai编程
lipku13 小时前
LiveTalking 更新:集成 vLLM-Omni TTS服务
python·开源·数字人·vllm·实时数字人
Par@ish13 小时前
关于开源GNU通用许可(GPLv3)详细解说
web安全·开源·开源协议
SeaTunnel15 小时前
87 个 PR 迭代复盘|Apache SeaTunnel 5 月版本重点更新解读
大数据·数据库·开源·apache·seatunnel
DolphinScheduler社区15 小时前
实战演示 | 基于 Apache DolphinScheduler 与 Apache SeaTunnel 实现 MySQL 到 Doris 离线定时增量同步
数据库·mysql·开源·apache·海豚调度·大数据工作流调度
SL-staff16 小时前
Vue3私有化AI白板落地实战|解决政企项目智能绘图合规难题(可直接复用源码)
人工智能·低代码·开源·vue3·白板·jvs规则引擎·jvs-draw
国产化创客16 小时前
嵌入式视觉完整技术体系--ESP32/K230/RDK-X5/树莓派四层架构全解析
嵌入式硬件·物联网·架构·开源·智能硬件
爱上纯净的蓝天16 小时前
AtomCode 源码编译与二次开发入门
开源·二次开发·源码编译·atomcode
hanbr16 小时前
我做了个工具:把 Typora 笔记一键变成 CSDN 博客,截图自动生成描述,还能 AI 润色
开源·开源软件