抛弃纯文本?我写了个工具验证 DeepSeek-OCR 猜想:代码转 PDF 节省 40% Token

引言:Token 还是不够用?

作为一名重度依赖 Claude和 Gemini辅助编程的开发者,我经常遇到一个尴尬的场景:

我想让 AI 重构一个模块,但这个模块依赖错综复杂。当我试图把整个 monorepo 的相关文件丢进对话框时,Token 瞬间爆炸,或者因为上下文过长(Lost in the Middle),模型开始胡言乱语。

传统的 RAG(检索增强生成)通过切片(Chunking)解决了容量问题,但破坏了代码的整体结构感

直到最近,我读到了 DeepSeek 团队的论文 DeepSeek-OCR 和另一篇 Text or Pixels? ,它们提出了一个反直觉的观点:对于结构化数据(如代码、表格),视觉编码(Vision Encoder)比文本编码(Text Tokenizer)效率更高。

于是我造了个轮子 ------ Pixrep

什么是 Pixrep?

简单来说,它是一个 Python CLI 工具,能把你的整个代码仓库"拍"成一组结构化的、带语法高亮和语义分析的 PDF。

GitHub: github.com/TingjiaInFu...

核心原理:为什么"看图"比"读字"更省 Token?

我们在写代码时,为了可读性会使用大量的缩进、换行和空格。在 Text Tokenizer 眼里,这些都是昂贵的 Token。

而在 Vision Model 眼里,代码的缩进、层级关系就是一张图上的几何结构。现代多模态模型的 Vision Encoder(如 ViT)通过 Patch 处理图像,对于稀疏的文本结构,压缩率极高。

实测数据说话:

我将一个约 2 万行的 Python Monorepo 分别以"纯文本"和"Pixrep PDF"的形式喂给 Google AI Studio (Gemini 3 Pro):

  • 纯文本文件组: 31,812 Tokens(上下文杂乱,包含大量重复的文件头信息)
  • Pixrep OnePDF: 19,041 Tokens(结构清晰,单文件)

立省 40%+ 的 Token! 且模型对代码结构的理解并未下降,反而因为有了视觉辅助(如颜色高亮),在定位变量作用域时更加精准。

Pixrep 的三大杀手级功能

1. OnePDF 模式 (The "All-in-One" Context)

bash 复制代码
pixrep onepdf .

工具会扫描整个仓库(自动识别 .gitignore),应用 ASCII 优化的 PDF 写入器,生成一个极小的 ONEPDF_CORE.pdf。这个文件是专门为 LLM 的"视觉皮层"设计的,剔除了所有不必要的装饰,只保留核心代码和目录树。

2. 语义微缩图 (Semantic Minimap)

给代码加"导航"。

Pixrep 内置了一个轻量级的 AST 分析引擎(基于 Python ast 库和正则)。在每个文件的 PDF 头部,它会自动绘制一张 UML 类图 / 调用关系图

这意味着 Claude 在阅读具体代码行之前,已经先看懂了:

  • 这个文件里有哪些类?
  • 继承关系是什么?
  • 核心函数调用了谁?

这极大地缓解了 LLM 在长上下文中"迷路"的问题。

3. Linter 热力图 (Visual Linter)

这是我觉得最 Cool 的功能。

Pixrep 会自动调用你环境中的 ruff (Python) 或 eslint (JS/TS)。如果某行代码有潜在 Bug 或不规范,Pixrep 会在 PDF 中该行背景上绘制红色或黄色的热力图

当模型"看"到这些颜色时,它会本能地注意到:"哦,这里有个 Bug 需要修复"。这比纯文本的 Linter 报错报告直观得多。

如何使用?

安装非常简单(支持 Python 3.10+):

bash 复制代码
pip install pixrep

场景一:我想把整个项目喂给 Claude 做 Code Review

bash 复制代码
# 生成一个优化过的单体 PDF
pixrep onepdf .

然后把生成的 ONEPDF_CORE.pdf 拖进 Claude 对话框即可。

场景二:我想生成一份精美的项目文档

bash 复制代码
# 生成目录索引和分文件的 PDF
pixrep generate .

你会得到一个 00_INDEX.pdf(包含项目树状图和统计)以及每个源文件的独立 PDF。

结语

多模态 LLM 的时代,代码不仅仅是文本,更是一种视觉结构

Pixrep 只是一个开始,它试图探索 "Visual RAG" 的可能性。如果你也受够了 Token 爆炸,或者想体验一下让 AI "看"代码的感觉,欢迎尝试 Pixrep。

项目地址: github.com/TingjiaInFu...

(觉得好用的话,求一个 Star ⭐️)

相关推荐
weiyvyy11 小时前
机器人嵌入式开发趋势-开源生态与标准化
人工智能·嵌入式硬件·机器人·开源·信息化
anyup_前端梦工厂11 小时前
开源半年,每月 8K+ 下载,uView Pro 让跨端应用开发提效 10 倍
前端·uni-app·开源
王家视频教程图书馆11 小时前
测试开源视频播放器在RN webview中的运行方式
开源·音视频
天空属于哈夫克311 小时前
OpenClaw 开发者进阶:如何通过 API 实现更稳定的企微自动化?
开源·自动化·企业微信
a11177611 小时前
Face 3D v1.1.4 插件资源
3d·开源
大雷神11 小时前
HarmonyOS APP<玩转React>开源教程二:ArkTS 语言基础
react.js·开源·harmonyos
冬奇Lab13 小时前
一天一个开源项目(第47篇):Cursor Chat Browser - 浏览和管理 Cursor AI 聊天历史的 Web 应用
人工智能·开源·资讯
IvorySQL16 小时前
PostgreSQL 技术日报 (3月11日)|4库合一性能提升350倍与内核新讨论
数据库·postgresql·开源
IvorySQL16 小时前
谁动了我的查询结果?PostgreSQL 联表加锁的隐藏陷阱
数据库·postgresql·开源