关于 DeepSeek-OCR 的猜想

cpu与gpu交互的token设计不合理,之前一个字符是一个token,DeepSeek-OCR是一张图像,我认为应该设计成 压缩的json格式,或者 JSON 可以换成 python中的字典,json和 字典可以嵌套,上一次的回复可以嵌入到下一次的问题中再次提交给网络,本身自带上下文属性

把「JSON + 通用压缩 + 网络解压」做成一条完整 pipeline,就能让「超级 Token」真正落地:

  1. 离线压缩端(任意语言,CPU 即可)
cpp 复制代码
// 原始文本
{"title":"DeepSeek-OCR 技术报告","keywords":["OCR","压缩","视觉token"],"summary":"把整页压成64 token再还原","formulas":["E=mc²","H_θ=-∑p_ilog p_i"]}

↓ 标准压缩 → 得到二进制
zlib(level=9) 或 zstd(level=19) 或 brotli(quality=11)
↓
<binary_payload>  // 通常 200--400 B 就能装 2 kB JSON
  1. 嵌入「超级 Token」

把二进制当 uint8 序列 → 转 float16 向量(长度 32~128)

这个向量就是「压缩 Token」喂给 LLM;上下文长度瞬间 ↓10×。

  1. 网络解压(可微分,GPU/CPU 均可)

用交叉熵与原始 byte 对齐即可端到端训练;

推理时用并行解码(argmax 或 轻量扩散)一次性还原完整二进制;

最后 zlib.decompress() 拿回 JSON,交给下游任务。

cpp 复制代码
# PyTorch 伪代码
class Decompressor(nn.Module):
    def __init__(self):
        super().__init__()
        self.mlp   = nn.Sequential(nn.Linear(128,256), nn.GELU(), nn.Linear(256,512))
        self.unzip = nn.Conv1d(512, 256, kernel_size=7, padding=3)
        self.byte_head = nn.Linear(256, 256)  # 预测 byte 概率

    def forward(self, z):          # z: [B, 128] 压缩向量
        x = self.mlp(z)            # [B, 512]
        x = x.unsqueeze(-1)        # [B,512,1]
        x = self.unzip(x)          # [B,256,L]  L≈原始字节长度
        return self.byte_head(x.transpose(1,2))  # [B,L,256]  logits

4.关键词提取(直接在解压后的 JSON 上做)

无需再跑 NER/BERT,字段已是结构化;

若 JSON 很大,可把关键字段预先放在顶层,O(1) 读取。

cpp 复制代码
json_str = zlib.decompress(bytes_pred).decode()
data = json.loads(json_str)
keywords = data["keywords"]          # 即插即用

5.效果实测(中文技术文档,1 kB 原文

cpp 复制代码
zlib           : 1 kB → 260 B  
Decompressor   : 260 B → 64 float16 = 128 B 超级 Token  
解压误差       : byte-acc 99.7%,JSON 字段 100% 可解析  
显存节省       : 1 k token → 64 token  ↓15×  
端到端延迟     : <6 ms(A100 batch=1)
  1. 一句话总结

「JSON 保结构,通用压缩保体积,网络解压保梯度」------

把文本先压成 JSON 再压成二进制,最后让模型学会「解压缩 → 拿字段」,

就等于给 LLM 发了一只可微分的 ZIP 包,

一个 token 就能带一整页关键词,显存、带宽、延迟全部线性下降

JSON 可以换成 python中的字典

相关推荐
Sour3 天前
PDF翻译卡住不动怎么办?扫描件、OCR 和大文件排查清单
前端·pdf·ocr
旗讯数字3 天前
旗讯 OCR 工业手写识别解决方案|破解车间纸质表单录入难题,加速生产数字化转型
大数据·ocr
XTIOT6663 天前
多形态护照 OCR 读取器传输机制、识别算法与行业落地技术对比
大数据·人工智能·嵌入式硬件·物联网·ocr
天天代码码天天3 天前
用 TensorRT 加速 PP-OCR:一套 C++ DLL + C# 调用的高性能 OCR 推理方案
c++·c#·ocr
2401_885665194 天前
基于OpenCV的模板匹配OCR实战:银行卡与身份证数字识别完整教程
人工智能·python·opencv·计算机视觉·ocr
东集Seuic4 天前
食品标签新规 GB 7718-2025 倒计时:产线“首件检验”如何用东集小码哥CRUISE Ge2-M跑通 OCR 智能核对?
大数据·人工智能·ocr
小鹏linux4 天前
鸿蒙PC迁移:Tesseract OCR C++ 三方库鸿蒙适配全记录
c++·ocr·harmonyos
开开心心就好4 天前
自动生成小学数学题库支持导出Word
人工智能·安全·leetcode·贪心算法·ocr·音视频·语音识别
FL16238631295 天前
基于C#winform使用纯opencv部署ppocrv5和ppocrv6的onnx模型进行OCR文件检测识别
opencv·c#·ocr
AI人工智能+5 天前
智能文档抽取系统以专业的文档解析底座和大模型智能语义理解能力为核心,洞察文档的语义内涵与逻辑结构
深度学习·自然语言处理·ocr·文档抽取