Chandra OCR多格式输出详解：同页同步生成Markdown/HTML/JSON三版本

1. 为什么你需要一个"懂排版"的OCR

你有没有遇到过这样的场景：

扫描一份带表格的财务报告，用传统OCR导出后，表格全乱成一坨文字，还得手动一行行对齐；
拍下一页手写的数学笔记，公式变成乱码，上下标全丢，更别提积分符号和矩阵了；
处理PDF合同，标题、段落层级、复选框、页眉页脚统统消失，最后只剩"纯文本"------可你真正需要的是能直接放进知识库、支持搜索、保留结构的文档。

Chandra 就是为解决这些"排版失真"痛点而生的。它不是把图片当文字流来识别，而是像人一样"看懂页面"：哪是标题、哪是正文、哪是两栏布局、哪是嵌套表格、哪是手写批注、哪是LaTeX公式------然后原样还原成结构化输出。

一句话说透它的不同：别的OCR在"读字"，Chandra在"读版面"。

它不开玩笑地做到了一件事：同一张图、同一页PDF，一次推理，同时吐出三个完全等价但用途各异的版本------Markdown（适合知识库与编辑）、HTML（适合网页嵌入与展示）、JSON（适合程序解析与RAG切片）。这不是三种格式的简单转换，而是底层结构的一致性表达。

下面我们就从安装、实操到效果拆解，带你完整走通这条"所见即所得"的OCR新路径。

2. 本地快速上手：vLLM加持下的开箱即用体验

Chandra 提供两种推理后端：HuggingFace Transformers（轻量、易调试）和 vLLM（高性能、低延迟）。如果你手头有RTX 3060或更高显卡，强烈建议直接上vLLM------它让OCR从"等几秒"变成"几乎无感"。

2.1 环境准备：4GB显存起步，不挑硬件

Chandra 对硬件极其友好。官方明确标注：最低仅需4GB显存即可运行完整模型。这意味着：

RTX 3060（12GB）、RTX 4070（12GB）、甚至A10G（24GB）都能轻松驾驭；
不需要A100/H100，也不需要多卡互联------单卡足矣；
CPU模式虽支持，但速度慢10倍以上，仅作验证用，不推荐生产。

我们以Ubuntu 22.04 + RTX 3060为例，演示最简部署流程：

bash 复制代码

# 创建干净环境（推荐）
conda create -n chandra python=3.10
conda activate chandra

# 安装vLLM（注意CUDA版本匹配，此处以12.1为例）
pip install vllm==0.6.3.post1 --extra-index-url https://download.pytorch.org/whl/cu121

# 安装chandra核心包（含CLI、Streamlit界面、Docker支持）
pip install chandra-ocr==0.2.1

# 验证安装
chandra-ocr --version
# 输出：chandra-ocr 0.2.1

注意：vLLM安装必须与系统CUDA版本严格匹配。若报错CUDA version mismatch，请先运行nvcc --version确认CUDA版本，再前往vLLM官网查对应wheel链接安装。

2.2 一键启动Streamlit交互界面

安装完成后，无需写任何代码，直接运行：

bash 复制代码

chandra-ocr serve

终端会输出类似：

复制代码

INFO:     Uvicorn running on http://127.0.0.1:8000
INFO:     Application startup complete.

打开浏览器访问 http://127.0.0.1:8000，你将看到一个极简却功能完整的Web界面：拖入图片或PDF，选择输出格式偏好（默认三格式全开），点击"Run"，1秒左右即可看到结果预览与下载按钮。

这个界面背后，是vLLM引擎在实时调度GPU资源------它自动启用PagedAttention内存管理，支持batch推理，单页平均耗时稳定在0.9--1.2秒（实测RTX 3060，输入A4扫描件，8k token上下文）。

2.3 CLI批量处理：三行命令搞定整个文件夹

对于日常办公，你更常需要的是"扔进去，自动出结果"。Chandra 的CLI正是为此设计：

bash 复制代码

# 将当前目录下所有PDF和图片，转为三格式，保存至./output/
chandra-ocr batch ./input/ --output-dir ./output/ --formats md html json

# 支持指定GPU（如只用第0卡）
CUDA_VISIBLE_DEVICES=0 chandra-ocr batch ./scans/ --output-dir ./mds/ --formats md

# 输出结构清晰：每份输入文件生成同名的 .md / .html / .json 三文件
# ./output/report.pdf.md
# ./output/report.pdf.html
# ./output/report.pdf.json

没有配置文件，没有YAML，没有参数调优------只有路径、格式、目标目录。这就是真正的"开箱即用"。

3. 同页三输出：结构一致性如何实现？

这是Chandra最硬核也最实用的特性：不是分别生成三份，而是一次推理，统一结构，三路导出。我们用一张真实扫描试卷截图来说明它到底"聪明"在哪。

3.1 输入样本：一页含公式的物理试卷（带手写批注）

我们选取一页典型试卷：左侧是印刷体题目（含矢量公式），右侧是学生手写解答，中间穿插一个2×3表格记录实验数据，页眉有学校Logo，页脚有页码。传统OCR面对这种混合内容，通常会：

公式识别失败，输出E = mc^2变成E = mc2；
表格被拉成6行长文本；
手写部分被跳过或误判为噪声；
Logo和页码混入正文。

而Chandra的处理结果，我们分三格式来看其一致性：

3.2 Markdown输出：知识库友好，所见即所得

markdown 复制代码

# 物理期中试卷（2025春）

## 一、选择题（每题3分，共15分）

1. 下列说法正确的是：  
   A. 光速在真空中恒定  
   B. 光速在水中大于空气中  
   C. ...  

---

## 二、计算题（共25分）

### 2.1 实验数据表

| 时间 t/s | 位移 s/m | 速度 v/(m·s⁻¹) |
|----------|----------|----------------|
| 0.0      | 0.0      | 0.0            |
| 0.5      | 1.2      | 2.4            |
| 1.0      | 4.8      | 9.6            |

> **学生手写批注**：第3行v值应为9.2，因加速度计算有误。

---

## 三、推导题（10分）

根据牛顿第二定律：  
$$ F = ma $$  
结合运动学公式：  
$$ v = v_0 + at $$  
可得位移表达式：  
$$ s = v_0t + \frac{1}{2}at^2 $$

*------页眉：XX中学教务处 · 2025年4月*  
*------页脚：第1页，共3页*

关键点：

标题层级（# ## ###）严格对应原文视觉层级；
表格保持原列数与对齐，LaTeX公式完整保留；
手写批注用>引用块单独标记，不混入正文；
页眉页脚作为注释（*...*）附在文末，不破坏主干结构。

3.3 HTML输出：开箱即用的网页嵌入能力

Chandra生成的HTML不是简单<p><b>...</b></p>堆砌，而是语义化结构：

html 复制代码

<article class="chandra-doc">
  <header>
    <h1>物理期中试卷（2025春）</h1>
  </header>
  <section class="chandra-section" data-level="2">
    <h2>一、选择题（每题3分，共15分）</h2>
    <ol class="chandra-list">
      <li>下列说法正确的是：<br>A. 光速在真空中恒定<br>B. 光速在水中大于空气中<br>C. ...</li>
    </ol>
  </section>
  <section class="chandra-section" data-level="2">
    <h2>二、计算题（共25分）</h2>
    <section class="chandra-section" data-level="3">
      <h3>2.1 实验数据表</h3>
      <table class="chandra-table">
        <thead>...</thead>
        <tbody>...</tbody>
      </table>
      <aside class="chandra-annotation">
        <p><strong>学生手写批注</strong>：第3行v值应为9.2，因加速度计算有误。</p>
      </aside>
    </section>
  </section>
  <footer class="chandra-footer">
    <p><em>页眉：XX中学教务处 · 2025年4月</em></p>
    <p><em>页脚：第1页，共3页</em></p>
  </footer>
</article>

关键点：

使用<article>+<section>+<aside>等语义化标签，而非<div>泛滥；
data-level属性精确记录标题深度，方便前端动态渲染大纲；
表格、公式、批注均有独立class，CSS可针对性美化；
页眉页脚置于<footer>，逻辑清晰，利于SEO与无障碍访问。

3.4 JSON输出：为RAG与自动化而生的结构化底座

这才是Chandra真正面向工程落地的核心价值。JSON不是"为了有而有"，而是每一项都可被程序精准消费：

json 复制代码

{
  "metadata": {
    "source": "exam_page1.png",
    "page_number": 1,
    "detected_language": "zh",
    "processing_time_ms": 1120
  },
  "blocks": [
    {
      "type": "heading",
      "level": 1,
      "text": "物理期中试卷（2025春）",
      "bbox": [42.3, 38.1, 520.7, 72.5]
    },
    {
      "type": "heading",
      "level": 2,
      "text": "一、选择题（每题3分，共15分）",
      "bbox": [42.3, 95.2, 380.1, 125.6]
    },
    {
      "type": "list",
      "items": [
        {
          "text": "下列说法正确的是：\nA. 光速在真空中恒定\nB. 光速在水中大于空气中\nC. ...",
          "bbox": [65.2, 132.4, 498.7, 210.1]
        }
      ]
    },
    {
      "type": "table",
      "headers": ["时间 t/s", "位移 s/m", "速度 v/(m·s⁻¹)"],
      "rows": [
        ["0.0", "0.0", "0.0"],
        ["0.5", "1.2", "2.4"],
        ["1.0", "4.8", "9.6"]
      ],
      "bbox": [65.2, 220.3, 498.7, 340.8]
    },
    {
      "type": "annotation",
      "text": "第3行v值应为9.2，因加速度计算有误。",
      "bbox": [320.5, 345.2, 498.7, 370.1],
      "source": "handwritten"
    }
  ]
}

关键点：

bbox字段提供像素级坐标（左上x,y → 右下x,y），可用于高亮定位、区域重处理；
type字段明确区分heading/list/table/annotation/formula等12类元素；
source: "handwritten"自动标记手写内容，便于后续NLP模块单独处理；
metadata包含处理耗时、语言、页码，为流水线监控提供基础指标。

这意味着：你可以用3行Python代码，把整份试卷的表格提取出来喂给Pandas，或把所有公式抽出来做Latex校验，或把批注块单独送进情感分析模型------全部基于同一份原始结构，零歧义、零重复解析。

4. 实战效果对比：Chandra vs 传统OCR的真实差距

光说不练假把式。我们用同一份扫描件（A4纸，300dpi，含表格+公式+手写），对比Chandra与两个主流方案：Tesseract 5.3（开源标杆）和Adobe Acrobat DC（商业付费）。

维度	Chandra	Tesseract 5.3	Adobe Acrobat DC
表格还原	完整2×3结构，行列对齐，数字无错	❌ 拉成6行文本，列宽丢失，小数点错位	基本结构保留，但合并单元格识别失败
LaTeX公式	$F = ma$ $s = v_0t + \\frac{1}{2}at^2$ 完整可编译	❌ `F = ma` `s = v0t + 1/2at2`，上下标全丢	识别为图片，无法复制为文本
手写批注	单独标记为`annotation`类型，文本可提取	❌ 被当作噪声过滤或混入正文	可识别，但无结构标记，无法与正文分离
标题层级	`#` `##` `###` 严格对应视觉层级	❌ 全部扁平为段落，需人工加标题	有标题检测，但二级以下常误判
处理速度（RTX 3060）	1.1 s/页	0.8 s/页（CPU）	2.3 s/页（GPU加速）
输出格式	Markdown/HTML/JSON 同步生成	❌ 仅纯文本（需额外工具转）	PDF/Word为主，Markdown需插件

更关键的是错误模式差异：

Tesseract 错在"漏"------手写、公式、小字号常直接跳过；
Acrobat 错在"糊"------把表格线当文字、把页眉当正文、把公式当图片；
Chandra 错在"细"------比如将手写"√"误判为"✓"，但绝不丢失结构、绝不混淆类型、绝不破坏布局。

这正是"布局感知"OCR的本质：它不追求单字最高准确率，而追求页面语义的全局保真。

5. 适用场景与使用建议：什么情况下该选Chandra？

Chandra不是万能OCR，但它在特定场景下几乎是目前最优解。我们用真实业务需求来划界：

5.1 强烈推荐使用的场景

法律/金融文档数字化：合同、财报、招股书中的复杂表格、条款编号、手写签署栏，Chandra能原样保留结构，直接导入知识库做RAG问答；
教育资料处理：试卷、讲义、习题集，尤其含大量公式与手写批注的场景，Markdown输出可直接用于Notion或Obsidian构建学习笔记；
科研论文整理 ：PDF论文中的图表标题、参考文献列表、公式编号，JSON的bbox+type字段让自动化提取引用关系成为可能；
政务材料归档 ：红头文件、审批表单、盖章页，Chandra能识别复选框状态（✓/☐）、印章位置（通过annotation+bbox），为后续流程自动化铺路。

5.2 当前需谨慎评估的场景

超长文档（>100页）连续处理：vLLM虽快，但单次加载仍需显存，建议分批处理；
极端低质扫描（模糊/倾斜>15°/严重阴影）：Chandra依赖视觉特征，预处理（如OpenCV去阴影、矫正）仍有必要；
纯手写信件（无印刷体锚点）：对连笔草书识别率约75%，优于通用OCR但未达专业手写识别模型水平；
多语言混排密集文本（如中日韩+阿拉伯数字+数学符号） ：支持40+语，但混合密度极高时，个别字符偶有错位，建议开启--verbose查看置信度。

5.3 一条实用建议：用好"三输出"的分工协作

别把三格式当成冗余备份，它们是天然的工作流分工：

Markdown → 交给人：编辑、校对、写摘要、导入笔记软件；
HTML → 交给网页：嵌入内部Wiki、生成可交互报告、做前端预览；
JSON → 交给机器：切片进向量库、提取表格喂Pandas、定位公式做Latex校验、分析批注情感倾向。

你只需要一次chandra-ocr batch，就同时获得了"人机协同"的完整原料。

6. 总结：OCR的下一阶段，是"理解页面"而非"识别文字"

Chandra 的出现，标志着OCR正从"字符识别"时代迈入"页面理解"时代。它不靠堆算力刷分，而是用ViT-Encoder+Decoder架构，把整页图像当作一个视觉序列来建模------标题、段落、表格、公式、手写，都是这个序列里的token，各自携带位置、类型、层级信息。

它的83.1分olmOCR综合得分，不是来自某个单项的极致突破，而是八项任务（老扫描、表格、手写、小字、公式等）的均衡领先。这种均衡，恰恰是真实办公场景最需要的：你不会只处理表格，也不会只处理公式，你要处理的是一页"活"的文档。

而同页同步输出Markdown/HTML/JSON，不是炫技，是把结构化能力真正交到开发者和使用者手中------

Markdown让你立刻可用，
HTML让你即刻可展，
JSON让你随时可编。

如果你正被扫描件、PDF、手写笔记困住，厌倦了复制粘贴、手动对齐、反复校验，那么Chandra值得你花10分钟装上，拖入一页试试。那1秒后的三份输出，可能会改变你处理文档的方式。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。