多模态文档处理新标杆：开源SmolDocling以256M参数精准识别文本、公式、图表

SmolDocling 是一种多模态图像文本到文本模型，旨在实现高效的文档转换。它保留了 Docling 最受欢迎的功能，同时通过对 DoclingDocuments 的无缝支持确保与 Docling 完全兼容。

该模型的特征：

1、用于高效标记化的 DocTags：引入 DocTags，这是一种与 DoclingDocuments 完全兼容的文档的高效且最小表示形式。

2、OCR （光学字符识别）：从图像中准确提取文本。

3、Layout and Localization （布局和本地化）：保留文档结构和文档元素边界框。

4、Code Recognition （代码识别）：检测代码块并设置其格式，包括标识。

5、Formula Recognition （公式识别）：识别和处理数学表达式。

6、Chart Recognition（图表识别）：提取和解释图表数据。

7、Table Recognition （表识别）：支持用于结构化表提取的列标题和行标题。

8、Figure Classification （图形分类）：区分图形和图形元素。

9、Caption Correspondence （字幕对应）：将字幕链接到相关图像和图形。

10、List Grouping （列表分组）：正确组织和构建列表元素。

11、Full-Page Conversion（整页转换）：处理整个页面以进行全面的文档转换，包括所有页面元素（代码、方程式、表格、图表等）。

12、OCR with Bounding Boxes（带边界框的 OCR ）：使用边界框的 OCR 区域。

13、General Document Processing（一般文档处理）：接受过科学和非科学文档的培训。

14、Seamless Docling Integration（无缝 Docling 集成）：导入 Docling 并以多种格式导出。

15、Fast inference using VLLM（使用 VLLM 进行快速推理）：在 A100 GPU 上平均每页 0.35 秒。

入门（代码示例）：

您可以使用 transformers 或 vllm 来执行推理，并使用 Docling 将结果转换为各种输出格式（md、html 等）：

使用 Tranformers 进行单页图像推理：

复制代码

# Prerequisites:
# pip install torch
# pip install docling_core
# pip install transformers

import torch
from docling_core.types.doc import DoclingDocument
from docling_core.types.doc.document import DocTagsDocument
from transformers import AutoProcessor, AutoModelForVision2Seq
from transformers.image_utils import load_image

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

# Load images
image = load_image("https://upload.wikimedia.org/wikipedia/commons/7/76/GazettedeFrance.jpg")

# Initialize processor and model
processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
model = AutoModelForVision2Seq.from_pretrained(
    "ds4sd/SmolDocling-256M-preview",
    torch_dtype=torch.bfloat16,
    _attn_implementation="flash_attention_2" if DEVICE == "cuda" else "eager",
).to(DEVICE)

# Create input messages
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "Convert this page to docling."}
        ]
    },
]

# Prepare inputs
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(text=prompt, images=[image], return_tensors="pt")
inputs = inputs.to(DEVICE)

# Generate outputs
generated_ids = model.generate(**inputs, max_new_tokens=8192)
prompt_length = inputs.input_ids.shape[1]
trimmed_generated_ids = generated_ids[:, prompt_length:]
doctags = processor.batch_decode(
    trimmed_generated_ids,
    skip_special_tokens=False,
)[0].lstrip()

# Populate document
doctags_doc = DocTagsDocument.from_doctags_and_image_pairs([doctags], [image])
print(doctags)
# create a docling document
doc = DoclingDocument(name="Document")
doc.load_from_doctags(doctags_doc)

# export as any format
# HTML
# doc.save_as_html(output_file)
# MD
print(doc.export_to_markdown())

使用 VLLM 进行快速批量推理：

复制代码

# Prerequisites:
# pip install vllm
# pip install docling_core
# place page images you want to convert into "img/" dir

import time
import os
from vllm import LLM, SamplingParams
from PIL import Image
from docling_core.types.doc import DoclingDocument
from docling_core.types.doc.document import DocTagsDocument

# Configuration
MODEL_PATH = "ds4sd/SmolDocling-256M-preview"
IMAGE_DIR = "img/"  # Place your page images here
OUTPUT_DIR = "out/"
PROMPT_TEXT = "Convert page to Docling."

# Ensure output directory exists
os.makedirs(OUTPUT_DIR, exist_ok=True)

# Initialize LLM
llm = LLM(model=MODEL_PATH, limit_mm_per_prompt={"image": 1})

sampling_params = SamplingParams(
    temperature=0.0,
    max_tokens=8192)

chat_template = f"<|im_start|>User:<image>{PROMPT_TEXT}<end_of_utterance>
Assistant:"

image_files = sorted([f for f in os.listdir(IMAGE_DIR) if f.lower().endswith((".png", ".jpg", ".jpeg"))])

start_time = time.time()
total_tokens = 0

for idx, img_file in enumerate(image_files, 1):
    img_path = os.path.join(IMAGE_DIR, img_file)
    image = Image.open(img_path).convert("RGB")

    llm_input = {"prompt": chat_template, "multi_modal_data": {"image": image}}
    output = llm.generate([llm_input], sampling_params=sampling_params)[0]
    
    doctags = output.outputs[0].text
    img_fn = os.path.splitext(img_file)[0]
    output_filename = img_fn + ".dt"
    output_path = os.path.join(OUTPUT_DIR, output_filename)

    with open(output_path, "w", encoding="utf-8") as f:
        f.write(doctags)

    # To convert to Docling Document, MD, HTML, etc.:
    doctags_doc = DocTagsDocument.from_doctags_and_image_pairs([doctags], [image])
    doc = DoclingDocument(name="Document")
    doc.load_from_doctags(doctags_doc)
    # export as any format
    # HTML
    # doc.save_as_html(output_file)
    # MD
    output_filename_md = img_fn + ".md"
    output_path_md = os.path.join(OUTPUT_DIR, output_filename_md)
    doc.save_as_markdown(output_path_md)

print(f"Total time: {time.time() - start_time:.2f} sec")

DocTags 文档标签：

DocTags 创建了一个清晰且结构化的标签和规则系统，用于将文本与文档的结构分开。通过减少混淆，这使得 Image-to-Sequence 模型的工作变得更容易。另一方面，直接转换为 HTML 或 Markdown 等格式可能会很混乱------它通常会丢失细节，不能清楚地显示文档的布局，并增加令牌的数量，从而降低处理效率。 DocTag 与 Docling 集成，允许导出为 HTML、Markdown 和 JSON。这些导出可以卸载到 CPU，从而减少令牌生成开销并提高效率。

Supported Instructions 支持的指令

**模型网址：**https://huggingface.co/ds4sd/SmolDocling-256M-preview