多模态文档处理新标杆:开源SmolDocling以256M参数精准识别文本、公式、图表

SmolDocling 是一种多模态图像文本到文本模型,旨在实现高效的文档转换。它保留了 Docling 最受欢迎的功能,同时通过对 DoclingDocuments 的无缝支持确保与 Docling 完全兼容。

该模型的特征:

1、用于高效标记化的 DocTags:引入 DocTags,这是一种与 DoclingDocuments 完全兼容的文档的高效且最小表示形式。

2、OCR (光学字符识别):从图像中准确提取文本。

3、Layout and Localization (布局和本地化):保留文档结构和文档元素边界框。

4、Code Recognition (代码识别):检测代码块并设置其格式,包括标识。

5、Formula Recognition (公式识别):识别和处理数学表达式。

6、Chart Recognition(图表识别):提取和解释图表数据。

7、Table Recognition (表识别):支持用于结构化表提取的列标题和行标题。

8、Figure Classification (图形分类):区分图形和图形元素。

9、Caption Correspondence (字幕对应):将字幕链接到相关图像和图形。

10、List Grouping (列表分组):正确组织和构建列表元素。

11、Full-Page Conversion(整页转换 ):处理整个页面以进行全面的文档转换,包括所有页面元素(代码、方程式、表格、图表等)。

12、OCR with Bounding Boxes(带边界框的 OCR ):使用边界框的 OCR 区域。

13、General Document Processing(一般文档处理):接受过科学和非科学文档的培训。

14、Seamless Docling Integration(无缝 Docling 集成):导入 Docling 并以多种格式导出。

15、Fast inference using VLLM(使用 VLLM 进行快速推理): 在 A100 GPU 上平均每页 0.35 秒。

入门 (代码示例):

您可以使用 transformers 或 vllm 来执行推理,并使用 Docling 将结果转换为各种输出格式(md、html 等):

使用 Tranformers 进行单页图像推理:

复制代码
# Prerequisites:
# pip install torch
# pip install docling_core
# pip install transformers

import torch
from docling_core.types.doc import DoclingDocument
from docling_core.types.doc.document import DocTagsDocument
from transformers import AutoProcessor, AutoModelForVision2Seq
from transformers.image_utils import load_image

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

# Load images
image = load_image("https://upload.wikimedia.org/wikipedia/commons/7/76/GazettedeFrance.jpg")

# Initialize processor and model
processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
model = AutoModelForVision2Seq.from_pretrained(
    "ds4sd/SmolDocling-256M-preview",
    torch_dtype=torch.bfloat16,
    _attn_implementation="flash_attention_2" if DEVICE == "cuda" else "eager",
).to(DEVICE)

# Create input messages
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "Convert this page to docling."}
        ]
    },
]

# Prepare inputs
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(text=prompt, images=[image], return_tensors="pt")
inputs = inputs.to(DEVICE)

# Generate outputs
generated_ids = model.generate(**inputs, max_new_tokens=8192)
prompt_length = inputs.input_ids.shape[1]
trimmed_generated_ids = generated_ids[:, prompt_length:]
doctags = processor.batch_decode(
    trimmed_generated_ids,
    skip_special_tokens=False,
)[0].lstrip()

# Populate document
doctags_doc = DocTagsDocument.from_doctags_and_image_pairs([doctags], [image])
print(doctags)
# create a docling document
doc = DoclingDocument(name="Document")
doc.load_from_doctags(doctags_doc)

# export as any format
# HTML
# doc.save_as_html(output_file)
# MD
print(doc.export_to_markdown())

使用 VLLM 进行快速批量推理:

复制代码
# Prerequisites:
# pip install vllm
# pip install docling_core
# place page images you want to convert into "img/" dir

import time
import os
from vllm import LLM, SamplingParams
from PIL import Image
from docling_core.types.doc import DoclingDocument
from docling_core.types.doc.document import DocTagsDocument

# Configuration
MODEL_PATH = "ds4sd/SmolDocling-256M-preview"
IMAGE_DIR = "img/"  # Place your page images here
OUTPUT_DIR = "out/"
PROMPT_TEXT = "Convert page to Docling."

# Ensure output directory exists
os.makedirs(OUTPUT_DIR, exist_ok=True)

# Initialize LLM
llm = LLM(model=MODEL_PATH, limit_mm_per_prompt={"image": 1})

sampling_params = SamplingParams(
    temperature=0.0,
    max_tokens=8192)

chat_template = f"<|im_start|>User:<image>{PROMPT_TEXT}<end_of_utterance>
Assistant:"

image_files = sorted([f for f in os.listdir(IMAGE_DIR) if f.lower().endswith((".png", ".jpg", ".jpeg"))])

start_time = time.time()
total_tokens = 0

for idx, img_file in enumerate(image_files, 1):
    img_path = os.path.join(IMAGE_DIR, img_file)
    image = Image.open(img_path).convert("RGB")

    llm_input = {"prompt": chat_template, "multi_modal_data": {"image": image}}
    output = llm.generate([llm_input], sampling_params=sampling_params)[0]
    
    doctags = output.outputs[0].text
    img_fn = os.path.splitext(img_file)[0]
    output_filename = img_fn + ".dt"
    output_path = os.path.join(OUTPUT_DIR, output_filename)

    with open(output_path, "w", encoding="utf-8") as f:
        f.write(doctags)

    # To convert to Docling Document, MD, HTML, etc.:
    doctags_doc = DocTagsDocument.from_doctags_and_image_pairs([doctags], [image])
    doc = DoclingDocument(name="Document")
    doc.load_from_doctags(doctags_doc)
    # export as any format
    # HTML
    # doc.save_as_html(output_file)
    # MD
    output_filename_md = img_fn + ".md"
    output_path_md = os.path.join(OUTPUT_DIR, output_filename_md)
    doc.save_as_markdown(output_path_md)

print(f"Total time: {time.time() - start_time:.2f} sec")

DocTags 文档标签:

DocTags 创建了一个清晰且结构化的标签和规则系统,用于将文本与文档的结构分开。通过减少混淆,这使得 Image-to-Sequence 模型的工作变得更容易。另一方面,直接转换为 HTML 或 Markdown 等格式可能会很混乱------它通常会丢失细节,不能清楚地显示文档的布局,并增加令牌的数量,从而降低处理效率。 DocTag 与 Docling 集成,允许导出为 HTML、Markdown 和 JSON。这些导出可以卸载到 CPU,从而减少令牌生成开销并提高效率。

Supported Instructions 支持的指令

**模型网址:**https://huggingface.co/ds4sd/SmolDocling-256M-preview

相关推荐
apocalypsx17 分钟前
深度学习-深度卷积神经网络AlexNet
人工智能·深度学习·cnn
leafff12333 分钟前
一文了解LLM应用架构:从Prompt到Multi-Agent
人工智能·架构·prompt
无风听海1 小时前
神经网络之特征值与特征向量
人工智能·深度学习·神经网络
艾莉丝努力练剑1 小时前
【C++:红黑树】深入理解红黑树的平衡之道:从原理、变色、旋转到完整实现代码
大数据·开发语言·c++·人工智能·红黑树
九章云极AladdinEdu1 小时前
论文分享 | BARD-GS:基于高斯泼溅的模糊感知动态场景重建
人工智能·新视角合成·动态场景重建·运动模糊处理·3d高斯泼溅·模糊感知建模·真实世界数据集
希露菲叶特格雷拉特1 小时前
PyTorch深度学习笔记(二十)(模型验证测试)
人工智能·pytorch·笔记
NewsMash1 小时前
PyTorch之父发离职长文,告别Meta
人工智能·pytorch·python
IT_陈寒1 小时前
Python 3.12新特性实测:10个让你的代码提速30%的隐藏技巧 🚀
前端·人工智能·后端
Ztop2 小时前
GPT-5.1 已确认!OpenAI下一步推理升级?对决 Gemini 3 在即
人工智能·gpt·chatgpt
qq_436962182 小时前
奥威BI:打破数据分析的桎梏,让决策更自由
人工智能·数据挖掘·数据分析