ST-Raptor:无需微调,准确率超越 GPT-4o 的半结构化表格问答新范式

在文档智能、财务审核、报表自动化、医疗质控、法律合规等实际业务场景中,半结构化表格 (如 Excel 报表、网页表格、Markdown 表格、CSV 文件等)无处不在。然而,这些表格往往具有嵌套单元格、多级表头、不规则布局等复杂结构,传统基于规则或微调模型的方法难以准确理解与问答。

近期,上海交通大学等机构开源了 ST-Raptor (Semi-Structured Table Raptor)------一个无需微调、准确率超越 GPT-4o 的半结构化表格问答系统。在自建的 SSTQA 基准测试 (含 102 张真实表格、764 个复杂问题)上,ST-Raptor 以 72.39% 的准确率和 52.19 的 ROUGE-L 分数,显著优于包括 GPT-4o、DeepSeek-V3、TableLLaMA、ReAcTable 等在内的主流方法。

为什么半结构化表格问答如此困难?

与规整的数据库表不同,半结构化表格通常具备以下挑战:

  • 多级表头:如"2024年 → 收入 → 主营业务收入"
  • 合并单元格:一个单元格横跨多行或多列
  • 非对齐内容:行列信息错位、注释混排
  • 语义依赖上下文:单元格含义依赖其在表格中的位置和层级

这些特性使得传统 NL2SQL 或纯文本抽取方法失效,而端到端微调模型又受限于标注成本高、泛化能力弱。


ST-Raptor 的核心技术架构

ST-Raptor 的核心思想是:将视觉感知、结构解析与语言推理三者融合,形成一个无需微调但高度鲁棒的问答流水线。整体流程分为三步:

1. 视觉语言模型(VLM)识别原始表格

ST-Raptor 首先将输入的 Excel/HTML/Markdown 表格渲染为图像,利用 InternVL2.5 等 VLM 模型识别每个单元格的内容及其空间位置。这一步解决了 OCR 误差、格式丢失等问题,保留了原始布局语义。

2. HO-Tree 算法构建层次化结构树

基于 VLM 输出的单元格坐标与文本,ST-Raptor 引入自研的 HO-Tree (Hierarchical Organization Tree)算法,将表格自动抽象为一棵层次化语义树

  • 树的节点对应逻辑区块(如"预算绩效目标表")
  • 子节点表示子表头或数据行
  • 路径编码了行列的层级依赖关系

这种结构化表示使得后续推理能精准定位问题所涉区域,避免"答非所问"。

3. LLM 在树结构上进行推理问答

最后,系统将问题与 HO-Tree 结合,通过大语言模型(如 DeepSeek-V3 或 GPT-4o API)在结构化上下文 中进行推理。为确保可靠性,ST-Raptor 还引入两阶段验证机制

  • 语义一致性校验:答案是否与表格内容逻辑一致
  • 结构定位校验:答案是否来自正确树节点

性能表现:全面超越现有方法

在 SSTQA、WikiTQ-ST、TempTabQA-ST 三个基准上,ST-Raptor 均取得 SOTA 结果:

方法 SSTQA 准确率 ROUGE-L
GPT-4o 62.12% 43.86
DeepSeek-V3 62.16% 46.17
ST-Raptor 72.39% 52.19

示例问题:"2024年市级部门整体预算绩效目标表中,就业服务满意度指标的目标值是多少?"

正确答案:≧90%

多数基线模型回答错误(如"75.0"、"≧95%"),而 ST-Raptor 精准命中。


快速上手

ST-Raptor 支持本地部署或 API 调用,提供 Gradio 可视化界面:

复制代码
git clone https://github.com/weAIDB/ST-Raptor.git
cd ST-Raptor
conda create -n straptor python=3.10
conda activate straptor
pip install -r requirements.txt
# 配置模型路径与 API 密钥(见 utils/constants.py)
python main.py  # 批量推理
python gradio_app.py  # 启动 Web Demo

支持输入格式:Excel、HTML、CSV、Markdown 等,输出为结构化问答对。


适用场景

  • 财务审核:自动提取预算表、报销单中的关键指标
  • 医疗质控:从病历模板、检查报告中问答合规项
  • 法律合规:解析合同附件、监管表格中的义务条款
  • 学术研究:问答论文中的实验结果表、统计汇总表
  • 企业报表自动化:HR、销售、仓储等半结构化数据问答

结语

ST-Raptor 通过"视觉理解 + 结构化解析 + 语言推理 "的三段式架构,为半结构化表格问答提供了一种无需微调、高精度、强泛化的新范式。其开源不仅推动了表格理解技术的发展,也为工业界落地复杂文档智能提供了实用工具。

项目已开源,欢迎 Star & 试用:

🔗 https://github.com/weAIDB/ST-Raptor\\ 📄 论文(待发表于 ACM SIGMOD 2026):ST-Raptor: LLM-Powered Semi-Structured Table Question Answering


如需进一步集成到企业系统,项目团队也提供了 API 接口与轻量化部署方案。对于 GPU 资源有限的用户,亦可灵活替换为云端 LLM/VLM 服务。

github:https://github.com/weAIDB/ST-Raptor

相关推荐
红茶川2 分钟前
[论文阅读] π0: A Vision-Language-Action Flow Model for General Robot Control
论文阅读·ai·具身智能·vla
ComPDFKit4 分钟前
OpenClaw安全风险与规避方法 — 安全“养虾”全套办法
安全·ai
Flittly5 分钟前
【从零手写 ClaudeCode:learn-claude-code 项目实战笔记】(10)Team Protocols (团队协议)
笔记·python·ai·ai编程
智算菩萨12 分钟前
【How Far Are We From AGI】4 AGI的“生理系统“——从算法架构到算力基座的工程革命
论文阅读·人工智能·深度学习·算法·ai·架构·agi
紫丁香16 分钟前
Dify源码深度剖析3
后端·python·ai·flask·fastapi
supersolon26 分钟前
OpenClaw安装碰到的一些问题和解决方法
linux·运维·ai·openclaw·龙虾
啊阿狸不会拉杆34 分钟前
《现代人工智能基础》个人解读分享
人工智能·ai·llm·aigc·agent·ml·dl
iMingzhen40 分钟前
不想引入 Redis,我用一张 SQLite 表实现了消息队列
数据库·redis·ai·sqlite
前端摸鱼匠1 小时前
面试题2:Transformer的Encoder、Decoder结构分别包含哪些核心组件?
人工智能·深度学习·ai·面试·职场和发展·transformer
腾视科技TENSORTEC1 小时前
安全驾驶 智在掌控|腾视科技ES06终端,为车辆运营赋能
大数据·人工智能·科技·安全·ai·车载系统·车载监控