InfiniSynapse: 把PDF里的表格和Excel/业务数据联合分析

InfiniSynapse 可以把藏匿在文档中的小二维表格和实际的业务结构化数据做联合分析,实现了一种真正意义的"数据挖掘",极大的扩大了数据的提取质量。

前言

数据分析其实大概是两种大的类型。 一个是文档,我们简称 docs,文档里面可能还有少量表格。比如某个公司的财务报告的PDF里就有很多二维表格数据。所以非结构化数据往往蕴含了大量的结构化数据。

第二类就是结构化数据,我们简称为data. 也就是大家常见的 Excel数据,业务数据库、数仓里的数据。

或者这样的:

Data 数据里其实也有大量非结构化数据,比如某个某个字段其实是一个大文本字段。

InfiniSynapse 对两类数据分别做了映射,docs 数据映射到知识库,data 类的数据放在数据源。

如前所述,在实际场景里,我们可能希望从知识库获取一个小的二维表格,然后和数据集里的实际数据做关联分析。 InfiniSynapse 支持这种融汇贯通。我们一个一个来。

知识库里的表格数据单独使用

先创建个知识库:

然后上传PDF文档:

文档里有这样的表格:

现在,可以直接在问了:

系统就会从知识库获取信息,注册成表,然后做计算:

注意,这里我们的是通过SQL做计算的,而不是AI自己做的计算,所以准确度有保障,绕过AI不太会做计算的问题。

把PDF里的表格和Excel/业务数据联合分析

现在就到了今天的重点,我如何把 PDF 里的表格和csv里的数据做关联分析呢?创建数据源:

然后 RAG 关联那,选择我们前面建的知识库。接着上传数据:

在智能问答页面添加数据源:

然后询问问题。这里,我们希望把知识库里的月度数据和csv里的数据做一个对比验证。最后执行结果如下:

在这里,InfiniSynapse 汇报知识库里的小表格注册成一张表:

然后和csv的数据集做关联分析。

总结

InfiniSynapse 可以把藏匿在文档中的小二维表格和实际的业务结构化数据做联合分析,实现了一种真正意义的"数据挖掘",极大的扩大了数据的提取质量。

想查看文章的最新版本,可以点击原文链接。

相关推荐
Muyuan19981 分钟前
27.RAG 系统中的上下文充分性判断:从 Chunk 数量、FAISS 距离到 LLM Relevance Gate
python·django·pdf·fastapi·faiss
JoshRen2 小时前
2026教程:上传Excel,用Gemini 3镜像站多模态一键生成问卷分析图表代码与结论(附国内免费方案)
excel
开开心心就好6 小时前
近200个工具的电脑故障修复合集
安全·智能手机·pdf·电脑·consul·memcache·1024程序员节
其实秋天的枫6 小时前
2026年初中英语大纲词汇表1600词
经验分享·pdf
开开心心_Every7 小时前
轻量级PDF阅读器,仅几M大小打开秒开
linux·运维·服务器·安全·macos·pdf·phpstorm
福大大架构师每日一题8 小时前
ragflow v0.25.1 最新版发布:API 统一、PDF 解析性能大幅优化、连接器删除同步全面增强,更新要点一次看懂
pdf·ragflow
实战编程1 天前
Temu 插件导出 Excel 图片问题总结(SheetJS / ExcelJS)
excel
Data-Miner1 天前
用DeepSeek V4做表:数以轻舟Agent让做Excel表像聊天一样简单
microsoft·excel
cosinmz1 天前
图片太多太乱怎么整理?分享一个我最近常用的图片转 PDF方法
经验分享·小程序·pdf
其实秋天的枫2 天前
2026年新高考英语大纲词汇表3500个电子版PDF(含正序版、乱序版和默写版)
经验分享·pdf