
相关词
- 数据分析
- 多模态
- 大模型
- agent
- openai
- deepseek
前言
不管是学生还是科研人员还是职场人士,处理和分析文件已成为当今时代的日常。面对堆积如山的 txt、pdf、word 等各类文档,如何高效提取关键信息?今天,笔者尝试了市面上 5 款顶尖 AI 工具,分别测试文件识别以及数据分析能力, 感兴趣的话欢迎阅读~
参赛选手
- DeepSeek: 美股杀手,国产 AI 新锐,包含 V3 和 R1 两个版本
- 豆包: 字节跳动旗下 AI 产品,提供多种分析模式
- Gemini Pro: 谷歌推出的高性能 AI,2.5 Pro 版本表现突出
- Grok 3: 埃隆·马斯克旗下 xAI 开发的 AI 系统
- Claude Pro: 以强大编码能力著称的 Anthropic 旗舰模型
比赛环境与方法
-
数据类型: 两份 txt 文件,一份是 67Kb 的视频信息汇总文件,一份是 4kb 的字幕文件。
-
数据内容: 两份数据都是小电视站的视频文本版, 包含视频基础信息、视频描述、视频评论、视频弹幕、视频字幕等。
-
操作步骤: 单次对话中同时发送提示词和视频汇总文件。
-
测评规则: 在最少时间内输出最多有效信息。
-
测试机配置: 大约 100 兆网络。
-
提示词: 同样一份提示词,要求按指定步骤来分析最后进行汇总 。
评分规则
- 响应速度: 从提交请求到完成输出的时间
- 成本效益: 免费/付费模式下的性价比
- 内容准确度: 信息提取的精确程度
- 指令遵循: 对提示词要求的执行情况
- 可视化呈现: 分析结果的表现形式
比赛实录
71kb 文件数据分析
解析视频为: 《4 个可以让你性张力拉满的肢体语言,同样的话,不同的肢体语言,感觉会完全不同》

1.Deepseek
首先上场的是曾经的美股杀手,国产之光。

👆 V3

👆 R1
可以看到在 相同提示词情况下,V3 输出较为普通,并且有崩图的现象,而 R1 因为是推理模型,会自己给自己加戏,并且这几天有了一次优化更新, 所以输出的内容看起来更广,看起来也更舒服。
综合评分:★★★★☆(4.5/5)
R1 思考时间不到一分钟,总输出时间在 两分钟内,文件内容读取准确,步骤一到步骤五都按要求生成了,可视化方面也聪明的使用了 markdown 来显示,已经超出笔者预料了,并且生态好、中文语料多、免费镜像站多、使用成本低。
豆包
豆包官方写着有三个模式,常规模式,深度思考模式,同时还提供了一个数据分析模式,由于篇幅问题,笔者这次只放深度思考模式和数据分析模式的(常规模式效果不咋地)。

👆开了深度思考

👆数据分析模式
综合评分:★★☆(2.5/5)
勉勉强强,数据分析模式还没深度思考模式输出的好,试了几次都有图裂的问题,可视化做得一般般,对比上面的 deepseek 差点意思。
Gemini
由于 Gemini 2.5 Flash 表现太差,单次输出内容太少了,这里只放 2.5 Pro 的对话,同时因为笔者领了会员,所以测的是付费版本,在算力方面比其他选手有先天优势。

👆Gemini 2.5 Pro


👆Gemini 2.5 Pro 深度研究模式
实在是恐怖,我们的Gemini2.5 Pro 选手开了深度研究模式后,直接生成了一份 41 页 6000Kb+ 的报告 ,虽然上面常规 Gemini2.5 Pro 已经不错了,但这样一对比,简直被吊打,笔者猜测单从内容方面看,将会吊打本次所有参赛选手,不过生成耗费的时间也是最高的,已经有 12 分钟以上了,比视频时长还长。
比较适合科研党使用,对生成报告感兴趣的,可以点击下面链接自行查看无密码 👇
综合评分:★★★☆(3.5/5)
虽然深度研究很猛,但对于笔者来说日常用不上这种重量级功能,并且此次使用的是付费版本,按厂商惯例,免费版性能起码减低 30% 或进行限流,所以使用成本可能偏高,要是性能没差别,可以恢复到 4★。
Grok
算是冷门点的平台,然后笔者没有开 grok 的会员,所以本次测试只测了免费版。

👆常规模式

👆深度思考模式
可能是没付费的原因,笔者感觉 grok 这 agent 深度思考一通后,效果还没常规模式好,并且因为长推理导致了一定程度的提示词忽视,连图表都没生成,但常规模式的生成非常全面。
综合评分:★★★★☆(4.5/5)
常规模式很不错,生成时间很快,并且能同时保持质量,可视化做得也可以,多模态做得很 ok,然后该有的功能都有,免费版性能非常够用,整体体验还算满意。
Claude Pro
作为目前最强的代码模型,我们来看看做数据分析又是什么水平。(此为付费版本)

👆 Claude Opu4

👆Claude Opu4 深度思考
不出意料,先不论分析出来的内容准不准确,起码可视化方面吊打其他选手,但就日常分析使用来说,笔者在做视频分析时更倾向于速览文本加一小部分图表。
综合评分:★★★(3/5)
数据读的不是很准,免费版文件体积限制太严重,几十 kb 的文件传过去都显示超出,并且没有深度思考,开 Pro 后水平回归,要分析的步骤也没漏,可视化是顶级水平,但文件体积问题依然存在。
总结
在样本量较小的情况下,并不能很公平的测试AI的能力,然后笔者还尝试过1500kb、4000kb的文件识别,豆包、deepseek、Claude等直接识别不了。
笔者推荐日常视频的分析把 deepseek 和 grok 常规模式组合使用, 前者中文语料充足,R1 在识别小规模数据时很少出错;后者文件识别很可以,支持上传的文件体积非常大,能做数据量更大的分析,同时默认支持网络搜索功能。
科研首选 Gemini pro,首月免费,学生免年费, 超长上下文处理能力、学术规范输出格式、深度文献分析能力等都很突出,但不要用 2.5 flash 模型,性能惨不忍睹。
豆包 那几个模式的性能和体验都有待提高,但产图能力很猛,不过不在本期测试范围了。
Claude 免费版的性能太弱了, 而且就算买了 Pro 版,用高性能模型也有限流,在高频访问时就不大够用了,再加上文件体积限制问题,目前作用最多的应该还是在代码和设计领域。
PS: 仅代表笔者个人想法,娱乐向,非专业测评