5款AI对决:Gemini学术封神,但日常办公我选它

相关词

  1. 数据分析
  2. 多模态
  3. 大模型
  4. agent
  5. openai
  6. deepseek

前言

不管是学生还是科研人员还是职场人士,处理和分析文件已成为当今时代的日常。面对堆积如山的 txt、pdf、word 等各类文档,如何高效提取关键信息?今天,笔者尝试了市面上 5 款顶尖 AI 工具,分别测试文件识别以及数据分析能力, 感兴趣的话欢迎阅读~

参赛选手

  1. DeepSeek: 美股杀手,国产 AI 新锐,包含 V3 和 R1 两个版本
  2. 豆包: 字节跳动旗下 AI 产品,提供多种分析模式
  3. Gemini Pro: 谷歌推出的高性能 AI,2.5 Pro 版本表现突出
  4. Grok 3: 埃隆·马斯克旗下 xAI 开发的 AI 系统
  5. Claude Pro: 以强大编码能力著称的 Anthropic 旗舰模型

比赛环境与方法

  • 数据类型: 两份 txt 文件,一份是 67Kb 的视频信息汇总文件,一份是 4kb 的字幕文件

  • 数据内容: 两份数据都是小电视站的视频文本版, 包含视频基础信息、视频描述、视频评论、视频弹幕、视频字幕等。

  • 操作步骤: 单次对话中同时发送提示词和视频汇总文件。

  • 测评规则: 在最少时间内输出最多有效信息。

  • 测试机配置: 大约 100 兆网络。

  • 提示词: 同样一份提示词,要求按指定步骤来分析最后进行汇总

评分规则

  1. 响应速度: 从提交请求到完成输出的时间
  2. 成本效益: 免费/付费模式下的性价比
  3. 内容准确度: 信息提取的精确程度
  4. 指令遵循: 对提示词要求的执行情况
  5. 可视化呈现: 分析结果的表现形式

比赛实录

71kb 文件数据分析

解析视频为: 《4 个可以让你性张力拉满的肢体语言,同样的话,不同的肢体语言,感觉会完全不同》

1.Deepseek

首先上场的是曾经的美股杀手,国产之光。

👆 V3

👆 R1

可以看到在 相同提示词情况下,V3 输出较为普通,并且有崩图的现象,而 R1 因为是推理模型,会自己给自己加戏,并且这几天有了一次优化更新, 所以输出的内容看起来更广,看起来也更舒服。

综合评分:★★★★☆(4.5/5)

R1 思考时间不到一分钟,总输出时间在 两分钟内,文件内容读取准确,步骤一到步骤五都按要求生成了,可视化方面也聪明的使用了 markdown 来显示,已经超出笔者预料了,并且生态好、中文语料多、免费镜像站多、使用成本低。

豆包

豆包官方写着有三个模式,常规模式,深度思考模式,同时还提供了一个数据分析模式,由于篇幅问题,笔者这次只放深度思考模式和数据分析模式的(常规模式效果不咋地)。

👆开了深度思考

👆数据分析模式

综合评分:★★☆(2.5/5)

勉勉强强,数据分析模式还没深度思考模式输出的好,试了几次都有图裂的问题,可视化做得一般般,对比上面的 deepseek 差点意思。

Gemini

由于 Gemini 2.5 Flash 表现太差,单次输出内容太少了,这里只放 2.5 Pro 的对话,同时因为笔者领了会员,所以测的是付费版本,在算力方面比其他选手有先天优势。

👆Gemini 2.5 Pro

👆Gemini 2.5 Pro 深度研究模式

实在是恐怖,我们的Gemini2.5 Pro 选手开了深度研究模式后,直接生成了一份 41 页 6000Kb+ 的报告 ,虽然上面常规 Gemini2.5 Pro 已经不错了,但这样一对比,简直被吊打,笔者猜测单从内容方面看,将会吊打本次所有参赛选手,不过生成耗费的时间也是最高的,已经有 12 分钟以上了,比视频时长还长。

比较适合科研党使用,对生成报告感兴趣的,可以点击下面链接自行查看无密码 👇

《视频内容深度分析与商业化》报告链接

综合评分:★★★☆(3.5/5)

虽然深度研究很猛,但对于笔者来说日常用不上这种重量级功能,并且此次使用的是付费版本,按厂商惯例,免费版性能起码减低 30% 或进行限流,所以使用成本可能偏高,要是性能没差别,可以恢复到 4★。

Grok

算是冷门点的平台,然后笔者没有开 grok 的会员,所以本次测试只测了免费版。

👆常规模式

👆深度思考模式

可能是没付费的原因,笔者感觉 grok 这 agent 深度思考一通后,效果还没常规模式好,并且因为长推理导致了一定程度的提示词忽视,连图表都没生成,但常规模式的生成非常全面。

综合评分:★★★★☆(4.5/5)

常规模式很不错,生成时间很快,并且能同时保持质量,可视化做得也可以,多模态做得很 ok,然后该有的功能都有,免费版性能非常够用,整体体验还算满意。

Claude Pro

作为目前最强的代码模型,我们来看看做数据分析又是什么水平。(此为付费版本)

👆 Claude Opu4

👆Claude Opu4 深度思考

不出意料,先不论分析出来的内容准不准确,起码可视化方面吊打其他选手,但就日常分析使用来说,笔者在做视频分析时更倾向于速览文本加一小部分图表。

综合评分:★★★(3/5)

数据读的不是很准,免费版文件体积限制太严重,几十 kb 的文件传过去都显示超出,并且没有深度思考,开 Pro 后水平回归,要分析的步骤也没漏,可视化是顶级水平,但文件体积问题依然存在。

总结

在样本量较小的情况下,并不能很公平的测试AI的能力,然后笔者还尝试过1500kb、4000kb的文件识别,豆包、deepseek、Claude等直接识别不了。

笔者推荐日常视频的分析把 deepseek 和 grok 常规模式组合使用, 前者中文语料充足,R1 在识别小规模数据时很少出错;后者文件识别很可以,支持上传的文件体积非常大,能做数据量更大的分析,同时默认支持网络搜索功能。

科研首选 Gemini pro,首月免费,学生免年费, 超长上下文处理能力、学术规范输出格式、深度文献分析能力等都很突出,但不要用 2.5 flash 模型,性能惨不忍睹。

豆包 那几个模式的性能和体验都有待提高,但产图能力很猛,不过不在本期测试范围了。

Claude 免费版的性能太弱了, 而且就算买了 Pro 版,用高性能模型也有限流,在高频访问时就不大够用了,再加上文件体积限制问题,目前作用最多的应该还是在代码和设计领域。

PS: 仅代表笔者个人想法,娱乐向,非专业测评

相关推荐
微学AI1 小时前
智能穿戴新标杆:SD NAND (贴片式SD卡)与 SOC 如何定义 AI 眼镜未来技术路径
人工智能·ai·sd
拾忆-eleven1 小时前
NLP学习路线图(十五):TF-IDF(词频-逆文档频率)
人工智能·学习·自然语言处理·nlp
封奚泽优1 小时前
使用Python绘制节日祝福——以端午节和儿童节为例
人工智能·python·深度学习
全域智图1 小时前
元胞自动机(Cellular Automata, CA)
人工智能·算法·机器学习
富唯智能1 小时前
复合机器人:纠偏算法如何重塑工业精度与效率?
人工智能·工业机器人·智能机器人
s153351 小时前
3.RV1126-OPENCV 图像叠加
人工智能·opencv·计算机视觉
珂朵莉MM2 小时前
2022 RoboCom 世界机器人开发者大赛-本科组(省赛)解题报告 | 珂学家
人工智能·算法·职场和发展·深度优先·图论
viperrrrrrrrrr72 小时前
大数据学习(125)-hive数据分析
大数据·学习
Lilith的AI学习日记2 小时前
【AI面试秘籍】| 第25期:RAG的关键痛点及解决方案深度解析
人工智能·深度学习·机器学习·chatgpt·aigc·llama
仟濹2 小时前
「数据采集与网络爬虫(使用Python工具)」【数据分析全栈攻略:爬虫+处理+可视化+报告】
大数据·爬虫·python·数据挖掘·数据分析