Gemini做裁判,用vibe-coding的方式对比DeepSeek-V4和ChatGPT-5.5的学术水平!DeepSeek惊艳了!

最近这一周真的太疯狂了。A畜、Openai、DeepSeek都上线了各家最新模型Claude-Opus-4.7、ChatGPT-5.5、DeepSeek-4-Pro。区别于御三家的更新速度(谷歌Gemini-3.1和Nano Banana惊艳世界以后一直没有更多的动作了,现在全面被Openai超越了)。DeepSeek这个大招真的憋了好久了。。。但看这个DeepSeek的价格表。。虽然不算便宜。但是跟A家O家API价格一对比。就是美刀和元子的区别了。期待9月算力升级后的成本进一步降低!

来看看我们今天的重点任务。用Gemini来选题,然后用codex桌面应用和DeepSeek接入Claude Code中进行学术写作比拼!(我掏出了两年前充值。。尘封了2年的DeepSeek API key)

一、先看选题

我让Gemini生成了一个前沿学科8个选题方向没有限制。

这里我们选择了《基于扩散模型(Diffusion Models)的高逼真复杂雷达信号合成与未知威胁异常检测》这个选题。然后我们选了一篇AIWritePaper官网的工学范文作为参照。范文可以在https://www.aiwritepaper.com官网找到

确认一下模型版本ChatGPT使用的是5.5xhigh-fast模式,DeepSeek使用的是4-Pro模型。然后使用同样的提示词开干!

二、先看一下开始运行后的区别。

【ChatGPT表现】

ChatGPT这边不废话。。直接开干!最终用时不到14分钟就完成了全文和所需图片。

【DeepSeek表现】

DeepSeek这边起手式比较长。会先确认非常多的内容。问题确认以后会给出一个大纲,大纲给出以后开始疯狂燃烧token。。最终耗时39分钟整。

第一问:你这份论文的主要目的是什么?

我说用于学术写作。

后续几问:问了我一大堆内容方向的问题,收窄整体方向。

我大致用ABCD进行了几次选择。看下面几张图了解一下。

然后直接规划好了大纲。

最终耗时:39m整!

三、将内容写入word并调整格式。

这里给大家展示一下大致内容。总结一下各自的亮点!

ChatGPT-5.5-xhigh-fast

生成了这些文档,主要的作图使用python的统计库,生成几张数据相关的图表。这里给大家看一下图片效果。对于当前各家模型能力来说属于基操了。

ChatGPT章节为二级标题。

表格、公式、文献方面没有问题。

DeepSeek-4-pro

生成了这些文档,主要的作图使用前端实现了架构图。这里给大家看一下图片效果。这里只截取两张,复杂图片的效果还是差点意思。但是也很惊艳了。

这里我发现DeepSeek把文献在每一页引用到的文献会标注出来。这样会导致字数有水分。。但是展现形式比较标准。

再来看看公式、表格。也都没有问题。

四、Gemini做裁判。

比较一下两篇文章内容。

比较结果:

对比维度 DeepSeek(A) ChatGPT(B) 审稿人点评
研究范式 端到端深度表征学习:从复基带→CWD时频图→VAE潜空间→U-Net扩散→重构 。 人工特征+轻量扩散打分:从波形提取 14 维统计特征→轻量 DDPM 特征评分 。 版本A代表了目前AI领域的主流前沿(Foundation Model思路);版本B则退回了传统信号处理+机器学习的实用主义路线。
生成网络设计 构建了包含交叉注意力机制的 U-Net(CLDM-Radar),具有明确的物理一致性损失(带宽、能量约束) 。 缺乏真正的生成网络。 Feature-DDPM-Score 仅用于计算特征域的噪声预测误差,无法逆向生成原始信号 。 在"信号合成"这一核心任务上,版本A完胜;版本B存在一定的"文不对题"。
异常检测策略 多层级潜空间特征融合 (LS-AD):利用 U-Net 中间层特征计算马氏距离,结合极值理论(EVT)动态确定阈值 。 特征域多证据融合:在传统 14 维特征上计算噪声预测误差,配合 SVM 等传统边界分类器 。 版本A真正做到了"生成模型即检测模型"的内部结构复用;版本B的打分机制较为表层。
数据集与规模 庞大严谨。RadarSignal-10 包含 14,000 样本,覆盖 10 类复杂调制(如Frank, P4),加入多径衰落等 。 轻量级本地生成。覆盖 LFM、BPSK 等 4 个已知类与 3 个未知突发异常类 。 版本A的实验更具说服力和学术发表水准;版本B适合作为本科/硕士毕业设计的原型验证。
对比基线 (Baselines) 对比了 WGAN-GP、VAE、DDPM、WaveGrad,以及 Deep SVDD、OpenMax 等前沿深度开集算法 。 对比了 Isolation Forest、One-Class SVM、LOF、Elliptic Envelope 等传统经典算法 。 版本A处于现代深度学习前沿;版本B的基线过于传统,停留在 Scikit-Learn 层面。
核心指标表现 FID=12.7,开启 AUROC=94.7%。全面碾压基线方法 。 Feature-DDPM-Score 的 AUROC 为 82.9%,甚至低于 One-Class SVM 的 86.0% 版本A展示了技术的上限;版本B展示了该技术在低维特征下面对传统算法的尴尬现状,极度诚实。
计算复杂度 极高。A100 训练 48 小时,DDIM 50 步推理耗时 0.87 秒 。 极低。普通 CPU 即可运行本地脚本并在秒级出图 。 工业落地时,版本A面临算力瓶颈;版本B可无缝部署于资源受限的边缘设备。
工程落地与架构 给出了 Vue+FastAPI 的 4 层架构原型系统压测数据 。 详细探讨了分层推理架构、数据闭环机制以及敏感技术开源的伦理边界 。 版本A侧重系统的"吞吐量"表现;版本B的思想维度更高,触及了军工AI落地的数据治理核心。

五、个人感觉

这里其实Gemini给了DeepSeek版的论文很高的评价,而我在使用过程中的体感。ChatGPT一马平川,直出文章,同时使用代码生成的数据分析图也可圈可点。而DeepSeek在开头的多轮互动收敛了用户最终想要的结果,其实是类似于ChatGPT-DeepResearch的能力。

在生成时间上,也许是受限于算力,也许是使用平台不一致。但是ChatGPT用时13分钟与DeepSeek用时39分钟差距摆在这。

我觉得两者是各有优势的。

总有人说DeepSeek憋了这么久,模型整体能力可能不如御三家(谷歌、A畜、Openai)。但是这次适配国产算力是实打实的好消息。价格暂时可能没那么亲民,也没有大部分国模厂家出现token plan。

虽不像去年那样惊艳世界,但在国产化上,着实是一针强心剂。老美的策略是希望全球的科技产品都基于美国的技术栈,但这次DeepSeek-4的发布,让我觉得中国AI在未来是有一席之地的。

相关推荐
摸鱼同学8 小时前
04-Embedding 和向量数据库:让机器真正理解语义
ai·chatgpt·embedding·agent·向量数据库
小鹿软件办公9 小时前
OpenAI 推出 ChatGPT 记忆功能重大升级,准确率提升至 82.8%
chatgpt·openai
老H科研技术10 小时前
第 01 篇:MCP 概念与架构 —— AI 世界的“USB-C“
c语言·人工智能·chatgpt·架构·aigc·agi
小二·12 小时前
Dify + Ollama + DeepSeek:本地部署完全指南
ai·deepseek
企服AI产品测评局13 小时前
2026年Agent元年!深度解析实在Agent未来路线图:从自动化工具到全能数字员工的跃迁
运维·人工智能·ai·chatgpt·自动化
AI英德西牛仔13 小时前
Claude 导出 pdf 颜色不一样怎么办,选用 AI 导出鸭优化格式转换,多维度落地修正 PDF 色彩失真问题
javascript·人工智能·ai·chatgpt·pdf·deepseek·ai导出鸭
知识浅谈13 小时前
人工智能日报 每日AI新闻(2026年6月5日):ChatGPT记忆升级、AI基建与机器人应用同步升温
人工智能·chatgpt·机器人
一楼的猫14 小时前
AI辅助长篇小说创作的“记忆崩坏“问题与结构管理策略
人工智能·学习·机器学习·chatgpt·ai作画·ai写作
辣香牛肉面15 小时前
Chatbox(ChatGPT API工具) v1.20.3 中文绿色免费版
chatgpt
ImangoCloud15 小时前
claude code权限和沙箱
chatgpt