一次论文降AIGC翻车后,我发现根本没有"最强模型"
前言
最近做毕业论文的时候,我遇到了一件很有意思的事情。
为了降低论文AIGC率,我最开始的思路很简单:
用最强的模型改写。
于是前几轮直接上 GPT 和 Claude,对高风险段落逐段修改。
结果却很奇怪:
- AIGC率下降很有限
- 信息量反而不断减少
- 句子越来越像"标准学术语言"
- 改到后面甚至出现一种"越改越AI"的感觉
后来换成了 DeepSeek。
结果一下子变化很明显:
同样的段落,不仅AIGC率下降幅度更大,而且中文表达看起来也更自然。
这时候我突然意识到一个问题:
是不是根本不存在所谓"最强模型",而是不同模型在不同任务上有各自的优势?
于是顺着这个问题去查资料,也结合自己一段时间的使用体验,整理出这篇文章。
不存在"最强模型",只有"任务上的局部最优"
以前很多人喜欢比较:
- GPT vs Claude
- GPT vs DeepSeek
- Claude vs Gemini
讨论的核心通常都是:
谁更强?
但实际使用之后会发现:
真正的问题不是:
谁最强
而是:
做什么事情谁更强
举个简单例子:
同一个任务:
"改写论文段落"
原文:
数字支付的发展受经济水平和基础设施共同影响。
GPT可能写成:
数字支付的发展程度受到经济发展水平以及基础设施建设状况的综合影响。
Claude可能写成:
数字支付的扩张过程通常与经济水平和基础设施条件之间存在密切联系。
DeepSeek可能写成:
在数字支付推广过程中,经济基础和基础设施建设往往同时发挥作用。
看起来都没问题。
但仔细看会发现区别:
GPT:
- 更规范
- 更完整
- 学术感更强
Claude:
- 更偏自然语言
- 逻辑连接顺滑
DeepSeek:
- 中文表达更灵活
- 句式变化更明显
而AIGC检测工具偏偏很喜欢抓:
- 固定句式
- 固定连接词
- 规律化表达
所以在"降AIGC"这个场景里:
DeepSeek反而效果更好。
为什么不同模型会有这么大的差异?
本质上主要来自几个方面。
1、训练数据不同
模型吃进去的数据不一样。
例如:
GPT:
- Github代码
- 英文网页
- 技术文档
- 学术文本
DeepSeek:
- 中文互联网内容
- 技术社区
- 问答平台
- 中英文混合语料
所以很容易出现:
GPT:
写得像SCI
DeepSeek:
写得像中文母语用户
2、模型训练目标不同
模型并不是单纯追求正确。
很多时候还要优化:
- 可读性
- 安全性
- 连贯性
- 用户偏好
例如:
GPT往往倾向:
尽量准确
Claude往往倾向:
尽量自然
DeepSeek则会更偏:
尽量符合中文表达习惯
因此同样一句:
"帮我改写一下"
三个模型可能在优化三个完全不同的方向。
3、中文并不是英文能力的翻译版本
很多人有一个误区:
英文最强 → 中文一定也最强
实际并不是这样。
英语和中文差异太大:
英语:
- 结构规则明显
- 主谓关系固定
中文:
- 上下文依赖更强
- 语序变化更灵活
- 省略现象更多
因此:
英文表现最强的模型,
不一定在中文任务上也最舒服。
我自己总结的主流模型能力地图
根据最近一段时间的使用体验,大致可以整理成下面这样:
| 场景 | 第一梯队 | 特点 |
|---|---|---|
| 中文论文改写 | DeepSeek | 中文自然、句式变化大 |
| 英文学术写作 | Claude | 长文本风格统一 |
| 编程 | Claude Code | 工程能力强 |
| Debug调试 | GPT | 定位问题能力强 |
| 数学推理 | GPT | 推理过程稳定 |
| 长文阅读 | Claude | 上下文长度优势明显 |
| 中文日常写作 | DeepSeek | 母语感强 |
| 创意写作 | Claude | 细节丰富 |
| 多模态 | GPT、Gemini | 图文综合能力强 |
当然这并不是绝对排名。
因为模型更新非常快。
但至少在当前阶段,基本符合多数人的实际体验。
现在很多人已经不再只用一个模型
以前:
找最强模型
现在越来越像:
搭工作流
比如学术党:
资料整理:GPT
长文扩写:Claude
降AIGC:DeepSeek
最后人工修改:自己
程序员:
需求分析:GPT
生成代码:Claude Code
Debug:GPT
内容创作者:
选题:DeepSeek
框架:GPT
细节润色:Claude
关于降AIGC,我最后发现的一件事
后来发现:
AIGC检测工具抓的并不是"AI思维"。
它抓的是:
- 句长规律
- 连接词规律
- 表达模式规律
- 文本熵
很多模型为了提高阅读体验,会自动让表达更统一。
但统一本身反而容易暴露统计特征。
所以有时候:
模型越强,
不一定越适合降AIGC。
写在最后
现在越来越觉得:
AI模型有点像工具箱。
锤子、扳手、螺丝刀都很好。
但没有人会问:
世界上最强的是哪一个工具?
真正的问题应该是:
当前这个问题,需要哪一个工具。
模型也是一样。
与其纠结:
"谁是第一"
不如思考:
"什么任务用什么模型"。
很多时候效率提升最大的地方,不在模型排行榜,而在使用方法。