天下文章一大抄:Gemini自称百度文心,字节使用GPT训练豆包

关于AI大模型,这两天出了两条特别轰动的大新闻。

首先是字节跳动被爆使用GPT训练自己的大模型豆包,然后被OpenAI停止了字节的GPT接口调用权限。

然后是网友使用中文测试Gemini时,Gemini自称是百度的文心大模型;即使Google很快进行了修复,但是万能的网友们仍旧通过各种提示词引导Gemini做出了有趣的回答。

这些AI大模型到底是怎么回事?

先看字节跳动。这个事情说严重也不严重,说不严重也不是小事。很多小厂和科研机构都会使用OpenAI的GPT-API来训练模型。这次,因为字节跳动的影响力比较大,才引起了广泛的关注。虽然字节回应称仅在初期探索时使用,并没有用于商业,但声明有点软弱。

这个事情对字节跳动的声誉影响比较大,很多人指责字节跳动不遵守规则。另一方面,这个事情也让一些人泼脏水,指责咱们的AI企业大规模使用OpenAI的API服务生成数据用于训练LLM,从而导致服务器崩溃。总之,这个事情给舆论场添了一把火。

再看Gemini。很多人将其解释为大语言模型的幻觉,因为大语言模型会使用很多的预料进行训练。之所以会自称文心一言,是因为google抓去了很多文心一言生成的语料,训练的多了就出现了这个问题。当使用英文和Gemini交流时,它就回到了谷歌大模型的身份,表现得非常正常。

至于Gemini有没有直接使用文心一言进行模型的训练,这个就很难说了,不过根据目前的效果看,很可能使用了,因为日常可见的中文语料中还没这么多自称自己是百度大模型的。其实谷歌也是有前科的,早些时候,谷歌输入法就"偷"了搜狗输入法的语料。而且根据网友测试,Gemini的英文语料也大量使用了OpenAI的输出结果。

综合来看,不管大模型还是小模型,利用成熟的AI做辅助训练已经成为常规操作,比自己人工清洗训练集效率会高很多,质量也会高不少,比较难受的就是训练集污染。

OpenAI的输出结果质量比较高,所以大家都会偷偷摸摸的用来做测试。文心一言的中文语料是有优势的,所以被国外的大模型拿来做辅助训练,只是清洗的不太干净。

咱们再看看网友的评论

1、AI生成的内容已经开始大规模污染互联网了!

2、对待这两件事,咱们要公平看待,不能厚此薄彼。

3、Google对OpenAI进行了处理,但是没有对中文对齐,是认为咱们这边不重视知识产权,还是认为咱们这边访问不了Google?

4、Google太着急了吧,怎么着先把数据清洗好,没有最丢人,只有更丢人。

5、来自未来的恐怖担忧。


最后,我的评论是:天下文章一大抄!在残酷竞争的面前,谁也不比谁高尚。

只不过大佬们为了维护自己的先进形象,肯定都不会承认抄袭竞争对手。

只是我们一直都在为AI默默的贡献语料,却没有人来给我们多少发点报酬,有点可悲。

我是每天分享AI应用的"萤火遛AI",欢迎关注我的公众号,一起探索AI。

相关推荐
春末的南方城市7 小时前
苏大团队联合阿丘科技发表异常生成新方法:创新双分支训练法,同步攻克异常图像生成、分割及下游模型性能提升难题。
人工智能·科技·深度学习·计算机视觉·aigc
春末的南方城市10 小时前
AI视频生成进入多镜头叙事时代!字节发布 Waver 1.:一句话生成 10 秒 1080p 多风格视频,创作轻松“一键”达!
人工智能·深度学习·机器学习·计算机视觉·aigc
万兴丶11 小时前
Google Play合规指南:您的应用所使用的原生库不支持 16 KB 内存页面大小.快速解决
unity·google
百度Geek说13 小时前
百度电商MultiAgent视频生成系统
aigc·音视频开发
程序视点14 小时前
全球最强编程模型Claude Sonnet 4.5发布,性能暴涨30%,速度更快、降智问题彻底解决
aigc·ai编程·claude
春末的南方城市14 小时前
阿里开源视频修复方法Vivid-VR:以独特策略与架构革新,引领生成视频修复高质量可控新时代。
人工智能·深度学习·机器学习·计算机视觉·aigc
Zheng照邻、20 小时前
VLM Prompt优化之 DynaPrompt(ICLR 2025)论文总结
人工智能·算法·语言模型·prompt·aigc
DisonTangor20 小时前
腾讯混元3D团队开源 P3-SAM: 原生3D零件分割
人工智能·3d·开源·aigc
Jagger_1 天前
掌握WBS:提升项目管理效率的实用指南
aigc·openai·ai编程
AI炼金师1 天前
GPT-5-Codex Prompting Guide|提示词指南
aigc·ai编程·极限编程·vibecoding