不吹不黑理性讨论:疑似华为员工匿名指控盘古大模型造假,你怎么看?****
又是惊天动地一声雷,这两天圈里最热闹的话题,华为要说第二,没人敢说第一.......
一位自称为HW-whistleblowe(吹哨人)的用户在GitHub上建立一个叫做True-Story-of-Pangu(盘古的真实故事)的仓库,大概是在7月6日凌晨5点左右,在仓库里发表了一篇题目为《盘古之殇:华为诺亚盘古大模型研发历程的心酸与黑暗》的6000余字匿名自述,大体看了下来,通篇差不多讲的都是华为盘古大模型是如何造假的。
(附带原文链接,不知道链接还能不能打开)
根据作者所叙述的内容,大概整理了一下事件的发展脉络(都是原文作者内容)
大概从23 年开始, 盘古团队开始训练38B MoE和71B Dense模型(71B的dense模型通过扩增变成了第一代的135Bdense模型),但受限于昇腾算力(仅支持FP16)训练效果不佳,而后团队将71B和135B模型更换Tokenizer,但效果均未达到预期。
经历了一段阵痛期后, 作者口中的小模型实验室团队使用Qwen 1.5 110B续训并"造出了"135B V2,内部代码还残留了Qwen类名,这个模型当时提供给了很多下游,甚至包括外部客户。
而后是24 年的第三代模型训练,作者从13B模型开始起步,通过优化训练出38B V3,后续又从头训练了135B V3,这是作者认为第一个真正意义上的华为全栈自研,正经从头训练的千亿级别的模型,虽然训练全程无loss spike,却被长期压制,成果被掠夺,团队士气崩溃,大量骨干跳槽离开。
而后224B MoE模型与小模型实验室的pangu pro moe 72B并行开发,pangu pro moe 72B有"参考"Qwen 2.5 14B续训,通过脏数据清洗掩盖痕迹的嫌疑;在718B MoE训练中,小模型实验室通过冻住DeepSeek V3参数直接续训,引发内部技术路线冲突。
在2025 年近期盘古了发布技术报告,宣称全栈自研,作者HW-whistleblowe发起实名举报,并宣称通过"模型指纹"技术对比,发现盘古Pro MoE模型与阿里Qwen-2.5 14B模型的注意力层参数相似度高达0.927,远超行业合理参考阈值(0.7),部分模块达到逐层复现的程度。
事情大概就是这样,还有一些业内媒体发布的完整版,虽然内容是一样的,但评论区真的堪称精彩。不由感慨,有时候一篇文章最吸引人的地方,果然还得是网友们神仙打架的"评论区"。
mp.weixin.qq.com/s/ad4THdupB...
其中有网友发出疑问,百度有文心,腾讯有混元 最终也是都上了DeepSeek,就算是DeepSeek也做了了qwen和llama的蒸馏模型,不知道华为有啥放不下的?
有人给出回复:因为华为要维持谎言,去掉特色信仰加成后就不剩什么了。并质疑遥遥领先和被卡脖子为何能出现在同一家企业上?为何5G的创造者不能用5G?被骂了那么久的小米都出了玄界芯片......
细细品来,读出了里面的潜台词:即使真的不行,想要继续维持现状,也得一个接着一个去"埋坑";一旦承认了不行,就意味着过去的高大形象就会倒塌,被神化的泡沫,就会被戳破。
除了"力挺作者"且与作者感同身受的,也有说此文断然不可信的,并列出了一些自己的理由,例如保密协议,为何不曝光自己等问题。
更是在评论区还看到了作者"报平安"的后续备忘录,一股真实感扑面而来。
此外值得关注的一点,也有网友指出,这也不是华为第一次遭遇质疑了。
2003年:华为被思科起诉抄袭路由器代码,最终达成了和解;
2016年:华为宣传为Polar码,但被爆料出是购买自土耳其教授;
2021年:鸿蒙被传为魔改版安卓,遭遇了严重的"套壳"危机;
2024年:Atlas模型参数与LLaMA2高度相似,又把华为推上了舆论的风口浪尖。
华为为何频遭质疑?如果是你的话,又如何看待这些质疑和此次的事件呢?