AI开源伦理临大考,如何判定抄袭

2025年7月4日,一份发布于GitHub的技术报告如同投入AI行业的深水炸弹。一位自称哥斯达黎加大学韩国学生的研究者@HonestAGI,采用"LLM指纹"技术分析指出:华为盘古Pro MoE模型与阿里通义千问Qwen-2.5 14B模型的参数分布相似度高达0.927(1.0为完全一致),远超业内0.7以下的正常差异范围。

01 导火索,技术分析引爆信任危机

这场风波的源头,是一项名为"LLM-Fingerprint"的模型溯源技术。该技术通过提取Transformer层中注意力参数(Q、K、V、O矩阵)的标准差,生成每个模型的独特"指纹"向量。

研究者对比发现:盘古Pro MoE与Qwen-2.5的指纹相似度达到0.927的异常值。为验证方法可靠性,HonestAGI还对比了Qwen与腾讯混元A13B模型,结果显示二者在不同层级上展现出截然不同的内部模式。参数相似性之外,代码层面的线索更引发哗然。开发者在盘古官方GitCode仓库的"Open Source Software Notice"文件中,发现了指向阿里巴巴Qwen团队的版权声明。这一发现被许多技术社区成员视为"忘记擦除的脚印"------暗示着代码的继承关系。

当前绝大多数领先的大型语言模型(LLM),其核心架构都建立在Transformer的基石之上,并越来越多地采用稀疏专家混合(MoE) 技术来提升模型容量和效率。这种"底层架构的趋同"不可避免地会导致模型在宏观设计思路上存在相似性,例如层结构、注意力机制、专家路由策略等。因此,在模型权重层面出现一定程度的相似性,尤其是在基础组件或通用模式上,是符合技术发展规律的,甚至可以说是行业进步的体现。但是,当这种相似度达到一个异常高的阈值(如近期争议中提到的0.927)时,其合理性就变得极其脆弱。 这种远超常规范围的相似性,很难单纯用"架构趋同"或"技术借鉴"来解释。一个高度可疑且极具诱惑力的可能性浮出水面:模型开发者可能直接使用了竞争对手或开源社区的预训练模型权重作为起点,而非宣称的"从头训练"(from scratch)。

这种做法的核心动机在于显著降低训练成本并加速开发周期:

  • Loss快速收敛: 直接加载一个在大量通用数据上预训练好的高质量权重作为初始化,能让模型在目标数据集上进行微调(Fine-tuning)或进一步预训练(Continued Pre-training)时,损失函数(Loss)实现断崖式下降(而非平滑下降)并迅速收敛到一个不错的水平。这极大缩短了达到可用性能所需的时间。

  • 规避天文数字成本: 训练千亿甚至万亿参数级别的LLM需要消耗价值数亿至数十亿美元的算力资源(电力、GPU/TPU集群)。直接复用现有权重,意味着跳过了最烧钱、最耗时的"从零到一"的基础预训练阶段,将成本压缩到可能仅需微调或小规模续训的水平。

  • 快速追赶压力: 在竞争白热化的大模型领域,厂商面临巨大的市场和时间压力。复用成熟权重是实现"弯道超车"或快速推出对标产品的捷径,能迅速填补自身在基础模型能力上的差距。

但问题在于,这种操作往往游走在学术伦理和开源协议的灰色地带,甚至构成实质性的抄袭或侵权:

  • 违背"原创"宣称: 如果厂商对外宣称是"自主研发"、"从零训练",而实质是高度依赖甚至直接拷贝他人权重,这无疑是一种误导和欺骗。

  • 侵犯知识产权: 开源协议(如Apache 2.0, MIT)通常明确允许代码使用,但对于模型权重(Weight) 的版权和直接复用权限,规定往往模糊不清。许多开源模型明确要求禁止直接商用其权重,或要求衍生模型必须显著区分并开源。

  • 破坏创新生态: 如果"抄近道"成为普遍现象且不受制约,将严重打击那些投入巨资进行真正原创训练的机构积极性,最终损害整个行业的长期健康发展。

是不是从头开始训练,公开训练的log就可以说明问题。

02 华为回应,坚决否认下的有限让步

面对汹涌质疑,华为诺亚方舟实验室于7月5日发布正式声明。声明包含三重核心立场:坚决否认增量训练指控 ,承认参考开源代码,强调创新价值。

华为强调盘古Pro MoE是"基于昇腾硬件平台开发、训练的基础大模型",并突出其全球首个面向昇腾设计的"分组混合专家模型(MoGE)"架构,称其解决了分布式训练的负载均衡难题。

对于代码中的阿里版权标识,华为解释为"部分基础组件参考业界开源实践"的合规标注,符合"开源社区的通行做法"。这一回应试图将"抄袭"证据转化为对开源规则的尊重行为。

03 内部反水,匿名员工的自曝与指控

事件在7月6日凌晨急转直下。一篇署名"盘古团队前成员"的《盘古之殇:华为诺亚盘古大模型研发历程的心酸与黑暗》在GitHub引爆关注,一日内收获超2.5K星标。

该文揭露:因算力紧缺与领导压力,团队采取了套壳竞品模型、续训、洗水印等"非常规操作"。文中详述技术细节称:135B模型实为"使用Qwen 1.5 110B续训而来,通过加层、扩增ffn维度......凑够135B参数"。

更严重的问题不仅伦理道德问题,更是内部的管理问题:

  1. 默许造假换取短期成果

    员工直指王云鹤团队套壳阿里Qwen模型后,将其包装为"135B V2"交付客户。当团队成员试图向BCG(业务行为准则部门)举报时,遭姚骏等高层拦截,理由是"结果对领导有利"。此行为形成恶性循环:造假团队获资源倾斜,真实研发者反被边缘化。

  2. 成果剽窃与激励机制扭曲

    基础模型团队(四纵)的代码、数据被小模型实验室(十六纵)"一键调用",后者却独占荣誉。员工痛陈:"我们在负重前行,有人替我们岁月静好"。这种"功劳错配"直接导致核心人才流向字节、DeepSeek等竞对,团队一年内骨干离职超30%。

  3. "交付型科研"扼杀创新

    诺亚方舟实验室从研究导向异化为"交付流水线":工程师深陷例会、评审、汇报,实验需层层审批,原创探索被压缩。苏州"攻关集结"期间,员工被迫与家庭隔离数月,身心透支却难产突破性成果。

04 技术争议,指纹科学与开源界限的拉锯战

华为对抄袭指控的反击集中于方法论质疑。盘古团队在GitHub指出:使用相同指纹技术比对其他模型(如baichuan2-13b与Qwen1.5-14b)也能得到0.87的高相似度,证明该方法"缺乏实际意义"。

然而HonestAGI反驳称:盘古仍是目前对比中相似度最高的模型,且其分析包含更多维度(如QKV偏置模式、层归一化权重),这些结果难以用"巧合"解释。

争议背后是AI开源的法律模糊地带。业内专家指出,当前开源协议(如Apache 2.0)主要规范代码使用,对模型权重的借鉴与衍生缺乏明确界定。当一家企业使用开源架构但自主训练权重,另一家直接微调他人权重,二者的"原创性"边界何在?这正是盘古案的核心困境。

05 行业困境,自研神话与开源现实的碰撞

这场风波折射出中国AI行业的集体焦虑。训练千亿级大模型需耗费数亿甚至数十亿美元算力,使"完全从零自研"成为少数巨头的特权。更多团队选择在开源底座上迭代------正如DeepSeek等开源模型的流行所证明的路径。

华为盘古并非孤例。从零一万物Yi模型被指套壳Meta Llama,到斯坦福Llama3-V项目抄袭面壁智能MiniCPM,类似争议频发。当行业普遍"站在巨人肩膀上",如何定义肩膀与身体的边界?

更深刻的挑战在于验证机制缺失。盘古Pro MoE未开放完整权重或API接口,使社区无法进行动态验证(如行为指纹、梯度分析)。这种"用户无法证伪,企业难以自证"的僵局,暴露了开源生态透明度机制的短板。

总结

华为至今未回应内部爆料,而GitHub原文已悄然消失。这场罗生门没有赢家:若指控属实,中国大模型的"国产化"叙事将遭遇信任坍塌;若纯属误判,则凸显AI时代判定原创的技术与伦理标准仍处混沌。

当全球AI竞赛进入白热化,华为盘古事件如同一面镜子,映照出所有参赛者的共同困境------如何在巨人的肩膀站稳时,不踩碎脚下的基石