开源大模型与闭源大模型，你更看好哪一方？

简介：评价一个AI模型"好不好""有没有发展"，首先就躲不掉"开源"和"闭源"两条发展路径。对于这两条路径，你更看好哪一种呢？*

一、首先，盘点一下目前流行的开源及闭源大模型：

1、开源模型

GROK：3140亿参数的混合专家模型，是迄今参数量最大的开源LLM。由埃隆·马斯克旗下的人工智能初创公司 xAI 开源。顺便提一下，当前最强ai公司 openAI最初也是由马斯克投资的，后面因为闭源和马斯克的理念不合退出。
LLama：LLama系列模型由Meta(原facebook)开源的指令微调LLM，规模从70亿到650亿不等。
GLM：清华大学发布的中英双语双向密集模型，具有1300亿个参数。
Skywork：昆仑万维集团·天工团队开源的13B大模型
OpenSora：高效复现类Sora视频生成的完全开源方案
2、闭源模型
GPT系列：由OpenAI开发，从GPT-1到GPT-4，技术细节不公开，只能通过API使用。
DALLE系列：由MidJourney开发，是闭源的文生图模型。
华为盘古：华为云开发的大模型，声明不会开源。
智谱AI的GLM系列：部分模型闭源，提供API调用和私有化部署。

二、另外需要明确的是大模型领域开源和闭源的定义：

开源：包括模型源码开源，论文或者技术文章开源，预训练的参数也开源，目前比较流行的大模型开源网站包括 huggingface，国内的魔搭社区等
闭源：只提供api接口或者web访问服务，一般有公司运营优化。服务分为免费版和收费版。

三、接着我们可以分析一下不同方式的利弊：

1、成本方面

开源大模型需要有机器去部署模型，一般需要英伟达GPU或者昇腾NPU硬件，且大模型对显存的要求也比较高，所以一般是组织或者机构使用，个人一般学习为主。
闭源大模型是以api的形式提供的，计费方式一般以token数，或者时间计费，成本相对较低，使用者一般是个人或者团体。

2、数据隐私方面

一方面，闭源大模型数据的治理更加专业，而开源大模型是用户自己进行微调的，数据处理如果不彻底，训练数据可能会存在敏感数据，而造成泄露的问题

另一方面，如果是企业内部使用大模型，提高效率，而使用时可能也会暴露敏感数据；如果使用的是闭源模型，由于闭源模型的使用方式是调用服务提供方的api，这些敏感数据最终是要到服务提供放的服务器的，所以有一定风险。相反如果是开源模型的话，企业内部需要先对开源模型在公司内部做微调和部署，服务部署到自己的服务器上面，也就是说企业对于大模型服务有这绝对的控制权，从而避免了数据泄露的风险。

四、我的想法

开源和闭源这两种模式就像硬币的两面，是相辅相成的，缺一不可。

开源大模型更有助于生态的建设和发展，能够吸引全球开发者和研究人员的贡献，形成活跃的社区，共同推动技术进步；源代码的公开使得任何人都可以查看、学习、修改和增强模型，有助于提升信任度和透明度。开放的协作环境可以加速新想法的实现和问题的解决，促进快速创新。另一方面由于社区的广泛参与，代码质量可能参差不齐，需要良好的管理和维护；而且开源模型的参与更多的是兴趣和通用领域的模型，对于专业领域的知识和支持都不是很成熟，需要额外的微调及训练。

闭源大模型方面，首先闭源大模型通常由专业团队开发和维护，能够提供更严格的质量控制，并且由于源代码不公开，闭源模型可能更难以被恶意攻击，提供更好的数据安全性。