对标Hugging Face?GitHub Models新增OpenAI o1/Llama 3.2等, 新功能支持模型并排比较

「开源能够确保世界上更多人从 AI 的发展中获得利益与机会」,扎克伯格曾在 Llama 3.1 发布时撰写长文,阐述了开源的意义。 诚然,伴随 AI 近年来的飞跃式发展,开源的热度持续攀升,开发者在开源社区的贡献不仅代表了个人的技术态度,甚至也在一定程度上彰显了其探索前沿技术的成就。

在此过程中,GitHub 与 Hugging Face 这两大开源项目托管平台也实现了快速增长。

2023 年,GitHub 在公告中宣布平台用户数量达到 1 亿,成为了全球最大的开源代码托管平台。 从 0 到 1 个亿,GitHub 用了 15 年时间。而 Hugging Face 则是在 2 个月前宣布,用户数量达到 500 万, 这一跨越,Hugging Face 用了 8 年时间。

如今,Hugging Face 已经共享了超 107 万个预训练模型,23.4 万个数据集,涵盖了 NLP、计算机视觉、语音、时间序列、生物学、强化学习等领域,被誉为「机器学习领域的 GitHub」。

作为后起之秀,Hugging Face 的用户总数虽不及 GitHub,但乘着大模型的东风,凭借同样丰富的开源资源,近几年势如破竹,不免引得网友猜想------面对 AI 的加速发展,Hugging Face 是否会逐渐取代 GitHub,成为更受开发者青睐的聚集地?而作为起步更早、用户基础更强的开源项目托管平台,GitHub 又将如何接招呢?

GitHub CEO Thomas Dohmke 在刚刚结束的 GitHub Universe 2024 上宣布的一系列新进展,或许回答了这个问题------GitHub Models 正式开放,新增了 OpenAI o1、Meta Llama 3.2、Microsoft Phi 3.5 等模型。

对标 Model Hub?GitHub Models 带来新功能

众所周知,Hugging Face 已经成为了全球开源大模型集散地,加之其 Spaces 板块所提供的开箱即用体验,更是为开发者提供了极大的便利。具体而言,早在 2020 年,Hugging Face 便推出了 Model Hub,这是一个开放的 AI 模型共享平台。 用户可以上传、分享和下载各种 NLP 模型,极大地促进了 AI 模型的复用与扩展,逐渐成为 AI 开发者的「GitHub for ML Models」。目前平台的开源模型达到了 1,076,375 个(截至发稿前)。

对比之下,在开源 AI 模型的整合上,GitHub 稍显「迟钝」,直至今年 8 月才推出了 GitHub Models 板块, 当时的定位是简化开发工作,降低开发 AI 应用程序的门槛,让每一个开发者都可以成为一个拥有合适工具和训练的 AI 工程师。

如今,时隔 3 个月,GitHub Models 正式开放,并进行了一系列更新升级,开发者可以通过 playground, API 等方式访问 AI 模型。

首先是新功能:

  • 简化部署流程------使用 Azure 生产密钥,可以快速将应用从开发环境转移到生产环境。
  • 新增模型预设,可以及时保存提示、参数和消息。
  • 新增多模态支持功能,可以在操作场景中为多模态能力的模型提供图像支持。
  • 新增并排比较功能,可以实时比较两个模型对同一提示的输出。

其次是模型扩充,新增了 OpenAI o1 、Meta Llama 3.2、Microsoft Phi 3.5、Cohere Command R 系列 08-2024 以及 A21 Jamba 1.5, 加上最初的 Llama 3.1、GPT-4o、Phi 3、Mistral Large 2 等模型,目前共收录了 35 个模型供开发者试用。同样地,GitHub 也为用户提供了 glide path,用户可以在 Codespaces 和 VS Code 开发者环境中进行开发。

总结来看,Hugging Face 的 Model Hub 与 GitHub Models 均为开发者提供了前沿开源模型的快速体验平台。但是,GitHub 目前更多是瞄准科技大厂的开源基座模型,尚未将已在其平台开源的其他优质模型纳入考虑。反观 Hugging Face,从模型数量到覆盖的应用领域,都远胜于 GitHub。

值得一提的是,为了进一步加速研究人员的工作进展,Hugging Face 与 arXiv 「打通」平台壁垒,只要在 arXiv 页面的「Code, Data, Media」选项卡下开启 Hugging Face 按钮,就可以一键直达相关的 Hugging Face 论文、模型和数据集。 这一举措或将进一步促进其平台用户数量的增长。

「脱胎」于 GitHub ,或将成为「软件 2.0」时代的 GitHub?

毫无疑问,作为开源社区的「探路者」,GitHub 的用户基础与 Hugging Face 相比还是颇具优势的。其在本次 GitHub Universe 2024 上透露,目前已经超 1 亿用户,特别是今年,全球开发者在 GitHub 上对开源和公共仓更是做出了近 10 亿次贡献。

回溯两个平台的发展历程,同样也是充满故事性。

GitHub 成立于 2008 年,由 Tom Preston-Werner、Chris Wanstrath、P. J. Hyett 和 Scott Chacon 4 个程序员共同创建。 而或许正是因为创始人纯程序员出身,缺乏公司管理经验,在 2016 年,GitHub 曾一度收到多人联名的控诉信,抱怨平台管理的混乱。两年后,微软宣布以 75 亿美元的价格收购 GitHub,为其带来了额外的资源并确定了战略方向,自此 GitHub 进入稳步发展阶段。

与此同时,Hugging Face 也蓄势待发。

2016 年,Clement Delangue 和 Julien Chaumond、Thomas Wolf 一起创办了 Hugging Face。 公司起初是做对话机器人,但跟当时很多做类似方向的创业公司一样,一直没有起色。2019 年,也是微软收购 GitHub 后的第一年,Hugging Face 迎来转机。

为了训练聊天机器人的 NLP(自然语言处理)能力,Hugging Face 在 GitHub 开源了一个 Transformers 库。可谓是「无心插柳柳成荫」,该开源项目迅速在机器学习社区流行起来,成为 GitHub 史上增长最快的 AI 项目。

2020 年,Hugging Face 推出了开放的 AI 模型共享平台 Model Hub、大规模开源数据集管理工具 Datasets 库。2021 年,Hugging Face 又发布了 Spaces,允许用户通过 Streamlit、Gradio 等工具部署和展示 AI 模型。

目前,Hugging Face 已成为扩展最快的社区和使用最广泛的机器学习平台,时任公司 CEO 的 Clement Delangue 曾在访谈中表示 AI 为软件的新范式,即「软件 2.0 」,而这一观点也得到了 AI 领域的知名研究者 Andrej Karpathy 的认同。

他曾发文称,传统人工编程属于「软件 1.0」,GitHub 是一个非常成功的「软件 1.0」代码中心; 而「软件 2.0」时代将以神经网络来编程,在这个过渡过程中,将涌现像 GitHub 这样的重量级平台。而 Hugging Face 有志于成为「软件 2.0」时代的 GitHub。

名利双收,GitHub、Hugging Face 盈利模式大对比

1+1>2 的效果在 GitHub 身上得到了验证。被微软收购后,不少开发者对 GitHub 能否继续开源表示了担忧。但情况并非如此,GitHub 仍然专注于成为一个以开发者为中心的平台。

根据相关媒体报道,2018 年微软收购 GitHub 时,GitHub 的年度经常性收入 (ARR) 只有 2-3 亿美元,2022 年 GitHub 的 ARR 增长至 10 亿美元,2023 年业界对于 GitHub 的 ARR 预测达到了 14 亿美元,但具体数值官方并未披露。

目前, GitHub 形成了比较完备的盈利模式,其盈利方式主要有 3 种: 订阅计划和付费服务、Enterprise 服务和市场服务,其中 Enterprise 服务,是 GitHub 最大的收入来源。

而 Hugging Face 盈利模式与 GitHub 有异曲同工之处,其付费项目也包括 3 种: 付费制会员、数据托管和 Enterprise 服务。

但 Hugging Face 并不似 GitHub「背靠大树」,而是主要依赖于外部投资,所以可能会面临来自资方的盈利压力。在 2021 年之前, Hugging Face 没有任何收入,全靠「烧」投资人的钱来保持社区的正常运营。一直到 2021 年之后,Hugging Face 才开始初步探索商业化,进入盈利阶段。据「福布斯」报道,该公司在 2021 年的收入为 1,000 万美元,而现在的年收入则是达到了 3,000 万至 5,000 万美元之间。

今年 7 月份,HuggingFace 联合创始人兼首席执行官 Clement Delangue 在社交网络宣布平台盈利,庆祝团队成员达到 220 位。

去年 8 月 23 日,Hugging Face 完成 2.35 亿 美元 D 轮融资(当前约人民币 16.75 亿元),估值为 45 亿美元(当前约人民币 320.88 亿元)。 投资者包括谷歌、亚马逊、英伟达、Salesforce、AMD、英特尔、IBM 和高通,可谓是星光熠熠,而这也在某种层面上表明,业界对于 Hugging Face 的发展潜力十分认可。

你方唱罢我登场,AI 开发者或成最大赢家

值得一提的是,在 GitHub 隆重召开年度盛会的同时,Hugging Face 也没闲着,其联合创始人 Clement Delangue 在社交平台宣布将在 10 月 30 日(太平洋夏令时间)召开「Enterprise Hugging Face hub」大会,不过时间晚于 GitHub。这也让人不禁猜想,这一次,Hugging Face 又将如何应对呢?

参考资料:

1.https://originality.ai/blog/huggingface-statistics

2.https://karpathy.medium.com/software-2-0-a64152b37c35

3.https://mp.weixin.qq.com/s/0JNZPBCmLvRYHn4tcOTIrA

4.https://mp.weixin.qq.com/s/0JNZPBCmLvRYHn4tcOTIrA

5.https://www.shidaox.com/observation/440.html

6.https://github.blog/news-insights/octoverse/octoverse-2024/

相关推荐
i查拉图斯特拉如是18 分钟前
基于MindSpore NLP的PEFT微调
人工智能·自然语言处理
mahuifa23 分钟前
QtCreator配置github copilot实现AI辅助编程
人工智能·ai编程·github copilot·qtcreator
千穹凌帝26 分钟前
基于深度学习多图像融合的屏幕缺陷检测方案
人工智能·深度学习·数码相机
IT猿手2 小时前
基于PWLCM混沌映射的麋鹿群优化算法(Elk herd optimizer,EHO)的多无人机协同路径规划,MATLAB代码
算法·elk·机器学习·matlab·无人机·聚类·强化学习
张叔zhangshu2 小时前
TensorFlow 的基本概念和使用场景
人工智能·python·tensorflow
loop lee5 小时前
Nginx - 负载均衡及其配置(Balance)
java·开发语言·github
云起无垠6 小时前
【论文速读】| FirmRCA:面向 ARM 嵌入式固件的后模糊测试分析,并实现高效的基于事件的故障定位
人工智能·自动化
Leweslyh9 小时前
物理信息神经网络(PINN)八课时教案
人工智能·深度学习·神经网络·物理信息神经网络
love you joyfully9 小时前
目标检测与R-CNN——pytorch与paddle实现目标检测与R-CNN
人工智能·pytorch·目标检测·cnn·paddle
该醒醒了~9 小时前
PaddlePaddle推理模型利用Paddle2ONNX转换成onnx模型
人工智能·paddlepaddle