在当今快速发展的机器学习(ML)领域,没有任何一个公司,包括科技巨头,能够独立"解决AI"。这是一个需要通过共享知识和资源在社区中协作来实现的目标。正是基于这个信念,Hugging Face Hub应运而生,它是一个集成了超过120,000个模型、20,000个数据集和50,000个演示的平台,旨在促进ML工作流程中的协作与共享。
Hugging Face Hub提供了一个中央位置,任何人都可以在这里分享、探索、发现和实验开源机器学习。我们正在构建最大的开源模型、数据集、演示和指标集合,以实现民主化和为每个人推进ML的目标。
为了加强社区成员之间的互动和合作,我们鼓励大家阅读行为守则和内容指南,了解我们期望社区成员所维护的价值观。
Hugging Face Hub能为您提供什么?
Hugging Face Hub托管基于Git的仓库,这些仓库是带有版本控制的桶,可以包含所有的文件。
在此平台上,您可以上传和发现:
- 模型:托管最新的NLP、视觉和音频任务的前沿模型。
- 数据集:提供不同领域和模态的广泛数据集。
- 空间(Spaces):在浏览器中直接演示ML模型的交互式应用。
此外,Hub提供版本控制、提交历史、差异、分支以及超过十几种库集成的功能!您可以在仓库文档中了解所有仓库共享的特性。
模型
在社区的共享下,您可以发现并使用数以万计的开源ML模型。为了促进负责任地使用和开发模型,模型仓库配备了模型卡片,以告知用户每个模型的局限性和偏见。还可以包括有关其任务、语言和指标的附加元数据,如果仓库包含TensorBoard跟踪,甚至可以添加训练指标图表。为您的模型添加推理小部件也很简单,允许任何人直接在浏览器中与模型互动!对于程序化访问,提供了API以即时服务您的模型。
丰富的资源库
Hugging Face Hub以Git为基础的仓库系统,不仅提供版本控制、提交历史、差异、分支等功能,还整合了十几种库,使得共享和发现资源变得前所未有的简单。
- 模型:从NLP、视觉到音频任务,你可以发现和使用数以万计的开源ML模型。为促进负责任地使用模型,每个模型仓库都配备了模型卡片,详细说明了模型的局限性和偏见。
- 数据集:Hub收录了超过5,000个数据集,支持100多种语言,涵盖NLP、计算机视觉和音频等多个领域的任务。通过详尽的数据集卡片和数据集预览,用户可以直接在浏览器中探索数据。
- Spaces:提供了一种简单的方式来托管ML演示应用,支持Gradio和Streamlit两种Python SDK,使得在几分钟内就能构建出酷炫的应用。
数据集
Hub是超过5,000个数据集的家园,这些数据集涵盖了100多种语言,可用于NLP、计算机视觉和音频的广泛任务。Hub简化了数据集的查找、下载和上传过程。数据集伴随着详尽的文档,如数据集卡片和数据集预览,让您可以直接在浏览器中探索数据。虽然许多数据集是公开的,但组织和个人可以创建私有数据集,以符合许可或隐私问题。您可以在Hugging Face Hub文档中进一步了解数据集。
空间(Spaces)
Spaces是在Hub上托管ML演示应用的简便方式。它们允许您构建ML作品集,在会议或对利益相关者展示项目,并与ML生态系统中的其他人协作。
目前,我们支持两个出色的Python SDK(Gradio和Streamlit),让您在几分钟内构建酷炫的应用。用户还可以创建静态Spaces,这些Spaces是Space内的简单HTML/CSS/JavaScript页面。
在探索了一些Spaces(看看我们的每周Space!)之后,深入了解Spaces文档,学习如何创建您自己的Space。您还可以将您的Space升级,以在GPU或其他加速硬件上运行。
组织
公司、大学和非营利组织是Hugging Face社区的重要组成部分!Hub提供了组织功能,可用于分组账户并管理数据集、模型和Spaces。教育工作者还可以为使用Hugging Face的课堂创建协作组织。组织的仓库将在组织的页面上展示,组织的每个成员都有能力贡献到仓库中。除了方便地分组所有组织的工作外,Hub还允许管理员设置角色以控制对仓库的访问,并管理其组织的支付方式和账单信息。当协作时,机器学习更加有趣!
探索现有的组织,创建新组织,并访问组织文档以了解更多信息。
随着机器学习技术的不断进步,Hugging Face Hub提供了一个独特的、以社区为中心的平台,旨在促进开源机器学习资源的共享与协作。无论您是数据科学家、研究人员还是ML爱好者,Hugging Face Hub都是探索和贡献于这一创新领域不可或缺的资源。
后续
后续,我会围绕这个huggingface系列框架详细的写一下说明文档,从安装、使用、模型训练、数据下载等等方面,写一个专题文章。希望NLP方向的小伙伴们能够喜欢。