保姆级教程之将 GitHub Models 接入 NewAPI

准备工作

一个可用的 GitHub 账户，且提前创建好一个空白仓库
已部署 NewAPI 项目

创建带有模型读取权限的 GitHub Personal Access Token

打开 GitHub 网页，点击右上角的头像，依次点击【Setting】->【Developer Settings】->【Personal access tokens】->【Fine-grained tokens】->【Generate new token】

【Token name】填入适当的名称，如 My GitHub Models Token，【Repository access】栏点击【Only select repositories】，选择提前创建好的空白仓库，【Permissions】栏先点击【Account】，再点击【+ Add permissions】，选择【Models】，最后点击【Generate new token】

New API 添加 GitHub Models 渠道

打开部署好的 New API 网页，依次点击【控制台】->【渠道管理】->【添加渠道】

在左侧弹出的新建渠道窗口中，【类型】选择 OpenAI，【名称】输入 Github Models，【密钥】输入上一步生成的 GitHub Personal Access Token，【API地址】输入 https://models.github.ai/inference

在浏览器中打开 https://github.com/marketplace?type=models ，选择自己需要的模型，下面以Deepseek R1为例

点击 DeepSeek-R1 的卡片，进入详情页后点击【Use this model】，在弹出的界面中点击【3. Run a basic code sample】，找到代码块里面的 modelName，然后在 New API 新增的 GitHub Models 渠道里面点击【模型】栏输入框输入模型名称deepseek/DeepSeek-R1，并添加该模型，再点击右下角的【提交】按钮

保存成功后点击 GitHub Models 渠道的【测试】按钮，当页面顶端弹出"通道 GitHub Models 测试成功，耗时 xx 秒"时，则代表添加模型成功

GitHub Models 使用速率限制以及一些碎碎念

注：本章节内容根据 2026年05月01日的 GitHub Docs - Prototyping-With-Ai-Models - Rate-Limits 官方文档所写，内容具有时效性，请注意分辨

根据官方文档，根据速率限制层级可以把模型人为划分为低限制模型、高限制模型、嵌入模型和特殊模型，其中特殊模型的速率限制写的很清晰，以下图 DeepSeek-R1 的速率限制文档为例，使用 Copilot Free 的用户每分钟只能发送一次请求，每天最多只能发送 8 次请求，每次请求最多 4000 token 的输入和 4000 token 的输出，并发请求数只能有 1 个

除了特殊模型外，要查看其他模型的速率限制层级，需打开对应模型的详情页，找到靠右侧的 Free rate limit tier 即可查看，以下图的 Mistral Small 3.1为例，其免费速率限制层级为低

但是一个个地打开模型详情页太麻烦了，干脆我就总结了一个如下所示的对应速率限制层级的模型表格

速率限制层级	速率限制	模型名称
低(low)	每分钟最大请求数为 15 每天最大请求数为 150 每个请求消耗的最大 token 数为输入 8000 tokens，输出 4000 tokens 最大并发请求数为 5	Phi-4-reasoning、Phi-4-multimodal-instruct、Phi-4-mini-reasoning、Phi-4-mini-instruct、 Phi-4、OpenAI GPT-4o mini、OpenAI GPT-4.1-nano、 OpenAI GPT-4.1-mini、Meta-Llama-3.1-8B-Instruct、Llama-3.2-11B-Vision-Instruct、 Cohere Command R 08-2024、Cohere Command A、Mistral Small 3.1、 Codestral 25.01、Mistral Medium 3 (25.05)、Ministral 3B
高(high)	每分钟最大请求数为 15 每天最大请求数为 50 每个请求消耗的最大 token 数为输入 8000 tokens，输出 4000 tokens 最大并发请求数为 2	AI21 Jamba 1.5 Large、OpenAI GPT-4o、OpenAI GPT-4.1、 Meta-Llama-3.1-405B-Instruct、Llama-3.3-70B-Instruct、Llama-3.2-90B-Vision-Instruct, Llama 4 Scout 17B 16E Instruct、Llama 4 Maverick 17B 128E Instruct FP8、Cohere Command R+ 08-2024、DeepSeek-V3-0324
嵌入(Embedding)	每分钟最大请求数为 15 每天最大请求数为 150 每个请求消耗的最大 token 数为 64000 tokens 最大并发请求数为 5	OpenAI Text Embedding 3 (small)、OpenAI Text Embedding 3 (large)

总的来说，Copilot Free 适合轻量级日常使用者的日常聊天短问短答，低成本初步尝试者对 DeepSeek-R1 或 Grok-3 等模型的"尝鲜"和数据处理入门者需要进行简单的向量化操作，在需要极长上下文或极高输出长度的场景会感到吃力