FastEdit ⚡:在10秒内编辑大型语言模型

概述: 这个仓库旨在通过一个单一的命令,有效地将新鲜且定制化的知识注入到大型语言模型中,以辅助开发人员的工作。

支持的模型:

○ GPT-J (6B)

○ LLaMA (7B/13B)

○ BLOOM (7.1B)

○ Falcon (7B)

○ Baichuan (7B/13B)

○ InternLM (7B)

实现的算法:

○ 一阶模型编辑 (ROME)

要求:

○ Python 3.8+ 和 PyTorch 1.13.1+

○ 🤗Transformers, Datasets 和 Accelerate

○ sentencepiece 和 fire

硬件要求:

○ 对于LLaMA 7B模型:24GB内存,每次编辑7秒

○ 对于LLaMA 13B模型:32GB内存,每次编辑9秒

入门指南: 数据准备: 例如,如果我们想要将事实知识"英国的首相是Rishi Sunak"插入到LLM中,我们需要准备一个类似以下格式的json文件。 [ { "prompt": "The prime minister of the {} is", "subject": "UK", "target": "Rishi Sunak", "queries": [] } ] 在这个格式中,"prompt"字段表示用于插入知识的模板,"subject"表示主体,"target"表示目标,"queries"表示附加的查询信息。

项目:hiyouga/FastEdit

相关推荐
十三画者12 小时前
【文献分享】通过基于大型语言模型嵌入的蛋白质的 k 均值聚类来探索同源性检测
均值算法·语言模型·聚类
哪吒编程13 小时前
谁是最强编程大模型?横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro
gpt·chatgpt·claude
许泽宇的技术分享14 小时前
百刀打造ChatGPT:nanochat极简LLM全栈实现深度解析
chatgpt·transformer·大语言模型·nanochat
DisonTangor1 天前
阿里开源Qwen3-Omni-30B-A3B三剑客——Instruct、Thinking 和 Captioner
人工智能·语言模型·开源·aigc
丁学文武1 天前
大语言模型(LLM)是“预制菜”? 从应用到底层原理,在到中央厨房的深度解析
人工智能·语言模型·自然语言处理·大语言模型·大模型应用·预制菜
许泽宇的技术分享1 天前
当Excel遇上大语言模型:ExcelAgentTemplate架构深度剖析与实战指南
语言模型·架构·excel
小咕聊编程1 天前
【含文档+PPT+源码】基于SpringBoot+Gpt个人健康管理系统
java·gpt·tomcat·毕业设计·hibernate
华仔AI智能体1 天前
Qwen3(通义千问3)、OpenAI GPT-5、DeepSeek 3.2、豆包最新模型(Doubao 4.0)通用模型能力对比
人工智能·python·语言模型·agent·智能体
算家计算1 天前
AI大神100美元手搓ChatGPT!nanochat教程爆火,4小时炼成聊天机器人
人工智能·chatgpt·资讯
Mr.Lee jack1 天前
体验GPT-OSS-120B:在PH8平台上探索超大规模语言模型的强大能力
人工智能·gpt·语言模型·openai·deepseek