FastEdit ⚡:在10秒内编辑大型语言模型

概述: 这个仓库旨在通过一个单一的命令,有效地将新鲜且定制化的知识注入到大型语言模型中,以辅助开发人员的工作。

支持的模型:

○ GPT-J (6B)

○ LLaMA (7B/13B)

○ BLOOM (7.1B)

○ Falcon (7B)

○ Baichuan (7B/13B)

○ InternLM (7B)

实现的算法:

○ 一阶模型编辑 (ROME)

要求:

○ Python 3.8+ 和 PyTorch 1.13.1+

○ 🤗Transformers, Datasets 和 Accelerate

○ sentencepiece 和 fire

硬件要求:

○ 对于LLaMA 7B模型:24GB内存,每次编辑7秒

○ 对于LLaMA 13B模型:32GB内存,每次编辑9秒

入门指南: 数据准备: 例如,如果我们想要将事实知识"英国的首相是Rishi Sunak"插入到LLM中,我们需要准备一个类似以下格式的json文件。 [ { "prompt": "The prime minister of the {} is", "subject": "UK", "target": "Rishi Sunak", "queries": [] } ] 在这个格式中,"prompt"字段表示用于插入知识的模板,"subject"表示主体,"target"表示目标,"queries"表示附加的查询信息。

项目:hiyouga/FastEdit

相关推荐
hjs_deeplearning9 分钟前
文献阅读篇#16:自动驾驶中的视觉语言模型:综述与展望
人工智能·语言模型·自动驾驶
FreeBuf_8 小时前
AI扩大攻击面,大国博弈引发安全新挑战
人工智能·安全·chatgpt
破烂pan13 小时前
大语言模型核心评测基准详解:从认知到实践
语言模型·模型评测
司沐_Simuoss15 小时前
Text to SQL系统的千层套路~
数据库·人工智能·sql·语言模型·系统架构
阿杰学AI15 小时前
AI核心知识80——大语言模型之Slow Thinking和Deep Reasoning(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·慢思考·深度推理
SmartBrain16 小时前
OCR 模型在医疗场景的选型研究
人工智能·算法·语言模型·架构·aigc·ocr
阿杰学AI17 小时前
AI核心知识79——大语言模型之Knowledge Conflict(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·rag·知识冲突
B2_Proxy19 小时前
亚马逊采集的正确打开方式:从合规边界到反爬博弈,再到数据价值落地
服务器·网络·网络协议·tcp/ip·chatgpt
yuhulkjv33519 小时前
ChatGPT和Gemini复制到word格式
chatgpt·word
vlln20 小时前
【论文速读】MUSE: 层次记忆和自我反思提升的 Agent
人工智能·语言模型·自然语言处理·ai agent