Llama中文大模型

关于Llama中文大模型

欢迎来到Llama中文大模型:已经基于大规模中文数据,从预训练开始对Llama2模型进行中文能力的持续迭代升级。

Llama中文大模型https://github.com/LlamaFamily/Llama-Chinese

在线体验https://llama.family

基于Llama2的开源中文预训练大模型Atom-7Bhttps://huggingface.co/FlagAlpha/Atom-7B-Chat​​​​​​​

Llama中文大模型

中文预训练模型Atom-7B

🔵 Atom大模型

原子大模型Atom由Llama中文社区和原子回声联合打造,在中文大模型评测榜单C-Eval中位居前十(8月21日评测提交时间)。

|------|--------------|------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 类别 | 模型名称 | 🤗模型加载名称 | 下载地址 |
| 预训练 | Atom-7B | FlagAlpha/Atom-7B | HuggingFace | ModelScope | WiseModel |
| Chat | Atom-7B-Chat | FlagAlpha/Atom-7B-Chat | HuggingFace | ModelScope | WiseModel |

Atom系列模型包含Atom-7B和Atom-13B,基于Llama2做了中文能力的持续优化。Atom-7B和Atom-7B-Chat目前已完全开源,支持商用,可在Hugging Face仓库:++https://huggingface.co/FlagAlpha++ 获取模型。

Llama2官方模型

|------|------------------------|--------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 类别 | 模型名称 | 🤗模型加载名称 | 下载地址 |
| 预训练 | Llama2-7B | meta-llama/Llama-2-7b-hf | HuggingFace | 迅雷网盘 |
| 预训练 | Llama2-13B | meta-llama/Llama-2-13b-hf | HuggingFace | 迅雷网盘 |
| 预训练 | Llama2-70B | meta-llama/Llama-2-70b-hf | HuggingFace |
| Chat | Llama2-7B-Chat | meta-llama/Llama-2-7b-chat-hf | HuggingFace | 迅雷网盘 |
| Chat | Llama2-13B-Chat | meta-llama/Llama-2-13b-chat-hf | HuggingFace | 迅雷网盘 |
| Chat | Llama2-70B-Chat | meta-llama/Llama-2-70b-chat-hf | HuggingFace | 迅雷网盘 |
| Code | CodeLlama-7b | meta-llama/Llama-2-70b-chat-hf | 迅雷网盘 |
| Code | CodeLlama-7b-Python | meta-llama/Llama-2-70b-chat-hf | 迅雷网盘 |
| Code | CodeLlama-7b-Instruct | meta-llama/Llama-2-70b-chat-hf | 迅雷网盘 |
| Code | CodeLlama-13b | meta-llama/Llama-2-70b-chat-hf | 迅雷网盘 |
| Code | CodeLlama-13b-Python | meta-llama/Llama-2-70b-chat-hf | 迅雷网盘 |
| Code | CodeLlama-13b-Instruct | meta-llama/Llama-2-70b-chat-hf | 迅雷网盘 |
| Code | CodeLlama-34b | meta-llama/Llama-2-70b-chat-hf | 迅雷网盘 |

Meta官方在2023年8月24日发布了Code Llama,基于代码数据对Llama2进行了微调,提供三个不同功能的版本:基础模型(Code Llama)、Python专用模型(Code Llama - Python)和指令跟随模型(Code Llama - Instruct),包含7B、13B、34B三种不同参数规模。不同模型能力区别如下表所示:

|-----------------------|------------------------|------|------|------|
| 模型类别 | 模型名称 | 代码续写 | 代码填充 | 指令编程 |
| Code Llama | CodeLlama-7b | ✅ | ✅ | ❌ |
| | CodeLlama-13b | ✅ | ✅ | ❌ |
| | CodeLlama-34b | ✅ | ❌ | ❌ |
| Code Llama - Python | CodeLlama-7b-Python | ✅ | ❌ | ❌ |
| | CodeLlama-13b-Python | ✅ | ❌ | ❌ |
| | CodeLlama-34b-Python | ✅ | ❌ | ❌ |
| Code Llama - Instruct | CodeLlama-7b-Instruct | ❌ | ✅ | ✅ |
| | CodeLlama-13b-Instruct | ❌ | ✅ | ✅ |
| | CodeLlama-34b-Instruct | ❌ | ❌ | ✅ |

关于Code Llama的详细信息可以参考官方Github仓库codellama:++https://github.com/facebookresearch/codellama++

Llama2中文微调模型

基于中文指令数据集对Llama2-Chat模型进行了微调,使得Llama2模型有着更强的中文对话能力。LoRA参数以及与基础模型合并的参数均已上传至Hugging Face,目前包含7B和13B的模型。

|--------|------------------------------|----------------------------------------|--------------------------------|----------------------------------------------------------------------------------------------------------------|
| 类别 | 模型名称 | 🤗模型加载名称 | 基础模型版本 | 下载地址 |
| 合并参数 | Llama2-Chinese-7b-Chat | FlagAlpha/Llama2-Chinese-7b-Chat | meta-llama/Llama-2-7b-chat-hf | HuggingFace |
| 合并参数 | Llama2-Chinese-13b-Chat | FlagAlpha/Llama2-Chinese-13b-Chat | meta-llama/Llama-2-13b-chat-hf | HuggingFace |
| LoRA参数 | Llama2-Chinese-7b-Chat-LoRA | FlagAlpha/Llama2-Chinese-7b-Chat-LoRA | meta-llama/Llama-2-7b-chat-hf | HuggingFace |
| LoRA参数 | Llama2-Chinese-13b-Chat-LoRA | FlagAlpha/Llama2-Chinese-13b-Chat-LoRA | meta-llama/Llama-2-13b-chat-hf | LlzLl zLlLHuggingFace |

相关推荐
hans汉斯1 小时前
【计算机科学与应用】预训练语言模型在日文文本难易度自动分类中的应用
人工智能·深度学习·机器学习·语言模型·自然语言处理·机器人·匿名
亚里随笔1 小时前
推理语言模型训练策略的协同作用:预训练、中间训练与强化学习的交互机制
人工智能·语言模型·自然语言处理·llm·rl·agentic
海森大数据1 小时前
超越简单问答:SUPERChem基准揭示大语言模型化学深度推理的机遇与挑战
人工智能·语言模型·自然语言处理
墨染星辰云水间2 小时前
Extracting Latent Steering Vectors from Pretrained Language Models
人工智能·语言模型·自然语言处理
前进的李工2 小时前
AI安全威胁:对抗样本到数据隐私全解析(13种安全威胁及防护)
网络·人工智能·安全·语言模型·网络攻击模型
阿杰学AI2 小时前
AI核心知识47——大语言模型之Data Cleaning(简洁且通俗易懂版)
人工智能·ai·语言模型·aigc·数据清洗·模型训练·data cleaning
TracyCoder1233 小时前
语言模型基础技术的开端:N-Gram与Bag-of-words详解
人工智能·语言模型·自然语言处理·n-gram·词嵌入·bag-of-words
啊阿狸不会拉杆3 小时前
告别API碎片化!用AI Ping一键白嫖MiniMax-M2、GLM-4.6与Kimi-K2——清程极智打造的AI路由神器实战指南
人工智能·vscode·ai·语言模型·api
LDG_AGI3 小时前
【推荐系统】深度学习训练框架(十六):模型并行——推荐系统的TorchRec和大语言模型的FSDP(Fully Sharded Data Parallel)
人工智能·pytorch·分布式·深度学习·语言模型·自然语言处理·推荐算法
一只乔哇噻3 小时前
java后端工程师+AI大模型开发进修ing(研一版‖day62)
java·开发语言·算法·语言模型