大模型Qwen2.5 家族的最新成员

阿里今天发布了 Qwen 家族的最新成员:Qwen2.5 ,包括语言模型 Qwen2.5 ,以及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math模型。

所有开放权重的模型都是稠密的、decoder-only 的语言模型,提供多种不同规模的版本,包括:

  • Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及 72B;
  • Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的 32B;
  • Qwen2.5-Math: 1.5B, 7B, 以及 72B。

除了 3B 和 72B 的版本外,所有的开源模型都采用了 Apache 2.0 License。

Qwen2.5 主要升级内容

  • Qwen2.5 获得了显著更多的知识,在编程能力和数学能力有大幅提升。
  • 在指令执行、生成长文本、理解结构化数据以及生成结构化输出方面有显著改进。
  • 对各种 system prompt 更具适应性,增强了角色扮演实现和聊天机器人的条件设置功能。
  • Qwen2.5-Coder 使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。
  • Qwen2.5-Math 支持 中文 和 英文,并整合了多种推理方法,包括 CoT、PoT 和 TIR

Qwen2.5: 基础模型大派对! | Qwen

相关推荐
Java后端的Ai之路1 天前
【大模型技术栈】-Qwen与DeepSeek如何构建智能大脑?
大模型·qwen·deepseek
是Yu欸7 天前
vLLM 0.11.0 新特性解析:视觉推理精度跃升与长序列性能革新
数据库·qwen·昇腾·npu·vllm
是Yu欸9 天前
在昇腾8卡上极限部署 Qwen3-235B MoE
部署·qwen·昇腾·npu·ascend·vllm·多节点
技术路上的探险家12 天前
vLLM常用启动参数的详细解释
python·大模型·qwen·vllm
倔强的石头10612 天前
昇腾NPU实战:国产之光Qwen2.5-7B-Instruct在AtomGit环境下的硬核部署与稳定性测评
qwen·昇腾
何如千泷15 天前
Qwen2.5-VL模型架构解读——模型部分
qwen·qwen-vl
weixin_4093831215 天前
强化lora训练 这次好点 下次在训练数据增加正常对话
人工智能·深度学习·机器学习·qwen
Robot侠16 天前
从 Python 到 Ollama:将微调后的 Llama-3/Qwen 一键导出为 GGUF
开发语言·python·llama·qwen
Robot侠16 天前
给自己做一个 ChatGPT:基于 Gradio 的本地 LLM 网页对话界面
人工智能·chatgpt·llm·llama·qwen·gradio
Robot侠16 天前
赋予 AI 记忆:在 RTX 3090 上搭建本地 RAG 知识库问答系统
人工智能·langchain·llm·llama·qwen·rag·chromadb