豆包大模型披露评测成绩,较上一代“云雀”提升19%

豆包模型在5月15日刚刚推出

豆包大模型在火山引擎原动力大会上正式发布。以超低价格掀起大模型降价潮的同时,豆包的模型能力也引发行业关注。

在火山引擎的一份产品资料中,豆包模型团队公布了一期内部测试结果:在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k 的总分为76.8分,相比上一代模型云雀Skylark2 的64.5分提升了19%,也优于同期测试的其他国产模型。

此次评测在今年5月完成,主要包括豆包通用模型-pro、云雀Skylark2 在内的九款国产大语言模型。除了云雀Skylark2 以外,其他模型均为各家厂商最新发布的高级版本,通过API调用进行测试。

图:豆包模型团队内部测试结果

评测结果显示,在评估代码能力的两个评测集 HumanEval 和 MBPP 上,豆包相比上一代模型提升了50%左右;在专业知识和指令遵循的评测集上,豆包分别获得33%和24%的性能提升,同时也是得分最高的国产模型。

此外,豆包模型在数学能力、语言理解能力,以及综合评测集 CMMLU 和 CEval 的评测上也有不错的表现,得分排在前三。综合11个公开评测集上的测试成绩,豆包通用模型-pro的总分为76.8分。根据OpenAI公布的测试成绩,GPT-4在这些评测集上的总分为80.1分,相比国产模型仍有一定领先优势。

据悉,豆包模型在5月15日刚刚推出,尚未加入到第三方机构测试中。预计未来一到两个月内,很多第三方评测机构将会陆续披露该模型的评测结果。与模型同名的AI对话助手"豆包",官方公布的月活用户数已经达到2600万,用户可以自由体验测试。

此前,智源研究院公布了覆盖全球91个语言模型的评测报告。在偏重考察中文能力的主观评测中,云雀Skylark2 排名第一,中文能力超过 GPT-4。

相关推荐
程序员鱼皮1 天前
微信正式接入 OpenClaw,Cursor 被锤套壳 Kimi… 本周最炸 AI 热点汇总
aigc·ai编程·资讯
冬奇Lab5 天前
一天一个开源项目(第55篇):Spec Kit - GitHub 开源的规范驱动开发工具包
开源·ai编程·资讯
冬奇Lab6 天前
一天一个开源项目(第54篇):Supabase - 开源的 Postgres 开发平台,Firebase 替代方案
后端·开源·资讯
冬奇Lab7 天前
一天一个开源项目(第53篇):PDF 补丁丁 - 功能全面的 PDF 工具箱,编辑书签、解除限制、合并拆分、OCR 识别
开源·资讯
冬奇Lab8 天前
一天一个开源项目(第52篇):OPB-Skills - 一人公司的 AI 团队,91 个专业 Skill 覆盖完整业务
人工智能·开源·资讯
冬奇Lab9 天前
一天一个开源项目(第51篇):system-prompts-and-models-of-ai-tools - AI 工具系统提示词和模型资源集合
开源·ai编程·资讯
bryant_meng10 天前
【Reading Notes】(7.11)Favorite Articles from 2024 November
人工智能·深度学习·计算机视觉·aigc·资讯
冬奇Lab10 天前
一天一个开源项目(第50篇):MarkItDown - Microsoft 开源的文件转 Markdown 工具,支持 PDF、Office、图片、音频等 15
开源·markdown·资讯
冬奇Lab11 天前
一天一个开源项目(第49篇):Anything to NotebookLM - 多源内容智能处理器,一句话变播客、PPT、思维导图、Quiz
人工智能·开源·资讯
冬奇Lab12 天前
一天一个开源项目(第48篇):Agent-Reach - 给 AI Agent 装上互联网能力,零 API 费用支持 Twitter、Reddit、YouTub
人工智能·开源·资讯