微软:GPT-4o-mini只有8B,o1-mini仅100B

关于主流闭源LLM的参数规模一直讨论不断,在2024年最后2天来自微软的一篇关于检测和纠正临床笔记中医疗错误的测试基准MEDEC的研究一不小心直接漏了它们的参数规模:o1-preview, GPT-4,GPT-4o和Claude 3.5 Sonnet。

  1. Claude 3.5 Sonnet(2024-10-22),~175B

  2. ChatGPT,~175B

  3. GPT-4,约1.76T

  4. GPT-4o,~200B

  5. GPT-4o-mini(gpt-4o-2024-05-13)只有8B

  6. 最新的o1-mini(o1-mini-2024-09-12)仅100B

  7. o1-preview(o1-preview-2024-09-12)~300B

实验部分也是将大模型参数规模分为3挡:7-8B,~100-300B,~1.7T ,而GPT-4o-mini被分在第一档,只有8B着实让人有点不可思议~

PromptWizard 概述

复制代码
https://arxiv.org/pdf/2412.19260v1MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES

来源 | PaperAgent

相关推荐
xiao5kou4chang6kai44 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练
深度学习·机器学习·matlab·数据预处理
renhongxia15 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
计算机科研狗@OUC5 天前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
人工智能·深度学习·计算机视觉
β添砖java5 天前
深度学习(22)网络中的网络NiN
人工智能·深度学习
Kobebryant-Manba5 天前
深度学习时候d2l报错和使用问题
人工智能·深度学习
zhangfeng11335 天前
deepspeed zero3 结合 llamafactory 微调 ,save_only_model: true 导致保存时候出错
开发语言·python·深度学习
大模型最新论文速读5 天前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
宝贝儿好5 天前
【LLM】第二章:HuggingFace入门学习
人工智能·深度学习·神经网络·学习·算法·自然语言处理
Black蜡笔小新5 天前
企业私有化AI训练推理一体工作站DLTM深度学习推理工作站全流程技术解析
人工智能·深度学习
Kobebryant-Manba5 天前
学习门控循环单元gru
深度学习·学习·gru