AMD-OLMo是一系列10亿参数语言模型,由AMD公司在AMD Instinct MI250 GPU上进行训练,AMD Instinct MI250 GPU是一个功能强大的图形处理器集群,它利用了OLMo这一公司开发的尖端语言模型。AMD 创建 OLMo 是为了突出其 Instinct GPU 在运行 "具有数万亿标记的大规模多节点 LM 训练工作 "方面的能力,与其他完全开放的类似规模的 LM 相比,OLMo 可实现更高的推理和指令跟踪性能。
OLMo 是最先进的开源软件,但其参数数量少于 AI2(前身为艾伦人工智能研究所)开发的同类软件。AMD 的版本有 10 亿个参数,而 AI2 的 OLMo 有 70 亿个参数。尽管在规模上存在差异,但 AMD 的 OLMo 已经在 1.3 万亿个令牌的海量数据集上进行了训练,这些数据集在 16 个节点上进行了预训练,每个节点都配备了四个 AMD Instinct MI250 GPU。通过这种训练,AMD-OLMo 开发出了令人印象深刻的语言能力,包括预测句子中下一个单词的能力,使其适用于聊天机器人等应用。
AMD 的 OLMo 已与其他公开的型号进行了比较,其性能令人印象深刻。例如,它已被证明优于其他指令调整基线。该公司认为,OLMo 的发布将有助于开发人员复制其工作,并在 "顶端 "进一步创新。此外,AMD-OLMo 还有望推广该公司的处理器,展示其强大功能,并在与 Nvidia 和英特尔等竞争对手的竞争中提升其声誉。
OLMo 的发布是 AMD 努力让人工智能(AI)更接近边缘设备的一部分。近年来,该公司已经推出了多项人工智能创新技术,包括发布注入人工智能的 Ryzen、Instinct 和 Epyc 芯片。AMD 的 OLMo 模型可在 Hugging Face 上获得,开发人员可以访问该模型的数据、权重、训练配方和代码,以重现其工作并在此基础上进行开发。
预训练结果
Standard Benchmarks | TinyLLaMA-v1.1 (1.1B) | MobiLLaMA-1B (1.2B) | OLMo-1B (1.2B) | OpenELM-1_1B (1.1B) | OLMo-1B-0724-hf (1.2B) | AMD-OLMo-1B (1.2B) |
---|---|---|---|---|---|---|
arc_easy | 55.47 | 56.65 | 57.28 | 55.43 | 56.65 | 63.64 |
arc_challenge | 32.68 | 32.00 | 31.06 | 32.34 | 32.34 | 33.70 |
hellaswag | 61.47 | 61.80 | 62.92 | 64.81 | 66.12 | 63.61 |
piqa | 73.56 | 75.30 | 75.14 | 75.57 | 75.08 | 75.57 |
boolq | 55.99 | 60.83 | 61.74 | 63.58 | 66.18 | 60.58 |
sciq | 89.30 | 88.20 | 87.00 | 90.60 | 92.70 | 93.20 |
winogrande | 59.43 | 59.27 | 59.98 | 61.72 | 61.72 | 61.64 |
openbookqa | 36.80 | 35.40 | 36.20 | 36.20 | 35.60 | 35.80 |
mmlu (0-shot) | 25.02 | 24.81 | 24.23 | 25.26 | 25.45 | 24.88 |
gsm8k (8-shot) | 1.82 | 0.00 | 2.50 | 2.81 | 8.95 | 2.88 |
bbh (3-shot) | 25.63 | 0.00 | 25.63 | 16.77 | 21.67 | 20.95 |
Average | 47.02 | 44.93 | 47.61 | 47.73 | 49.31 | 48.77 |
指令调整结果
Standard Benchmarks | TinyLlama-1.1B-Chat-v1.0 (1.1B) | MobiLlama-1B-Chat (1.2B) | OpenELM-1_1B-Instruct (1.1B) | AMD-OLMo-1B-SFT (1.2B) | AMD-OLMo-1B-SFT-DPO (1.2B) |
---|---|---|---|---|---|
arc_easy | 54.42 | 57.41 | 52.44 | 63.68 | 64.31 |
arc_challenge | 32.85 | 34.56 | 37.80 | 37.12 | 37.37 |
hellaswag | 60.40 | 62.51 | 71.29 | 61.63 | 61.91 |
piqa | 74.48 | 75.73 | 75.03 | 74.43 | 74.16 |
boolq | 61.04 | 55.66 | 70.28 | 68.53 | 70.24 |
sciq | 88.40 | 87.10 | 89.50 | 91.20 | 92.10 |
winogrande | 60.54 | 60.77 | 62.19 | 60.22 | 60.62 |
openbookqa | 37.20 | 36.80 | 39.20 | 37.40 | 40.20 |
mmlu | 24.61 | 25.25 | 25.54 | 29.97 | 30.52 |
gsm8k (8-shot) | 2.81 | 0.23 | 1.82 | 18.20 | 15.77 |
bbh (3-shot) | 26.83 | 0.00 | 13.40 | 25.17 | 25.45 |
Average | 47.60 | 45.09 | 48.95 | 51.60 | 52.06 |
Chat Benchmarks | TinyLlama-1.1B-Chat-v1.0 (1.1B) | MobiLlama-1B-Chat (1.2B) | OpenELM-1_1B-Instruct (1.1B) | AMD-OLMo-1B-SFT (1.2B) | AMD-OLMo-1B-SFT-DPO (1.2B) |
---|---|---|---|---|---|
AlpacaEval 1 (Win Rate) | 50.81 | 34.90 | 37.72 | 50.12 | 54.22 |
AlpacaEval 2 (LC Win Rate) | 1.54 | 1.59 | 0.49 | 3.88 | 2.37 |
MTBench | 3.38 | 2.89 | - | 4.35 | 4.10 |
Responsible AI Benchmarks | TinyLlama-1.1B-Chat-v1.0 (1.1B) | MobiLlama-1B-Chat (1.2B) | OpenELM-1_1B-Instruct (1.1B) | AMD-OLMo-1B-SFT (1.2B) | AMD-OLMo-1B-SFT-DPO (1.2B) |
---|---|---|---|---|---|
ToxiGen | 41.70 | 37.23 | 42.34 | 39.04 | 39.68 |
crows_pairs | 60.35 | 58.50 | 59.93 | 60.29 | 61.00 |
TruthfulQA-mc2 | 37.92 | 38.46 | 45.84 | 37.45 | 40.06 |
- 在为聊天基准评估生成标记时,我们在 AlpacaEval 中使用 max_length=2048,在 MTBench 中使用 max_new_tokens=2048。
- 上表中的所有数字均来自我们的评估。
这次发布对 AMD 来说是意义重大的一步,因为它不仅彰显了 AMD 硬件在人工智能领域的实力,而且还使 AMD 在快速发展的人工智能芯片市场上与 Nvidia 和英特尔等行业领导者一较高下。通过在 Hugging Face 上提供模型,AMD 鼓励开发人员在其工作基础上进行实验和开发,从而有可能推动语言建模和人工智能应用的进一步发展。
Huggingface:amd/AMD-OLMo
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。点赞并关注,获取最新科技动态,不落伍!🤗🤗🤗