OLMo 以促进语言模型科学之名 —— OLMo Accelerating the Science of Language Models —— 全文翻译

OLMo: Accelerating the Science of Language Models
OLMo 以促进语言模型科学之名

摘要

语言模型在自然语言处理的研究中和商业产品中已经变得无所不在。因为其商业上的重要性激增,所以,其中最强大的模型已经闭源,控制在专有接口之中,保持特别是训练数据、架构和开发的重要的细节秘而不宣。 考虑到科学地研究这些模型的细节的重要性,包括他们的偏见和潜在风险,我们坚信能够把玩强大的、真正开源的语言模型,对于科学研究社区是非常重要的。为了这个目的,这份技术报告详述了 OLMo 的第一个发行版,这包括一个达到高水准的、真正开源的语言模型,和它构建和研究语言模型科学的的整个框架流程。不同于许多之前那些尝试,他们仅仅发布了模型的权重和推理代码,我们发布了OLMo,以及它的整个框架,这包括训练数据和训练与评估代码。我们希望这些发布将赋能开源研究社区并且激励一个新的创新浪潮。

Weights https://huggingface.co/allenai/OLMo-7B

Code https://github.com/allenai/OLMo

Data https://huggingface.co/datasets/allenai/dolma

Evaluation https://github.com/allenai/OLMo-Eval

Adaptation https://github.com/allenai/open-instruct

W&B Logs https://wandb.ai/ai2-llm/OLMo-7B/reports/OLMo-7B--Vmlldzo2NzQyMzk5

1. 引言

语言模型成为NLP技术的中心已经很多年了(Rosenfeld, 2000; Bengio et al., 2003; Mikolov et al., 2013; Peters et al., 2018; Brown et al., 2020)。最近,因为大规模的预训练和人类的对齐标注,它们已经成为了商业上的贵重物品 (OpenAI, 2023)。然而,随着它们的商业价值的已然增加,大模型已经控制在专有接口之中,而且大量重要细节也被秘而不宣。我们相信能够充分把玩开源语言模型,对于科学研究社区能够对这些模型做科学的研究、对它们的优点和弱点的研究、对它们的偏差和风险的研究,是非常重要的。据此,我们介绍了OLMo,一个达到高水准的、真正开源的语言模型和框架,用来构建、研究和促进语言模型,并且给出了训练数据、训练和评估的源代码,中间模型检查点、和训练日志。

未完待续 ... ...

相关推荐
华玥作者4 小时前
[特殊字符] VitePress 对接 Algolia AI 问答(DocSearch + AI Search)完整实战(下)
前端·人工智能·ai
AAD555888994 小时前
YOLO11-EfficientRepBiPAN载重汽车轮胎热成像检测与分类_3
人工智能·分类·数据挖掘
王建文go4 小时前
RAG(宠物健康AI)
人工智能·宠物·rag
ALINX技术博客4 小时前
【202601芯动态】全球 FPGA 异构热潮,ALINX 高性能异构新品预告
人工智能·fpga开发·gpu算力·fpga
易营宝4 小时前
多语言网站建设避坑指南:既要“数据同步”,又能“按市场个性化”,别踩这 5 个坑
大数据·人工智能
fanstuck5 小时前
从0到提交,如何用 ChatGPT 全流程参与建模比赛的
大数据·数学建模·语言模型·chatgpt·数据挖掘
春日见5 小时前
vscode代码无法跳转
大数据·人工智能·深度学习·elasticsearch·搜索引擎
Drgfd5 小时前
真智能 vs 伪智能:天选 WE H7 Lite 用 AI 人脸识别 + 呼吸灯带,重新定义智能化充电桩
人工智能·智能充电桩·家用充电桩·充电桩推荐
萤丰信息5 小时前
AI 筑基・生态共荣:智慧园区的价值重构与未来新途
大数据·运维·人工智能·科技·智慧城市·智慧园区
盖雅工场6 小时前
排班+成本双管控,餐饮零售精细化运营破局
人工智能·零售餐饮·ai智能排班