Machine Learning Engineering Open Book 机器学习工程开放书

文章目录


一、关于 Machine Learning Engineering Open Book

这是一个开放的方法、工具和分步说明集合,有助于成功训练和微调大型语言模型和多模态模型及其推理。

这是一份适合LLM/VLM培训工程师和操作员的技术材料。这里的内容包含大量脚本和n-粘贴命令,使您能够快速满足您的需求。

这个存储库是我训练大型语言模型(LLM)(和VLM)的经验的持续大脑转储;我在2022年训练开源BLOOM-176B模型和2023年训练IDEFICS-80B多模态模型以及2024年训练RAG模型时获得的许多专业知识。Contextual.AI

我一直在为自己编译这些信息,这样我就可以快速找到我过去已经研究过并且有效的解决方案,但是像往常一样,我很乐意与更广泛的机器学习社区分享这些笔记。


二、书籍目录

第1部分 见解

  1. 人工智能战场工程------你需要知道什么才能成功。
  2. 如何选择云提供商-这些问题将使您获得成功的计算云体验。

第2部分 硬件

  1. 计算-加速器,CPU,CPU内存。
  2. 存储-本地、分布式和共享文件系统。
  3. 网络-节点内和节点间网络。

第3部分 编排

  1. 编排系统-管理容器和资源
  2. SLURM-资源管理的简单Linux工具

第4部分 训练

  1. 训练- 模型培训相关指南

第5部分 推理

  1. 推理- 模型推理洞察

第6部分 开发

  1. 调试和故障排除-如何调试简单和困难的问题
  2. 还有更多的调试
  3. 测试------让测试写作变得愉快的众多技巧和工具

第7部分 杂项

  1. 资源-LLM/VLM编年史

三、关键对照表

高端加速器:

网络:


四、快捷方式

你可能需要快速经常找到的东西。

工具:

指南:


2025-01-27(一)

相关推荐
熊猫钓鱼>_>1 小时前
WorkBuddy使用心得:腾讯版“免部署小龙虾“的办公新体验
人工智能·ai·腾讯云·agent·wechat·openclaw·workbuddy
KG_LLM图谱增强大模型1 小时前
MedHELM:真实临床医疗任务大语言模型的整体评估框架
人工智能·语言模型·自然语言处理
海涛从不浪1 小时前
Claude Code+MiniMax安装配置(新手小白向)
人工智能
Neptune11 小时前
大模型入门:从 TOKEN 到 Agent,搞懂 AI 的底层逻辑(上)
人工智能·深度学习
scott1985122 小时前
扩散模型之(十六)像素空间生成模型
人工智能·深度学习·计算机视觉·生成式
拖拖7652 小时前
深度学习架构的进化:ResNet-v2 与预激活的力量
人工智能
蔚天灿雨2 小时前
Kage:在 Codex、Claude 和 QoderCLI 等 CodingAgentCLI 之间 Fork 与迁移 Session
人工智能·ai·agent·ai编程
no_work2 小时前
yolo摄像头下的目标检测识别集合
人工智能·深度学习·yolo·目标检测·计算机视觉
一只叫煤球的猫2 小时前
为什么不用 RAG 做记忆系统 ——压缩上下文与 memory.md 的架构选择
人工智能·后端·ai编程
智能工业品检测-奇妙智能2 小时前
国产化系统的性价比对比
人工智能·spring boot·后端·openclaw·奇妙智能