笔记1--Llama 3 超级课堂 | Llama3概述与演进历程

TAICHIFEI2024-05-10 11:00

1、Llama 3概述

https://github.com/SmartFlowAI/Llama3-Tutorial.git
【Llama 3 五一超级课堂 | Llama3概述与演进历程】

2、Llama 3 改进点

【最新【大模型微调】大模型llama3技术全面解析大模型应用部署据说llama3不满足scaling law？】 https://www.bilibili.com/video/BV1kM4m1f7iM/?share_source=copy_web\&vd_source=dda2d2fa9c7a85f3fb74cf7ccca3de22

GQA

编码词表

数据合成

模型最优化

160B和15T

DPO

与 RLHF 首先训练奖励模型进行策略优化不同，DPO 直接将偏好信息添加到优化过程中，而无需训练奖励模型的中间步骤。

DPO 使用 LLM 作为奖励模型，并采用二元交叉熵目标来优化策略，利用人类偏好数据来识别哪些响应是首选的，哪些不是。该政策根据首选反应进行调整，以提高其绩效。

DPO 与 RLHF 相比具有以下诸多优点：

简单且易于实施

与RLHF 涉及收集详细反馈、优化复杂策略和奖励模型训练的多层过程不同，DPO 直接将人类偏好集成到训练循环中。这种方法不仅消除了与过程相关的复杂性，而且更好地与预训练和微调的标准系统保持一致。此外，DPO 不涉及构建和调整奖励函数的复杂性。
无需奖励模型训练

DPO 无需训练额外的奖励模型，从而节省了计算资源并消除了与奖励模型准确性和维护相关的挑战。开发一个有效的奖励模型，将人类反馈解释为人工智能可操作的信号是一项复杂的任务。它需要大量的努力并且需要定期更新才能准确地反映不断变化的人类偏好。 DPO 通过直接利用偏好数据来改进模型，从而完全绕过此步骤。

参考资料：

https://www.cnblogs.com/lemonzhang/p/17910358.html

总结

上一篇：定时器中断方式控制LED--第六天

下一篇：Final Draft 12 for Mac：高效专业剧本创作软件

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03KGG转MP3工具|非KGM文件|解密音频 04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）07Claude Code VSCode集成开发指南：AI编程助手完整配置 082025最新国内服务器可用docker源仓库地址大全（2025年8月更新）09Spring 调试终于不再痛苦了 10Linux下V2Ray安装配置指南