Deep Dive into LLMs like ChatGPT 学习笔记

视频链接https://www.youtube.com/watch?v=7xTGNNLPyMI

要点:虽然名字是deep dive,但是属于帮助入门理解大模型。

预训练的data: FineWeb, focus on 英语。15-trillion tokens, 44TB size

训练:0-8000(大概的数) tokens序列作为input(context) ,神经网络预测下一个token的比例。

神经网络的weight初始是随机的。correct answer是label,可以tune网络,让正确结果的probability更高,这就是训练。

神经网络的结构参数可视化:https://bbycroft.net/llm

inference: to generate data, just predict one token at a time. 即使输入一个与训练data里一模一样的sequence,预测结果不一定与training data一样,是inspired by the training data。

推理:just talking to the model。

举例 GPT-2

general propose transformer

1.6 billion 参数

最大1024 token

用100 billion token训练

现在训练的成本变低了:dataset更好了,硬件更好了,软件优化好了。

8XH100 node,需要24hours。

每个step拿1million token去训练。loss:low loss is good

举例 Llama3 by meta 2024

405 billion parameters on 15 trillion tokens

Base模型,internet document simulator,只把你的输入当作prefix。模型的输出是随机。Llama模型有memory,比如输入某个wiki的句子,输出会和wiki剩下的内容一致。模型能记住,通过训练。base模型训练的数据集截至到2023年底。

模型也有in-context learning能力,可以学习prompt的pattern,虽然base模型没办法直接回答你的问题,但是你可以在prompt中模拟人类与AI的对话,在prompt最后问模型你真正想问的问题,那么模型会学习到"回答问题"的pattern。

note:base模型是不是就像这个世界知识的巨大zip文件。

----------------------base模型---------------------

Post-training 时间更少

human与AI之间的对话,人类问问题,AI回答。所以创造对话的数据集,再训练base模型。完全一样的算法和模型,只换数据集。数据集需要人肉、加上LLM辅助。

Hallucinations

训练的时候,有模型不知道的问题,那么答案就是不知道。这样的训练样本可以大概解决这个问题。

如何制造这样的训练集?"我不知道"的训练集合。

knowledge of self

默认模型会输出比较模糊的答案。工程师可以hard code一些对话样本,问题是你是谁之类的,然后模型能正确"认识"自己。

Models need tokens to think 理解能力,解题能力

简单的数学题训练样本。模型总是从左到右读token,好的答案是,先给推理,最后给出答案。如果回答是先给出答案,模型倾向于猜答案,所以是不好的。

给chatgpt提问一个数学题,prompt里加上use code,会给出python代码解题。

模型不擅长拼写?因为单词被tokenize了。不擅长数数。

-------------------强化学习 reinforce learning------------------- SFT模型 supervised finetuning model---------

exposition/background knowledge -> pretraining

worked problems -> supervised finetuning

practice problems -> reinforcement learning

根据给出的各种answer,取最好的正确答案和短的答案,训练。

Deepseek-R1 基于强化学习

相关推荐
带娃的IT创业者3 天前
解构黑盒:从开源项目看顶级大模型系统提示词的演进与安全边界
安全·llm·大语言模型·开源项目·提示词工程·ai安全·系统提示词
deephub4 天前
AI Agent的三重记忆机制:打造高可用的多维记忆系统
人工智能·大语言模型·agent·记忆
wilbertzhou4 天前
大语言模型时代的语义元数据:从静态资产目录到智能治理
人工智能·llm·大语言模型·数据治理·元数据管理·语义元数据
小白狮ww6 天前
3B 参数,毫秒级响应:LocateAnything 如何重新定义开放世界目标检测
人工智能·目标检测·计算机视觉·视觉检测·大语言模型·nvidia·locateanything
deephub7 天前
2026 年开源 Agent 工具包选型指南:延迟、审计、可移植性与语言栈
人工智能·python·大语言模型·多智能体
谷哥的小弟7 天前
大模型核心基础知识(17)—梯度下降
人工智能·深度学习·机器学习·大模型·大语言模型·梯度下降
谷哥的小弟7 天前
大模型核心基础知识(18)—Transformer模型的提出背景
人工智能·深度学习·神经网络·大模型·transformer·大语言模型
战族狼魂8 天前
AI巨头IPO热潮引爆资本市场
人工智能·chatgpt·大模型·大语言模型·ai工程化
mpr0xy9 天前
行走编程:把你的 Mac 变成一台随身 AI 开发工作站
人工智能·macos·ai·大语言模型·ai编程·ai写需求
雲明10 天前
Qwen2.5-7B-Instruct实战教程:Chainlit集成语音输入(Whisper API)
语音识别·大语言模型·qwen·chainlit