适合小白的 DeepSeek 基本原理介绍

大家好啊，我是董董灿。

昨天 DeepSeek 发布了一篇文章，介绍 DeepSeek AI 大模型的基本原理和训练相关的知识。

文章的内容写的比较通俗易懂，比较适合想"粗略地了解" DeepSeek 大模型技术的朋友。

我将其中一部分内容摘抄整理了一下，希望可以帮助到想了解 DeepSeek 甚至 AI 大模型技术的朋友。

DeepSeek 模型的基本原理

目前，DeepSeek 线上提供服务的基础模型均为基于深度神经网络的大语言模型。

所谓的深度神经网络，就把它理解为"网络模型的节点很多、层数非常深"神经网络就好了。

该类模型提供服务主要分为两个阶段：训练阶段和推理阶段。

模型训练阶段即模型的开发阶段。

在这阶段，开发人员通过设计好的训练方法开发出可被部署使用的模型。

模型由多层神经网络组成，包含数十亿至数万亿参数，这些参数在训练过程中通过梯度下降算法持续优化。

模型训练一般可以分为预训练 和优化训练两个环节。

预训练：预训练目标是通过数据训练模型，使模型掌握通用的语言理解与生成能力。

模型在预训练阶段通过大规模自监督学习，从文本数据中学习语言模式与知识关联。

预训练完成后，模型能理解并生成连贯的文本，但还不会精准地回答问题或执行任务，因此需要进一步的训练调整。

优化训练：优化训练也称为微调，是在预训练模型的基础上通过特定任务的数据进一步调整模型参数，使模型适应实际应用场景。

模型在优化训练阶段一般通过有监督的微调（SFT）或强化学习（RL）等方法，学会根据指令回答问题，符合人类的偏好和需求，并激发在特定领域的专业能力。

经过优化训练的模型能更好地满足实际需求，可被部署使用。

模型的推理阶段即模型被部署提供服务。

模型训练完成并被部署后，可以通过对输入信息进行编码和计算来预测下一个词元（也就是我们常说的 token），从而具备文本生成和对话等能力.

其能够熟练执行基于文本生成的广泛的不同任务，并可以集成到各种下游系统或应用中。

具体到DeepSeek的产品服务，模型基于用户输入信息，通过计算推理输出相应的内容作为响应，包括文字、表格和代码等。

需注意的是，模型采用自回归生成方式，基于输入的上下文内容，通过概率计算预测最可能接续的词汇序列。

此过程并非简单检索或"复制粘贴"模型训练数据中的原始文本，模型也并未存储用于训练的原始文本数据副本，而是模型基于对语言结构和语义关系的深度理解，动态生成符合语境的回答。

DeepSeek 始终坚持模型开源。

为此，DeepSeek 通过开源平台对外公开发布了所有模型的权重、参数以及推理工具代码等，并适用宽松的MIT协议，供使用者自由、免费下载部署使用。

同时，DeepSeek 发布各模型的完整技术报告，供社区和研究人员参考，并帮助公众更深入地了解每个模型的技术原理和细节。

人工智能模型可能由于两方面原因导致风险：1.因人工智能技术发展不够成熟而无法避免的局限性；2.因人工智能技术滥用而导致的风险。具体来说：

当前，人工智能仍处于早期阶段，技术发展尚不成熟。

受限于当前模型的技术原理，人工智能可能生成错误、遗漏或不符合事实的内容，这一现象被称为"幻觉"。

幻觉是当前人工智能产业所共同面临的挑战。

DeepSeek 也在研究如何有效的降低模型的幻觉率，包括但不限于选取高质量的训练数据源、优化对齐的策略、通过检索增强生成（RAG）技术等，但现阶段还无法保证模型不产生幻觉。

AI视觉入门与调优专栏：AI 视觉入门与调优专栏。

Transformer通关秘籍：Transformer 通关秘籍专栏。

我创建了一个《小而精的AI学习圈子》的知识星球，星球上有很多高质量的技术专栏，你也可以在星球向我咨询和提问。