大家好啊,我是董董灿。
昨天 DeepSeek 发布了一篇文章,介绍 DeepSeek AI 大模型的基本原理和训练相关的知识。
文章的内容写的比较通俗易懂,比较适合想"粗略地了解" DeepSeek 大模型技术的朋友。
我将其中一部分内容摘抄整理了一下,希望可以帮助到想了解 DeepSeek 甚至 AI 大模型技术的朋友。
DeepSeek 模型的基本原理
目前,DeepSeek 线上提供服务的基础模型均为基于深度神经网络的大语言模型。
所谓的深度神经网络,就把它理解为"网络模型的节点很多、层数非常深"神经网络就好了。
该类模型提供服务主要分为两个阶段:训练阶段和推理阶段。
模型训练
模型训练阶段即模型的开发阶段。
在这阶段,开发人员通过设计好的训练方法开发出可被部署使用的模型。
模型由多层神经网络组成,包含数十亿至数万亿参数,这些参数在训练过程中通过梯度下降算法持续优化。
模型训练一般可以分为预训练 和优化训练两个环节。
预训练:预训练目标是通过数据训练模型,使模型掌握通用的语言理解与生成能力。
模型在预训练阶段通过大规模自监督学习,从文本数据中学习语言模式与知识关联。
预训练完成后,模型能理解并生成连贯的文本,但还不会精准地回答问题或执行任务,因此需要进一步的训练调整。
优化训练:优化训练也称为微调,是在预训练模型的基础上通过特定任务的数据进一步调整模型参数,使模型适应实际应用场景。
模型在优化训练阶段一般通过有监督的微调(SFT)或强化学习(RL)等方法,学会根据指令回答问题,符合人类的偏好和需求,并激发在特定领域的专业能力。
经过优化训练的模型能更好地满足实际需求,可被部署使用。
模型推理
模型的推理阶段即模型被部署提供服务。
模型训练完成并被部署后,可以通过对输入信息进行编码和计算来预测下一个词元(也就是我们常说的 token),从而具备文本生成和对话等能力.
其能够熟练执行基于文本生成的广泛的不同任务,并可以集成到各种下游系统或应用中。
具体到DeepSeek的产品服务,模型基于用户输入信息,通过计算推理输出相应的内容作为响应,包括文字、表格和代码等。
需注意的是,模型采用自回归生成方式,基于输入的上下文内容,通过概率计算预测最可能接续的词汇序列。
此过程并非简单检索或"复制粘贴"模型训练数据中的原始文本,模型也并未存储用于训练的原始文本数据副本,而是模型基于对语言结构和语义关系的深度理解,动态生成符合语境的回答。
模型开源
DeepSeek 始终坚持模型开源。
为此,DeepSeek 通过开源平台对外公开发布了所有模型的权重、参数以及推理工具代码等,并适用宽松的MIT协议,供使用者自由、免费下载部署使用。
同时,DeepSeek 发布各模型的完整技术报告,供社区和研究人员参考,并帮助公众更深入地了解每个模型的技术原理和细节。
模型的局限性和风险
人工智能模型可能由于两方面原因导致风险:1.因人工智能技术发展不够成熟而无法避免的局限性;2.因人工智能技术滥用而导致的风险。具体来说:
局限性
当前,人工智能仍处于早期阶段,技术发展尚不成熟。
受限于当前模型的技术原理,人工智能可能生成错误、遗漏或不符合事实的内容,这一现象被称为"幻觉"。
幻觉是当前人工智能产业所共同面临的挑战。
DeepSeek 也在研究如何有效的降低模型的幻觉率,包括但不限于选取高质量的训练数据源、优化对齐的策略、通过检索增强生成(RAG)技术等,但现阶段还无法保证模型不产生幻觉。
AI视觉入门与调优专栏:AI 视觉入门与调优专栏。
Transformer通关秘籍:Transformer 通关秘籍专栏。
我创建了一个《小而精的AI学习圈子》的知识星球,星球上有很多高质量的技术专栏,你也可以在星球向我咨询和提问。