【HCIA-AI笔记(微认证2)】1.1 Deepseek基础知识

  • 课程内容概述
    • 课程目标:聚焦于基于Deepseek大模型通过代码实现并结合实际案例构建智能小助手的核心技术和方法。
    • 学习路径:从Deepseek基础知识开始,深入RAG原理,上手实践代码实现,最后进行案例分享。
  • Deepseek模型基础
    • 基本定位:由杭州深度求索人工智能基础有限公司自主研发的大语言模型,代表中国在基础大模型领域的自主研发能力,专注于自然语言处理及数学推理,是强大的认知计算平台。
    • 核心能力:文本生成支持多种文体风格,在中文创作、代码编写、数学解题、多轮对话等方面表现出色。
    • 开源属性:完全开源,代码和模型权重向开发者开放,有活跃的开发者社区、丰富的微调案例和持续更新的模型版本。
  • 技术架构与解析
    • V3技术架构:采用混合专家模型(Moe),6710亿参数的混合架构,将任务分配给不同专家子网络,提升计算效率,降低能耗。
    • 算法优化 :应用人类反馈强化学习(RLHF)提升准确性和安全性,采用模型蒸馏技术实现模型轻量化,创新预训练策略减少训练数据量。
  • 发展历程与里程碑
    • 2025年突破:发布开源旗舰模型21,在多个国际基准测试中进入TOP3,获业界广泛认可。
    • 技术演进:从专注NLP到多模态发展,从通用模型到垂直领域深耕,从单纯模型提供到完整解决方案。
  • 异军突起原因
    • 技术突破:解决传统AI对话痛点,有人格化表达、超长记忆、情景感知能力,开源模型性价比高,有创新训练算法和自研框架。
    • 多场景渗透:在金融、医疗、教育等领域有颠覆性应用,提升各领域效率和准确率。
    • 开源生态与资本共振:开源策略吸引开发者,有众多延伸项目,资本市场热烈追捧,因商业化路径、成本控制和政策支持受看好。
    • 社交媒体引爆:有自传播内容裂变和权威背书效应,用户口碑病毒式传播,增长数据行业震撼。
  • 两大核心模型差异
    • 规范性:V3强规范约束,操作路径明确;R1弱规范约束,操作路径灵活。
    • 结果导向:V3目标确定性高,结果可预期;R1目标开放,结果多样化。
    • 路径灵活性:V3线性路径,流程标准化;R1网状路径,多路径可选。
    • 响应模式:V3被动适配,按规则执行;R1主动创新,有自主决策能力。
    • 风险特征:V3低风险,稳定可控;R1高风险,不确定性强但可能带来高价值。