浙江大学|DeepSeek系列公开课|第二季|DeepSeek技术溯源及前沿探索

大家好,我是吾鳴。

前沿回顾

吾鳴之前给大家分享过浙江大学DeepSeek系列公开课第一季,第一季一共八讲,内容介绍丰富,内容之广,看完粉丝朋友直呼浙大良心。这八讲公开课名称分别是:

第一期(上):吴飞(浙江大学)DeepSeek:回望AI三大主义与加强通识教育

第一期(下):Chatting or Acting?------DeepSeek的突破边界与"浙大先生"的未来图景(浙江大学 陈文智)

第二期(上):孙凌云(浙江大学)DeepSeek:智能时代的全面到来和人机协作的新常态

第二期(下):王则可(浙江大学)DeepSeek模型优势:算力、成本角度解读

第三期(上):陈静远(浙江大学)语言解码双生花:人类经验与AI算法的镜像之旅

第三期(下):吴超(浙江大学)走向数字社会:从Deepseek到群体智慧

第四期(上):陈建海(浙江大学)DeepSeek的本地化部署与AI通识教育之未来

第四期(下):朱朝阳(浙江大学)DeepSeek之火,可以燎原

吾鳴给大家整理好了第一季的8讲公开课,包含视频和PDF,下载地址我放到了文末。

本期分享

今天吾鳴要给大家分享的是浙江大学DeepSeek系列公开课第二季,由朱强教授给大家分享的关于DeepSeek的技术溯源以及前沿探索,报告一共50页PPT,报告和视频我都打包好放到了文末。

内容摘要

1. 语言模型

介绍语言模型的基本任务,即计算词序列的概率。讨论传统方法如One-hot编码的局限性,并引入词嵌入(Word Embedding)技术,通过低维向量表示词汇语义相似性。技术演化部分涵盖从统计方法(N-gram)到神经网络(LSTM/GRU)的过渡,最终聚焦Transformer架构的优势,如自注意力机制和并行计算能力。

2. Transformer

解析Transformer的核心组件,包括自注意力机制、多头注意力、位置编码和层归一化。通过示例说明注意力机制在语言和图像任务中的应用,如图书馆找书场景中的查询(Query)、键(Key)、值(Value)机制。对比了Encoder-Decoder框架在Seq2Seq任务中的实现,强调Transformer作为大模型技术基座的重要性。

3. ChatGPT

梳理大型语言模型发展史,从GPT-1到GPT-4的演变,包括参数量、训练数据量和算力的指数级增长。重点分析ChatGPT的关键技术,如基于人类反馈的强化学习(RLHF)、指令微调(Instruction Tuning),以及其在生成、对齐和安全性上的改进。还提及多模态扩展(如GPT-4o)和推理能力的提升。

4. DeepSeek

详细阐述DeepSeek的技术路径,包括基础生成模型(V3)、推理模型(R1系列)的构建步骤。通过混合专家模型(MoE)、动态路由机制和工程优化(如FP8精度、DualPipe算法),实现高效训练与推理。对比OpenAI模型,强调其开源优势和效率提升,如将中美技术代差从6-12个月缩短至1-3个月。知识蒸馏技术进一步压缩模型,适配低资源场景。

5. 新一代智能体

探讨从通用大模型(LLM)到智能体(Agent)的范式转变,提出"系统1"(直觉快速)与"系统2"(推理分析)的融合。智能体需具备规划、工具调用、记忆(短/长期)和自省能力。案例包括时空智能体在耕地保护中的应用,通过多传感器数据、认知模型和闭环决策实现自主化服务。最后展望Agent开发平台(如AutoGPT、Coze)的生态潜力。

报告精彩

https://kdocs.cn/l/ci1DfElGCPoS

相关推荐
模型启动机2 分钟前
Langchain正式宣布,Deep Agents全面支持Skills,通用AI代理的新范式?
人工智能·ai·langchain·大模型·agentic ai
Python私教7 分钟前
别让 API Key 裸奔:基于 TRAE SOLO 的大模型安全配置最佳实践
人工智能
Python私教10 分钟前
Vibe Coding 体验报告:我让 TRAE SOLO 替我重构了 2000 行屎山代码,结果...
人工智能
prog_610311 分钟前
【笔记】和各大AI语言模型写项目——手搓SDN后得到的经验
人工智能·笔记·语言模型
zhangfeng113317 分钟前
深入剖析Kimi K2 Thinking与其他大规模语言模型(Large Language Models, LLMs)之间的差异
人工智能·语言模型·自然语言处理
paopao_wu33 分钟前
人脸检测与识别-InsightFace:特征向量提取与识别
人工智能·目标检测
Aevget1 小时前
MyEclipse全新发布v2025.2——AI + Java 24 +更快的调试
java·ide·人工智能·eclipse·myeclipse
IT_陈寒1 小时前
React 18并发渲染实战:5个核心API让你的应用性能飙升50%
前端·人工智能·后端
韩曙亮1 小时前
【人工智能】AI 人工智能 技术 学习路径分析 ① ( Python语言 -> 微积分 / 概率论 / 线性代数 -> 机器学习 )
人工智能·python·学习·数学·机器学习·ai·微积分
科普瑞传感仪器1 小时前
从轴孔装配到屏幕贴合:六维力感知的机器人柔性对位应用详解
前端·javascript·数据库·人工智能·机器人·自动化·无人机