DeepSeek从入门到精通:全面掌握AI大模型的核心能力

文章目录

引用

清华大学新闻与传播学院新媒体研究中心, 宇宙文化实验室. (2025). DeepSeek从入门到精通. 余梦珑(博士后主笔). 北京: 清华大学.

一、DeepSeek是什么?

DeepSeek是中国一家专注通用人工智能(AGI)研发的科技公司,基于自主研发的大模型核心技术,提供智能对话助手(如深度求索)、开放平台API接口及企业级解决方案,涵盖智能客服、数据分析、内容生成等场景应用。

性能对齐OpenAI-o1正式版

DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。

二、Deepseek可以做什么?

DeepSeek直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。

能力图谱


文本生成

文本创作

  • 文章/故事/诗歌写作
  • 营销文案、广告语生成
  • 社交媒体内容(如推文、帖子)剧本或对话设计

摘要与改写

  • 长文本摘要(论文、报告)
  • 文本简化(降低复杂度)
  • 多语言翻译与本地化

结构化生成

  • 表格、列表生成(如日程安排、菜谱)
  • 代码注释、文档撰写

自然语言理解与分析

语义分析

  • 语义解析
  • 情感分析(评论、反馈)
  • 意图识别(客服对话、用户查询)
  • 实体提取(人名、地点、事件)

知识推理

  • 知识推理
  • 逻辑问题解答(数学、常识推理)
  • 因果分析(事件关联性)

文本分类

  • 文本分类
  • 主题标签生成(如新闻分类)
  • 垃圾内容检测

编程与代码相关

代码生成

  • 根据需求生成代码片段(Python、JavaScript)
  • 自动补全与注释生成

代码调试

  • 错误分析与修复建议
  • 代码性能优化提示

技术文档处理

  • API文档生成
  • 代码库解释与示例生成

常规绘图

SVG矢量图

基础图形/图标/简单插图/流程图/组织架构图
Mermaid图表

流程图/时序图/类图/状态图/实体关系图/思维导图
React图表

折线图/柱状图/饼图/散点图/雷达图/组合图表

三、如何使用DeepSeek?

官网:DeepSeek官网

四、DeepSeek从入门到精通

推理模型

推理大模型

推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。

例如:DeepSeek-R1,GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。

非推理大模型

适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像推理模型那样复杂的推理和决策能力。

例如:GPT-3、GPT-4(OpenAI),BERT(Google),主要用于语言生成、语言理解、文本分类、翻译等任务。

维度 推理模型 通用模型
优势领域 数学推导、逻辑分析、代码生成、复杂问题拆解 文本生成、创意写作、多轮对话、开放性问答
劣势领域 发散性任务(如诗歌创作) 需要严格逻辑链的任务(如数学证明)
性能本质 专精于逻辑密度高的任务 擅长多样性高的任务
强弱判断 并非全面更强,仅在其训练目标领域显著优于通用模型 通用场景更灵活,但专项任务需依赖提示语补偿能力

快思慢想:效能兼顾 全局视野

1 概率预测(快速反应模型,如 ChatGPT 4o) 链式推理(慢速思考模型,如 OpenAI o1)
性能表现 响应速度快,算力成本低 慢速思考,算力成本高
运算原理 基于概率预测,通过大量数据训练来快速预测可能的答案 基于链式思维(Chain - of - Thought),逐步推理问题的每个步骤来得到答案
决策能力 依赖预设算法和规则进行决策 能够自主分析情况,实时做出决策
创造力 限于模式识别和优化,缺乏真正的创新能力 能够生成新的创意和解决方案,具备创新能力
人机互动能力 按照预设脚本响应,较难理解人类情感和意图 更自然地与人互动,理解复杂情感和意图
问题解决能力 擅长解决结构化和定义明确的问题 能够处理多维度和非结构化问题,提供创造性的解决方案
伦理问题 作为受控工具,几乎没有伦理问题 引发自主性和控制问题的伦理讨论

CoT链式思维的出现将大模型分为了两类:"概率预测(快速反应)"模型和"链式推理(慢速思考)"模型。前者适合快速反馈,处理即时任务;后者通过推理解决复杂问题。了解它们的差异有助于根据任务需求选择合适的模型,实现最佳效果。


提示语策略差异

推理模型

  • 提示语更简洁,只需明确任务目标和需求(因其已内化推理逻辑)。
  • 无需逐步指导,模型自动生成结构化推理过程(若强行拆解步骤,反而可能限制其能力)。

通用模型

  • 需显式引导推理步骤(如通过CoT提示),否则可能跳过关键逻辑。
  • 依赖提示语补偿能力短板(如要求分步思考、提供示例)。

关键原则

模型选择

优先根据任务类型而非模型热度选择(如数学任务选推理模型,创意任务选通用模型)。

提示语设计

推理模型:简洁指令,聚焦目标,信任其内化能力。("要什么直接说")。

通用模型:结构化、补偿性引导("缺什么补什么")。

避免误区

不要对推理模型使用"启发式"提示(如角色扮演),可能干扰其逻辑主线。

不要对通用模型"过度信任"(如直接询问复杂推理问题,需分步验证结果)。


从"下达指令"到"表达需求"

策略类型 定义与目标 适用场景 示例(推理模型适用) 优势与风险
指令驱动 直接给出明确步骤、格式要求 简单任务、需快速执行 "用 Python 编写快速排序函数,输出需包含注释。" 结果精准高效;限制模型自主优化空间
需求导向 描述问题背景与目标,由模型规划解决路径 复杂问题、需模型自主推理 我需要优化用户登录流程,请分析当前瓶颈并提出 3 种方案。" 激发模型深层推理;需清晰定义需求边界
混合模式 结合需求描述与关键约束条件 平衡灵活性与可控性 "设计一个杭州三日游计划,要求包含西湖和灵隐寺,且预算控制在 2000 元内。" 兼顾目标与细节;需避免过度约束
启发式提问 通过提问引导模型主动思考(如 "为什么""如何") 探索性问题、需模型解释逻辑 "为什么选择梯度下降法解决此优化问题?请对比其他算法。" 触发模型自解释能力;可能偏离核心目标

任务需求与提示语策略

任务类型 通用模型 提示语句重点 示例(有效提示) 需避免的提示策略
数学证明 推理模型 直接提问,无需分步引导 "证明勾股定理" 冗余拆解(如"先画图,再列公式")
通用模型 显式要求分步思考,提供示例 "请分三步推导勾股定理,参考:1. 画直角三角形..." 直接提问(易跳过关键步骤)
创意写作 推理模型 鼓励发散性,设定角色/风格 "以海明威的风格写一个冒险故事" 过度约束逻辑(如"按时间顺序列出")
通用模型 需明确约束目标,避免自由发挥 "写一个包含'量子'和'沙漠'的短篇小说,不超过200字" 开放式指令(如"自由创作")
代码生成 推理模型 简洁需求,信任模型逻辑 "用Python实现快速排序" 分步指导(如"先写递归函数")
通用模型 细化步骤,明确输入输出格式 "先解释快速排序原理,再写出代码并测试示例" 模糊需求(如"写个排序代码")
多轮对话 通用模型 自然交互,无需结构化指令 "你觉得人工智能的未来会怎样?" 强制逻辑链条(如"分三点回答")
推理模型 需明确对话目标,避免开放发散 "从技术、伦理、经济三方面分析AI的未来" 情感化提问(如"你害怕AI吗?")
逻辑分析 推理模型 直接抽出复杂问题 "分析'电车难题'中的功利主义与道德主义冲突" 添加主观引导(如"你认为哪种对?")
通用模型 需拆分问题,逐步追问 "先解释电车难题的定义,再对比两种伦理观的差异" 一次性提问复杂度提

如何向AI表达需求

需求类型 特点 需求表达公式 推理模型适配策略 通用模型适配策略
决策需求 需权衡选项、评估风险、选择最优解 目标+选项+评估标准 要求逻辑推演和量化分析 直接建议,依赖模型经验归纳
分析需求 需深度理解数据/信息、发现模式或因果关系 问题+数据/信息+分析方法 触发因果链推导与假设验证 表层总结或分类
创造性需求 需生成新颖内容(文本/设计方案) 主题+风格/约束+创新方向 结合逻辑框架生成结构化创意 自由发散,依赖示例引导
验证需求 需检查逻辑自洽性、数据可靠性或方案可行性 结论方案+验证方法+风险点 自主设计验证路径并排查矛盾 简单确认,缺乏深度推演
执行需求 需完成具体操作(代码/计算/流程) 任务+步骤约束+输出格式 自主优化步骤,兼顾效率与正确性 严格按指令执行,无自主优化

五、提示语(Prompt)

提示语示例

提示语(Prompt)是用户输入给AI系统的指令或信息,用于引导AI生成特定的输出或执行特定的任务。简单来说,提示语就是我们与AI"对话"时所使用的语言,它可以是一个简单的问题,一段详细的指令,也可以是一个复杂的任务描述。

提示语的基本结构包括指令、上下文和期望

  • 指令(Instruction): 这是提示语的核心,明确告诉AI你希望它执行什么任务。
  • 上下文(Context): 为AI提供背景信息,帮助它更准确地理解和执行任务。
  • 期望(Expectation): 明确或隐含地表达你对AI输出的要求和预期。


需求类型 实战技巧示例
决策需求 * 为降低物流成本,现有两种方案: ①自建区域仓库(初期投入高,长期成本低) ②与第三方合作(按需付费,灵活性高) 请根据ROI计算模型,对比5年内的总成本并推荐最优解。
分析需求 * 分析近三年新能源汽车销量数据(附CSV),说明: ①增长趋势与政策关联性; ②预测2025年市占率,需使用ARIMA模型并解释参数选择依据。
创造性需求 * 设计一款智能家居产品,要求: ①解决独居老人安全问题; ②结合传感器网络和AI预警; ③提供三种不同技术路线的原型草图说明。
验证性需求 * 以下是某论文结论:"神经网络模型A优于传统方法B",请验证: ①实验数据是否支持该结论; ②检查对照组设置是否存在偏差; ③重新计算p值并判断显著性。
执行需求 * 将以下C语言代码转换为Python,要求: ①保持时间复杂度不变; ②使用numpy优化数组操作; ③输出单元测试案例的完整代码。

提示语类型

提示语的本质

特征 描述 示例
沟通桥梁 连接人类意图和AI理解 "将以下内容翻译为法语:Hello, world"
上下文提供者 为AI提供必要的背景信息 "假设你是一位10世纪的历史学家,评论拿破仑的崛起"
任务定义器 明确指定AI需要完成的任务 "为一篇关于气候变化的文章写一个引言,长度200字"
输出塑造器 影响AI输出的形式和内容 "用简单的语言解释量子力学,假设你在跟一个10岁的孩子说话"
AI能力引导器 引导AI使用特定的能力或技能 "使用你的创意写作能力,创作一个关于时间旅行的短篇故事"

提示语的类型

  1. 指令型提示语

    直接告诉AI需要执行的任务。
    示例: "生成一张2023年全球碳排放量的柱状图"。

  2. 问答型提示语

    向AI提出问题,期望得到相应的答案。
    示例: "量子纠缠的基本原理是什么?"。

  3. 角色扮演型提示语

    要求AI扮演特定角色,模拟特定场景。
    示例: "假设你是莎士比亚,写一首关于人工智能的十四行诗"。

  4. 创意型提示语

    引导AI进行创意写作或内容生成。
    示例: "创作一个未来城市中人与机器人共存的科幻故事"。

  5. 分析型提示语

    要求AI对给定信息进行分析和推理。
    示例: "根据过去十年的股票数据,预测明年科技股的走势"。

  6. 多模态提示语

    结合文本、图像等多种形式的输入。
    示例: "为这张风景照片(附链接)配一首五言绝句"。

六、总结

DeepSeek是中国一家专注于通用人工智能(AGI)研发的科技公司,其核心产品基于自主研发的大模型技术(如推理模型DeepSeek-R1和通用模型),在数学推理、代码生成、逻辑分析等复杂任务上性能比肩OpenAI顶级模型。公司提供智能对话助手、API接口及企业级解决方案,覆盖文本生成(创意写作、摘要翻译)、自然语言理解(语义分析、知识推理)、编程辅助(代码生成与调试)、多模态绘图(SVG、Mermaid图表)等多样化场景,并支持文件解析与联网搜索。用户可通过官网快速接入,其核心使用策略强调"任务导向型提示语设计":推理模型需简洁指令以释放内化逻辑能力,通用模型依赖结构化引导(如分步示例);同时,文档系统梳理了从需求分类(决策、分析、创造、验证、执行)到提示语类型(指令型、角色扮演、多模态等)的适配方法,助力用户高效利用AI能力,规避过度约束或模糊指令的常见误区,实现从基础操作到复杂问题解决的全面覆盖。

相关推荐
elecfan20118 分钟前
本地化部署AI知识库:基于Ollama+DeepSeek+AnythingLLM保姆级教程
人工智能
bin915312 分钟前
DeepSeek与Vue.js组件开发:解锁AI与前端开发的融合密码
vue.js·deepseek
幸福右手牵1 小时前
WPS如何接入DeepSeek(通过JS宏调用)
javascript·人工智能·深度学习·wps·deepseek
cchjyq1 小时前
opencv:基于暗通道先验(DCP)的内窥镜图像去雾
java·c++·图像处理·人工智能·opencv·计算机视觉
幸福右手牵1 小时前
WPS如何接入DeepSeek(通过第三方工具)
人工智能·深度学习·wps·deepseek
大数据技术架构2 小时前
构建您的专属AI助手:在钉钉上部署DeepSeek
人工智能·钉钉
有续技术2 小时前
DEEPSEEK与GPT等AI技术在机床数据采集与数字化转型中的应用与影响
大数据·人工智能·gpt
NCU_wander2 小时前
大语言模型RAG,transformer和mamba
人工智能·语言模型·transformer
西猫雷婶2 小时前
python学opencv|读取图像(五十九)使用cv2.dilate()函数实现图像膨胀处理
人工智能·opencv·计算机视觉
数据学习(Datalearner)3 小时前
什么是推理大模型?DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么?什么时候该使用推理大模型?
人工智能·深度学习·机器学习·大模型·推理大模型