大模型技术发展与应用概览

最近在B站刷到了一个关于大模型科普的视频,做得不错,所以将视频音频提取使用Deepseek做了下总结便于日后查看。原视频:速览大模型100词

一、结构化完整信息输出

1. 核心思想与历史演变

  • 早期:符号主义,寻找精确函数解释世界 → 遇到瓶颈。
  • 现代:连接主义,构建复杂函数(模型),通过调整参数(权重)逼近目标。

2. 基本概念

  • 模型:复杂函数。
  • 权重:模型中的参数。
  • 大模型:参数量巨大的模型。
  • 大语言模型:用于自然语言处理的大模型。
  • 训练:根据预测值与真实值的误差调整权重。
  • 预训练:事先训练好基础模型。
  • 微调:基于预训练模型继续训练以完成具体任务。
  • 推理:根据输入计算输出结果。

3. 模型类型与部署

  • 闭源模型:不开放源代码和权重,仅提供服务(如 ChatGPT)。
  • 开源模型
    • 开放权重模型:仅开放权重(如 DeepSeek、Llama)。
    • 完全开源模型:开放结构、权重、训练代码(如 Mistral)。
  • 私有化部署:将模型下载到本地使用,需配置环境与 GPU。

4. 生成式 AI 与对话机制

  • 本质:基于上文预测下一个词的大函数。
  • Token:文本的最小分割单位。
  • 上下文/提示词:对话时提供的全部信息。
  • 温度/Top-K:控制输出随机性的参数。
  • 幻觉:模型生成看似合理但实际错误的信息。

5. 幻觉问题解决方案

  • 联网搜索:查询互联网信息辅助回答。
  • 检索增强生成:从私有知识库中检索信息(使用向量数据库、词嵌入、向量检索)。

6. 内容创作模式

  • PGC:专业机构创作的内容。
  • UGC:普通用户创作的内容。
  • AIGC:由 AI 创作或辅助创作的内容。
  • AGI:通用人工智能(理想中的最终形态)。

7. 多模态与工作流

  • 多模态:处理文本、图像、音频、视频等多种数据的能力。
  • 工作流:将多个 AI 任务编排成流程(如 Coze、LangChain)。
  • 智能体:封装模型与工具,自动完成复杂任务。
  • 多智能体:多个智能体协作完成任务。

8. 标准化协议与生态

  • MCP:AI 操作外部系统的标准化接口(2024 年底推出)。
  • A-to-A 协议:智能体间通信协议(2025 年 4 月推出)。

9. 模型发展现状

  • 模型规模与能力接近极限,训练成本高昂,性能差距缩小。
  • 研究方向转向:
    • 模型压缩(量化、蒸馏、剪枝)
    • 高效微调(LoRA、QLoRA、Adapter)
    • 推理增强(思维链、RLHF)
  • 生态中出现"卖铲子"模式:提供 AI 工具、课程、社区等服务。

10. AI 应用领域与工具

  • 自然语言处理:ChatGPT、Claude、DeepSeek、豆包、通义千问等。
  • 计算机视觉:MidJourney、Stable Diffusion、ComfyUI。
  • 语音与视频:TTS、ASR、Sora、可灵、即梦等。
  • 开发者工具
    • 硬件:GPU(NVIDIA)、TPU、NPU。
    • 软件:Python、PyTorch、TensorFlow、Hugging Face、Ollama、vLLM。
    • 编程助手:Cursor、GitHub Copilot。

11. 技术基础

  • 数学:线性代数、微积分、概率论、最优化。
  • 深度学习:神经网络、损失函数、反向传播。
  • 经典网络结构:
    • MLP(全连接网络)
    • CNN(卷积神经网络)
    • RNN(循环神经网络)
    • Transformer(基于 Attention 机制)

二、文本内容总结

本文是一篇面向初学者的 AI 与大模型科普性文本,以"函数"为起点,系统性地介绍了从基本概念到现代 AI 生态的全景。主要内容包括:

  1. 从符号主义到连接主义:AI 研究从寻找精确函数转向构建可训练的复杂模型。
  2. 核心概念梳理:涵盖模型、训练、推理、预训练、微调、大模型、开源/闭源等基础术语。
  3. 生成式 AI 工作机制:解释了大语言模型如何通过预测下一个词生成内容,并提及了上下文、温度、幻觉等关键概念。
  4. 解决"幻觉"的技术:介绍了联网搜索与检索增强生成(RAG)两种增强模型真实性的方法。
  5. 内容创作与多模态能力:区分了 PGC、UGC、AIGC,说明 AI 在多模态内容处理与工作流编排中的应用。
  6. 智能体与标准化协议:提到智能体、多智能体系统及新兴的 MCP、A-to-A 协议。
  7. 当前发展趋势:指出模型能力接近瓶颈,研究转向模型压缩、高效微调、推理增强等方向,并出现"卖铲子"的生态服务。
  8. 应用与工具生态:列举了 NLP、CV、语音、视频等领域的代表性产品与开发工具。
  9. 技术底层支撑:强调数学与经典神经网络结构(MLP、CNN、RNN、Transformer)是 AI 技术的基石。

全文以轻松幽默的口吻,将复杂的技术概念通俗化,适合初学者快速建立对大模型领域的基本认知。

相关推荐
人工智能培训1 天前
基于Transformer的人工智能模型搭建与fine-tuning
人工智能·深度学习·机器学习·transformer·知识图谱·数字孪生·大模型幻觉
人工智能培训1 天前
基于Transformer的人工智能模型搭建与fine-tuning二
人工智能·深度学习·机器学习·大模型·transformer·企业数字化转型
缘友一世1 天前
大模型分布式推理:Ray 与 vLLM/Transformers 的协同架构深度解析
分布式·架构·transformer·ray·vllm
Loo国昌2 天前
【Transformer解析】第二阶段:深度解析Encoder、Decoder与Encoder-Decoder架构
人工智能·后端·深度学习·算法·语言模型·自然语言处理·transformer
错把套路当深情2 天前
通俗易懂的 TensorFlow 和 Transformers
人工智能·tensorflow·transformer
咚咚王者2 天前
人工智能之核心技术 深度学习 第五章 Transformer模型
人工智能·深度学习·transformer
范桂飓2 天前
Transformer 大模型架构深度解析(5)GPT 与 LLM 大语言模型技术解析
人工智能·gpt·语言模型·transformer
Wilber的技术分享2 天前
【大模型面试八股 1】Transformer注意力机制:MHA、MQA、GQA、MLA原理解析与对比
人工智能·深度学习·transformer·大语言模型·大模型面试题·面试八股
shangjian0072 天前
AI-大语言模型LLM-Transformer架构6-输出层
人工智能·语言模型·transformer
机器学习之心2 天前
TCN-Transformer-GRU组合模型回归+SHAP分析+新数据预测+多输出!深度学习可解释分析MATLAB代码
深度学习·gru·transformer