大模型技术发展与应用概览

最近在B站刷到了一个关于大模型科普的视频,做得不错,所以将视频音频提取使用Deepseek做了下总结便于日后查看。原视频:速览大模型100词

一、结构化完整信息输出

1. 核心思想与历史演变

  • 早期:符号主义,寻找精确函数解释世界 → 遇到瓶颈。
  • 现代:连接主义,构建复杂函数(模型),通过调整参数(权重)逼近目标。

2. 基本概念

  • 模型:复杂函数。
  • 权重:模型中的参数。
  • 大模型:参数量巨大的模型。
  • 大语言模型:用于自然语言处理的大模型。
  • 训练:根据预测值与真实值的误差调整权重。
  • 预训练:事先训练好基础模型。
  • 微调:基于预训练模型继续训练以完成具体任务。
  • 推理:根据输入计算输出结果。

3. 模型类型与部署

  • 闭源模型:不开放源代码和权重,仅提供服务(如 ChatGPT)。
  • 开源模型
    • 开放权重模型:仅开放权重(如 DeepSeek、Llama)。
    • 完全开源模型:开放结构、权重、训练代码(如 Mistral)。
  • 私有化部署:将模型下载到本地使用,需配置环境与 GPU。

4. 生成式 AI 与对话机制

  • 本质:基于上文预测下一个词的大函数。
  • Token:文本的最小分割单位。
  • 上下文/提示词:对话时提供的全部信息。
  • 温度/Top-K:控制输出随机性的参数。
  • 幻觉:模型生成看似合理但实际错误的信息。

5. 幻觉问题解决方案

  • 联网搜索:查询互联网信息辅助回答。
  • 检索增强生成:从私有知识库中检索信息(使用向量数据库、词嵌入、向量检索)。

6. 内容创作模式

  • PGC:专业机构创作的内容。
  • UGC:普通用户创作的内容。
  • AIGC:由 AI 创作或辅助创作的内容。
  • AGI:通用人工智能(理想中的最终形态)。

7. 多模态与工作流

  • 多模态:处理文本、图像、音频、视频等多种数据的能力。
  • 工作流:将多个 AI 任务编排成流程(如 Coze、LangChain)。
  • 智能体:封装模型与工具,自动完成复杂任务。
  • 多智能体:多个智能体协作完成任务。

8. 标准化协议与生态

  • MCP:AI 操作外部系统的标准化接口(2024 年底推出)。
  • A-to-A 协议:智能体间通信协议(2025 年 4 月推出)。

9. 模型发展现状

  • 模型规模与能力接近极限,训练成本高昂,性能差距缩小。
  • 研究方向转向:
    • 模型压缩(量化、蒸馏、剪枝)
    • 高效微调(LoRA、QLoRA、Adapter)
    • 推理增强(思维链、RLHF)
  • 生态中出现"卖铲子"模式:提供 AI 工具、课程、社区等服务。

10. AI 应用领域与工具

  • 自然语言处理:ChatGPT、Claude、DeepSeek、豆包、通义千问等。
  • 计算机视觉:MidJourney、Stable Diffusion、ComfyUI。
  • 语音与视频:TTS、ASR、Sora、可灵、即梦等。
  • 开发者工具
    • 硬件:GPU(NVIDIA)、TPU、NPU。
    • 软件:Python、PyTorch、TensorFlow、Hugging Face、Ollama、vLLM。
    • 编程助手:Cursor、GitHub Copilot。

11. 技术基础

  • 数学:线性代数、微积分、概率论、最优化。
  • 深度学习:神经网络、损失函数、反向传播。
  • 经典网络结构:
    • MLP(全连接网络)
    • CNN(卷积神经网络)
    • RNN(循环神经网络)
    • Transformer(基于 Attention 机制)

二、文本内容总结

本文是一篇面向初学者的 AI 与大模型科普性文本,以"函数"为起点,系统性地介绍了从基本概念到现代 AI 生态的全景。主要内容包括:

  1. 从符号主义到连接主义:AI 研究从寻找精确函数转向构建可训练的复杂模型。
  2. 核心概念梳理:涵盖模型、训练、推理、预训练、微调、大模型、开源/闭源等基础术语。
  3. 生成式 AI 工作机制:解释了大语言模型如何通过预测下一个词生成内容,并提及了上下文、温度、幻觉等关键概念。
  4. 解决"幻觉"的技术:介绍了联网搜索与检索增强生成(RAG)两种增强模型真实性的方法。
  5. 内容创作与多模态能力:区分了 PGC、UGC、AIGC,说明 AI 在多模态内容处理与工作流编排中的应用。
  6. 智能体与标准化协议:提到智能体、多智能体系统及新兴的 MCP、A-to-A 协议。
  7. 当前发展趋势:指出模型能力接近瓶颈,研究转向模型压缩、高效微调、推理增强等方向,并出现"卖铲子"的生态服务。
  8. 应用与工具生态:列举了 NLP、CV、语音、视频等领域的代表性产品与开发工具。
  9. 技术底层支撑:强调数学与经典神经网络结构(MLP、CNN、RNN、Transformer)是 AI 技术的基石。

全文以轻松幽默的口吻,将复杂的技术概念通俗化,适合初学者快速建立对大模型领域的基本认知。

相关推荐
机器学习之心4 小时前
Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型分类预测Matlab实现
cnn·gru·transformer·cnn-gru·五模型分类预测
高洁0121 小时前
CLIP 的双编码器架构是如何优化图文关联的?(3)
深度学习·算法·机器学习·transformer·知识图谱
sinat_286945191 天前
AI Coding LSP
人工智能·算法·prompt·transformer
机器学习之心1 天前
Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型分类预测Matlab实现
cnn·transformer·cnn-bilstm·bilstm
果粒蹬i1 天前
当CNN遇见Transformer:混合模型的特征可视化与融合攻略
人工智能·cnn·transformer
北山小恐龙2 天前
卷积神经网络(CNN)与Transformer
深度学习·cnn·transformer
机器学习之心2 天前
Transformer-LSTM、Transformer、CNN-LSTM、LSTM、CNN五模型多变量分类预测Matlab实现
cnn·lstm·transformer
Blossom.1182 天前
Transformer架构优化实战:从MHA到MQA/GQA的显存革命
人工智能·python·深度学习·react.js·架构·aigc·transformer
小明_GLC2 天前
Falcon-TST: A Large-Scale Time Series Foundation Model
论文阅读·人工智能·深度学习·transformer