一文讲透AI大模型相关的专业名词

一.LLM

1.全称Large Language Model(大语言模型,简称"大模型")

LLM:Large Language Model(大语言模型,简称"大模型")。
基本上,现在所有的大模型都是基于Transformer这套架构训练出来的。

说白了,大模型的底层引擎就是"Transformer"

"Transformer"是由Google发明(点火者),但是真正推广者是OpenAI。

2.我们平时见到的大模型有哪些?

  • ChatGPT (OpenAI)
  • 通义千问 (阿里)
  • 文心一言 (百度)
  • 豆包 (字节跳动)
  • Kimi (月之暗面)
  • DeepSeek (深度求索)
  • 等等

3.大模型是怎么工作的?

  • 本质就是一个文字接龙游戏

举例

  • 当用户问"鸿剑的文章怎么样"?然后大模型对此做出思考。
  • 一会,思考的结果是"特别",发送给用户。然后再把"特别"这个词抓回去,再回答"的"拼接到"特别"后面,发送给用户,然后再抓回去,再思考出"棒",拼接到"特别的"后面,答案是"特别的棒",然后再抓回去。发现该问题回答完了,就会输出一个结束标志(图中的绿色对钩)。
  • 说白了,本质就是一个词一个词往外蹦的,所以我们用deepseek时,也能明显发现大模型给答案时,就是一个一个词的生成的(也叫流式生成),本质原因就是因为这个大模型的生成特点,就是文字接龙游戏。

二.Token

解析:

  • 大模型本质上是一个庞大的数学函数,里面跑的全是矩阵运算。因此大模型接收的只能是数字,输出的也只能是数字。说白了大模型压根不认识人类写的文字。
  • 所以人类要和大模型沟通,需要一个中间人(翻译官),即Tokenizer。它负责编码(将文字转为数字)和解码(将数字转为文字)。
  • 所以Token是大模型处理文本的基本单位
  • 而Token不能说对应一个文字、或一个英文单词,而是具体分情况,但是大致比例如下图所示。
相关推荐
RockHopper20254 小时前
智能体的《目的论》模型
人工智能·llm·智能体
XLYcmy5 小时前
面向Agent权限系统的快速审计工具
python·网络安全·ai·llm·飞书·agent·字节跳动
Akirweiwen5 小时前
约束显化:通过意图协议将 LLM 不可突破边界转化为机器可读契约
llm·schema·design system
城管不管8 小时前
Agent——001
android·java·数据库·llm·prompt
AINative软件工程9 小时前
LLM 应用的 Token 级可观测性:从 Trace 采集到 Cost Attribution 的工程落地
llm
nix.gnehc9 小时前
深入理解 LLM Chat API 调用参数:从 OpenAI 标准到国内厂商实践
llm·openai
星浩AI10 小时前
(六)模型微调效果测试:基于 BERT 的中文评价情感分析[附源码]
人工智能·机器学习·llm
树獭非懒11 小时前
AI Agent 入门:理论、原理与5分钟代码实战
人工智能·llm·agent
swipe21 小时前
DeepAgents 实战:用多 Agent 架构搭一个深度调研助手
javascript·面试·llm
XLYcmy1 天前
全链路验证测试系统:一个针对智能代理(Agent)系统全链路能力的自动化验证脚本
分布式·python·http·网络安全·ai·llm·agent