Java转AI应用开发速成（2）——核心概念扫盲Token、Prompt、Embedding 是什么

一、什么是大语言模型（LLM）

大语言模型是一种基于深度学习的人工智能模型，它能够从海量的文本数据中学习并理解人类语言的模式和规则。这些模型通常包含数十亿甚至更多的参数，通过复杂的神经网络结构来模拟人类的语言处理能力。

参考：之前的文章：一文读懂大语言模型

通俗点讲： 是一个大号的"词语接龙"机器。

给它"今天天气真"，它猜下一个字是"好"。你给它"1+1="，它猜下一个字是"2"。你给它"写一段Java代码实现快速排序"，它猜接下来一个字符一个字符地吐出完整代码。

训练时 ：喂给它几万亿字的文本，让它不断练习"猜下一个字"。
使用时：你给它一句话，它接着往下写。

它不是真的"理解"了什么，它是一个超级预测引擎。但这个预测引擎"涌现"出了看起来像推理、编程、翻译的能力------这就是 GPT（Generative Pre-trained Transformer）的神奇之处。

二、 Token------大模型的"最小单位"

一句话版：大模型不认识"字"，它只认识 Token。

复制代码

"我喜欢Java" → ["我喜欢", "Java"]
"Hello world" → ["Hello", " world"]

Token 不是字，不是词，是模型自己学出来的一种切分方式。一般情况下：

1个英文单词 ≈ 1-2个Token
1个中文字 ≈ 1.5-2个Token
1000个Token ≈ 750个英文单词 ≈ 500个汉字

为什么要关心Token？ 因为大模型有两个硬限制：

限制	说明	实际影响
上下文窗口	一次对话能塞多少内容	你不能把一本《红楼梦》丢进去问问题
按Token计费	API调用按Token数收钱	你一天调1万次，Token用得多就贵得多

所以做RAG的时候有个经典优化：先把文档检索出最相关的几段，再塞给模型，而不是把整本书丢进去。

三、 Prompt------你跟AI对话的"咒语"

一句话版：Prompt就是你发过去的那段文本提示词，决定AI输出什么。

同样是"写一篇产品介绍"，不同Prompt效果天差地别：

Prompt 1（差）：

写一篇关于智能手表的产品介绍。

Prompt 2（好）：

你是小米的产品经理（模型角色）。写一篇智能手表的电商详情页文案，目标用户是25-35岁的运动爱好者（目标用户），重点突出心率监测和续航（重点内容），语气简洁有力（语气要求），300字以内（长度限制）。

为什么Prompt 2好？因为它给了模型角色、目标用户、重点内容、语气要求、长度限制。这五点就是Prompt工程的核心框架。

4. 上下文（Context）& 上下文窗口

一句话版：上下文就是对话的"记忆区"，上下文窗口就是能记住多长。

复制代码

我：我叫孟林洁
AI：好的，孟林洁
我：我刚才说我叫什么？
AI：你叫孟林洁。 ← 因为上面两轮对话都在上下文窗口里

（聊了500轮之后）

我：我叫什么？
AI：请问您怎么称呼？ ← 上下文窗口装不下了，前面的对话被"遗忘"了

不同模型的上下文窗口：

模型	厂商	上下文窗口	约等于
GPT-4o	OpenAI	128K	约10万字
Claude 4 Opus	Anthropic	200K	约15万字
Gemini 2.5 Pro	Google	1M	约75万字
DeepSeek-V4-Pro	DeepSeek	1M	约75万字
Qwen3-Max	阿里	128K	约10万字
Llama 4	Meta	128K	约10万字

5. Embedding------把文字变成数字

一句话版：把一段话变成一个数学向量，语义相近的话，向量也相近。

复制代码

"猫是一种动物"    → [0.23, 0.87, -0.15, ...]
"猫咪是一种宠物"  → [0.25, 0.82, -0.12, ...]  ← 跟上面很接近
"今天天气不错"    → [-0.67, 0.12, 0.91, ...]  ← 跟上面差别很大

RAG（检索增强生成）的核心就是靠 Embedding 来找"语义相关"的内容：

复制代码

用户问题 → 向量化 → 去向量库找最接近的文档片段 → 拼进Prompt → 发给LLM

6. Function Calling（函数调用）

一句话版：让AI能够"调用你的代码"。

普通模式：

复制代码

用户："今天武汉天气怎么样？"
AI："抱歉，我的知识截止到2024年，无法提供实时天气。"

有了 Function Calling 之后：

复制代码

用户："今天武汉天气怎么样？"
AI：识别到需要查天气 → 调用 getWeather("武汉") → 拿到结果
AI："武汉今天多云转晴，18-25℃，适合出门。"

对Java程序员来说 ：Function Calling 就是让 AI 能动态调用我们的 @Service 方法。你写一个 getOrderById(String orderId)，注册给 LLM，用户问"帮我查订单123"，AI 自动调你的方法。

7. 温度（Temperature）------控制AI的"想象力"

复制代码

Temperature = 0.1  → "1+1=2"（确定，适合数学/代码）
Temperature = 0.7  → "春风吹绿了江南岸"（适中，适合写作）
Temperature = 1.2  → "春天的风把长江南岸吹成了一块抹茶蛋糕"（跑偏了，适合创意）

实际建议：代码生成、数据提取用 0.1；对话、内容生成用 0.7；头脑风暴用 1.0。

写在最后

关于大模型相关的其他概念和术语参考：Prompt、Agent、RAG、MCP......这些词到底什么关系？一条线带你看清大模型的底层逻辑

Java转AI应用开发速成（2）——核心概念扫盲Token、Prompt、Embedding 是什么

一、 什么是大语言模型（LLM）

二、 Token------大模型的"最小单位"

三、 Prompt------你跟AI对话的"咒语"

4. 上下文（Context）& 上下文窗口

5. Embedding------把文字变成数字

6. Function Calling（函数调用）

7. 温度（Temperature）------控制AI的"想象力"

写在最后

一、什么是大语言模型（LLM）