Java转AI应用开发速成(2)——核心概念扫盲Token、Prompt、Embedding 是什么

一、 什么是大语言模型(LLM)

大语言模型是一种基于深度学习的人工智能模型,它能够从海量的文本数据中学习并理解人类语言的模式和规则。这些模型通常包含数十亿甚至更多的参数,通过复杂的神经网络结构来模拟人类的语言处理能力。

参考:之前的文章:一文读懂大语言模型

通俗点讲: 是一个大号的"词语接龙"机器。

给它"今天天气真",它猜下一个字是"好"。你给它"1+1=",它猜下一个字是"2"。你给它"写一段Java代码实现快速排序",它猜接下来一个字符一个字符地吐出完整代码。

训练时 :喂给它几万亿字的文本,让它不断练习"猜下一个字"。
使用时:你给它一句话,它接着往下写。

它不是真的"理解"了什么,它是一个超级预测引擎。但这个预测引擎"涌现"出了看起来像推理、编程、翻译的能力------这就是 GPT(Generative Pre-trained Transformer)的神奇之处。


二、 Token------大模型的"最小单位"

一句话版:大模型不认识"字",它只认识 Token。

复制代码
"我喜欢Java" → ["我喜欢", "Java"]
"Hello world" → ["Hello", " world"]

Token 不是字,不是词,是模型自己学出来的一种切分方式。一般情况下:

  • 1个英文单词 ≈ 1-2个Token
  • 1个中文字 ≈ 1.5-2个Token
  • 1000个Token ≈ 750个英文单词 ≈ 500个汉字

为什么要关心Token? 因为大模型有两个硬限制:

限制 说明 实际影响
上下文窗口 一次对话能塞多少内容 你不能把一本《红楼梦》丢进去问问题
按Token计费 API调用按Token数收钱 你一天调1万次,Token用得多就贵得多

所以做RAG的时候有个经典优化:先把文档检索出最相关的几段,再塞给模型,而不是把整本书丢进去。


三、 Prompt------你跟AI对话的"咒语"

一句话版:Prompt就是你发过去的那段文本提示词,决定AI输出什么。

同样是"写一篇产品介绍",不同Prompt效果天差地别:

Prompt 1(差):

写一篇关于智能手表的产品介绍。

Prompt 2(好):

你是小米的产品经理(模型角色)。写一篇智能手表的电商详情页文案,目标用户是25-35岁的运动爱好者(目标用户),重点突出心率监测和续航(重点内容),语气简洁有力(语气要求),300字以内(长度限制)。

为什么Prompt 2好?因为它给了模型角色、目标用户、重点内容、语气要求、长度限制。这五点就是Prompt工程的核心框架。


4. 上下文(Context)& 上下文窗口

一句话版:上下文就是对话的"记忆区",上下文窗口就是能记住多长。

复制代码
我:我叫孟林洁
AI:好的,孟林洁
我:我刚才说我叫什么?
AI:你叫孟林洁。 ← 因为上面两轮对话都在上下文窗口里

(聊了500轮之后)

我:我叫什么?
AI:请问您怎么称呼? ← 上下文窗口装不下了,前面的对话被"遗忘"了

不同模型的上下文窗口:


模型 厂商 上下文窗口 约等于
GPT-4o OpenAI 128K 约10万字
Claude 4 Opus Anthropic 200K 约15万字
Gemini 2.5 Pro Google 1M 约75万字
DeepSeek-V4-Pro DeepSeek 1M 约75万字
Qwen3-Max 阿里 128K 约10万字
Llama 4 Meta 128K 约10万字

5. Embedding------把文字变成数字

一句话版:把一段话变成一个数学向量,语义相近的话,向量也相近。

复制代码
"猫是一种动物"    → [0.23, 0.87, -0.15, ...]
"猫咪是一种宠物"  → [0.25, 0.82, -0.12, ...]  ← 跟上面很接近
"今天天气不错"    → [-0.67, 0.12, 0.91, ...]  ← 跟上面差别很大

RAG(检索增强生成)的核心就是靠 Embedding 来找"语义相关"的内容:

复制代码
用户问题 → 向量化 → 去向量库找最接近的文档片段 → 拼进Prompt → 发给LLM

6. Function Calling(函数调用)

一句话版:让AI能够"调用你的代码"。

普通模式:

复制代码
用户:"今天武汉天气怎么样?"
AI:"抱歉,我的知识截止到2024年,无法提供实时天气。"

有了 Function Calling 之后:

复制代码
用户:"今天武汉天气怎么样?"
AI:识别到需要查天气 → 调用 getWeather("武汉") → 拿到结果
AI:"武汉今天多云转晴,18-25℃,适合出门。"

对Java程序员来说 :Function Calling 就是让 AI 能动态调用我们的 @Service 方法。你写一个 getOrderById(String orderId),注册给 LLM,用户问"帮我查订单123",AI 自动调你的方法。


7. 温度(Temperature)------控制AI的"想象力"

复制代码
Temperature = 0.1  → "1+1=2"(确定,适合数学/代码)
Temperature = 0.7  → "春风吹绿了江南岸"(适中,适合写作)
Temperature = 1.2  → "春天的风把长江南岸吹成了一块抹茶蛋糕"(跑偏了,适合创意)

实际建议:代码生成、数据提取用 0.1;对话、内容生成用 0.7;头脑风暴用 1.0。


写在最后

关于大模型相关的其他概念和术语参考:Prompt、Agent、RAG、MCP......这些词到底什么关系?一条线带你看清大模型的底层逻辑

相关推荐
跨境卫士—小依1 小时前
税费前置展示普及之后跨境卖家如何减少结算阶段心理落差
大数据·人工智能·安全·跨境电商·营销策略
2601_955767421 小时前
观复盾 iPhone 17 Pro 护景贴深度评测:参数解析与实测避坑
人工智能·ios·ar·iphone·圆偏振光·磁控溅射
名字不好奇1 小时前
大模型的思考模式:它真的在“想“吗?
人工智能·算法
weixin_468466851 小时前
大语言模型快速部署与调用指南
人工智能·ai·自然语言处理·大模型·云计算·大语言模型·本地化部署
LuminWave1 小时前
多维场景落地,3D激光雷达成机器人产业核心感知基石
人工智能·3d·机器人
时光飞逝的日子1 小时前
从 Copilot 到智能体:2026 年 AI 编程工具全栈测评
人工智能·copilot
这是谁的博客?1 小时前
Embedding 模型深度解析:文本嵌入技术原理与 MTEB 评估体系
ai·embedding·文本处理·mteb·bge·向量表示
jiayong231 小时前
harness与hermes-agent的区别
人工智能·ai·智能体·harness·hermes-agent
xiaoxiaoxiaolll1 小时前
机器学习智能水泥基复合材料
人工智能