LangChain4j Java AI 应用开发实战（二）：大模型参数调优实战：Temperature、TopP、MaxTokens 深度解析

系列篇章💥

No.	文章
1	LangChain4j Java AI 应用开发实战（一）：LangChain4j 快速入门指南
2	LangChain4j Java AI 应用开发实战（二）：大模型参数调优实战：Temperature、TopP、MaxTokens 深度解析

系列篇章💥
前言
一为什么需要参数调优？
- [1.1 默认参数的局限性](#1.1 默认参数的局限性)
- [1.2 参数调优的价值](#1.2 参数调优的价值)
二、核心参数详解
- [2.1 Temperature（温度）](#2.1 Temperature（温度）)
- - [什么是 Temperature？](#什么是 Temperature？)
  - 工作原理
  - 代码示例
- [2.2 MaxOutputTokens（最大输出令牌数）](#2.2 MaxOutputTokens（最大输出令牌数）)
- - [什么是 MaxOutputTokens？](#什么是 MaxOutputTokens？)
  - 为什么要限制？
  - 常见误区
  - 代码示例
  - [Token 估算技巧](#Token 估算技巧)
- [2.3 ModelName（模型名称）](#2.3 ModelName（模型名称）)
- - 不同模型的能力差异
  - 代码中的模型切换
- [2.4 其他重要参数](#2.4 其他重要参数)
- - TopP（核采样）
  - [Presence Penalty & Frequency Penalty](#Presence Penalty & Frequency Penalty)
[三、实战：T02_ModelParametersExamples 代码解析](#三、实战：T02_ModelParametersExamples 代码解析)
- [3.1 完整代码回顾](#3.1 完整代码回顾)
- [3.2 代码结构分析](#3.2 代码结构分析)
- - 第一步：定义默认参数
  - [第二步：创建 ChatModel 并应用默认参数](#第二步：创建 ChatModel 并应用默认参数)
  - 第三步：定义本次调用的覆盖参数
  - [第四步：构建 ChatRequest](#第四步：构建 ChatRequest)
  - 第五步：执行调用并获取响应
四、典型场景参数配置模板
- [4.1 客服问答系统](#4.1 客服问答系统)
- [4.2 创意写作助手](#4.2 创意写作助手)
- [4.3 代码生成助手](#4.3 代码生成助手)
- [4.4 数据提取与结构化输出](#4.4 数据提取与结构化输出)
- [4.5 翻译服务](#4.5 翻译服务)
- [4.6 参数配置速查表](#4.6 参数配置速查表)
五、参数调优方法论
- [5.1 A/B 测试流程](#5.1 A/B 测试流程)
- - [步骤 1：定义评估指标](#步骤 1：定义评估指标)
  - [步骤 2：设计实验组](#步骤 2：设计实验组)
  - [步骤 3：批量测试](#步骤 3：批量测试)
  - [步骤 4：收集反馈并分析](#步骤 4：收集反馈并分析)
  - [步骤 5：迭代优化](#步骤 5：迭代优化)
- [5.2 动态参数选择](#5.2 动态参数选择)
- [5.3 监控与告警](#5.3 监控与告警)
- - [Token 用量监控](#Token 用量监控)
  - 异常检测
六、常见问题与避坑指南
- [6.1 Temperature 和 TopP 同时调整](#6.1 Temperature 和 TopP 同时调整)
- [6.2 MaxTokens 设置不当导致截断](#6.2 MaxTokens 设置不当导致截断)
- [6.3 忽略模型差异](#6.3 忽略模型差异)
- [6.4 未考虑上下文长度限制](#6.4 未考虑上下文长度限制)
- [6.5 演示端点参数支持有限](#6.5 演示端点参数支持有限)
七、进阶技巧
- [7.1 基于反馈的自动调参](#7.1 基于反馈的自动调参)
- [7.2 参数版本管理](#7.2 参数版本管理)
- [7.3 成本优化策略](#7.3 成本优化策略)
- - 分级模型策略
  - [Token 预算控制](#Token 预算控制)
结语

前言

掌握大模型参数调优是提升 AI 应用质量的关键技能。很多开发者在使用 LangChain4j 时仅采用默认配置，导致输出不稳定、成本不可控、场景适配差等问题。本文将深入解析 Temperature、MaxOutputTokens、ModelName 等核心参数的作用机制，通过对比实验展示不同配置对输出结果的影响。我们将提供客服、创意写作、代码生成等典型场景的参数配置模板，并分享 A/B 测试、动态调参、成本优化等实战技巧，帮助你精准控制 AI 的创造性、输出长度和稳定性，让大模型真正服务于业务需求。

一为什么需要参数调优？

1.1 默认参数的局限性

在上一篇文章中，我们使用了最简单的 ChatModel 配置：

java 复制代码

ChatModel chatModel = OpenAiChatModel.builder()
    .apiKey("demo")
    .modelName("gpt-4o-mini")
    .baseUrl("http://langchain4j.dev/demo/openai/v1")
    .build();

这种配置使用模型的默认参数，虽然能快速运行，但存在以下问题：

❌ 输出不可控：同样的问题，每次回答可能差异很大
❌ 长度不确定：有时回答过于简短，有时又冗长啰嗦
❌ 成本难预估：Token 消耗波动大，难以预算
❌ 场景不匹配：客服需要稳定，创作需要灵活，一套参数无法满足所有场景

1.2 参数调优的价值

通过合理配置参数，你可以：

✅ 控制创造性 ：让 AI 更保守或更有想象力

✅ 限制输出长度 ：避免超长回答浪费 Token

✅ 提升一致性 ：相同问题得到相似的回答

✅ 优化成本 ：精确控制每次调用的 Token 用量

✅ 适配场景：为不同业务场景定制专属配置

二、核心参数详解

2.1 Temperature（温度）

什么是 Temperature？

Temperature 控制模型输出的随机性 和创造性 ，取值范围通常是 0.0 到 2.0。

Temperature 值	特性	适用场景
0.0 - 0.3	高度确定性，倾向于选择概率最高的词	事实问答、数据提取、客服
0.4 - 0.7	平衡创造性与准确性	通用对话、邮件撰写
0.8 - 1.0	高创造性，输出更多样化	创意写作、头脑风暴
1.0 - 2.0	极高随机性，可能产生不合理内容	实验性场景，不推荐生产使用

工作原理

大模型生成文本时，会为每个可能的下一个词计算概率分布。Temperature 通过调整这个分布来影响选择：

低 Temperature：放大高概率词的优势，模型更"保守"
高 Temperature：平滑概率分布，低概率词也有机会被选中，模型更"冒险"

原始概率分布：
"人工智能" (60%), "AI" (30%), "机器学习" (10%)

Temperature = 0.2（低）:
"人工智能" (85%), "AI" (13%), "机器学习" (2%)
→ 几乎总是选择"人工智能"

Temperature = 1.5（高）:
"人工智能" (40%), "AI" (35%), "机器学习" (25%)
→ 三个词都有较大概率被选中

代码示例

java 复制代码

// 低温度：客服场景，追求稳定性和准确性
ChatModel conservativeModel = OpenAiChatModel.builder()
    .apiKey("demo")
    .modelName("gpt-4o-mini")
    .baseUrl("http://langchain4j.dev/demo/openai/v1")
    .temperature(0.2)
    .build();

// 高温度：创意写作，追求多样性
ChatModel creativeModel = OpenAiChatModel.builder()
    .apiKey("demo")
    .modelName("gpt-4o-mini")
    .baseUrl("http://langchain4j.dev/demo/openai/v1")
    .temperature(0.9)
    .build();

// 测试对比
String question = "写一个关于未来的短故事";
System.out.println("保守模式：" + conservativeModel.chat(question));
System.out.println("\n创意模式：" + creativeModel.chat(question));

预期输出差异：

复制代码

保守模式（Temperature=0.2）:
未来，人工智能将广泛应用于医疗、教育和交通领域，
提高人类生活质量。自动驾驶汽车将成为主流出行方式。

创意模式（Temperature=0.9）:
公元2157年，火星殖民地"新希望城"的霓虹灯在红色沙尘暴中闪烁。
AI诗人艾娃站在穹顶观测台，用量子纠缠向地球发送最后一首诗...

最佳实践 ：先从 0.7 开始测试，根据输出质量逐步调整。大多数场景下，0.3-0.8 是安全区间。

2.2 MaxOutputTokens（最大输出令牌数）

什么是 MaxOutputTokens？

MaxOutputTokens 限制模型单次响应的最大 Token 数量。

Token 是什么？

Token 是大模型处理文本的基本单位。英文中，1个 Token ≈ 4个字符或 0.75 个单词；中文中，1个 Token ≈ 1-2 个汉字。

为什么要限制？

成本控制：OpenAI 等服务商按 Token 计费，限制输出可避免意外高额费用
响应速度：生成更少 Token = 更快返回结果
用户体验：防止模型过度啰嗦，提供简洁回答
系统稳定性：避免超长输出导致内存溢出或超时

常见误区

❌ 设置过小 ：回答被截断，信息不完整

❌ 设置过大 ：浪费 Token，增加成本和延迟

❌ 忽略输入长度：总 Token = 输入 + 输出，需预留空间

代码示例

java 复制代码

// 限制输出长度为 50 Tokens（约 30-40 个汉字）
ChatRequestParameters parameters = ChatRequestParameters.builder()
    .maxOutputTokens(50)
    .build();

ChatModel chatModel = OpenAiChatModel.builder()
    .apiKey("demo")
    .modelName("gpt-4o-mini")
    .baseUrl("http://langchain4j.dev/demo/openai/v1")
    .defaultRequestParameters(parameters)
    .build();

String answer = chatModel.chat("请详细介绍人工智能的发展历史、主要应用场景和未来趋势");
System.out.println(answer);

输出可能被截断：

复制代码

人工智能起源于20世纪50年代，经历了符号主义、连接主义等发展阶段。
目前主要应用于图像识别、自然语言处理、推荐系统等领域。未来...
[此处被截断，因为超过了 50 Tokens 限制]

Token 估算技巧

内容类型	估算公式	示例
英文文本	字符数 ÷ 4	200 字符 ≈ 50 Tokens
中文文本	汉字数 ÷ 1.5	75 汉字 ≈ 50 Tokens
代码	字符数 ÷ 3	150 字符 ≈ 50 Tokens

最佳实践：

简短回答（客服）：100-300 Tokens

中等长度（邮件、摘要）：300-800 Tokens

长篇内容（文章、报告）：800-2000 Tokens

始终监控实际 Token 用量，动态调整

2.3 ModelName（模型名称）

不同模型的能力差异

虽然 ModelName 不是传统意义上的"可调参数"，但选择合适的模型对效果和成本影响巨大，以gpt为例，如下：

模型	能力	成本（每百万 Tokens）	适用场景
gpt-4o	最强，多模态支持	$5.00 输入 /$ 15.00 输出	复杂推理、高质量要求
gpt-4o-mini	性价比高	$0.15 输入 /$ 0.60 输出	通用场景，推荐首选
gpt-3.5-turbo	快速响应	$0.50 输入 /$ 1.50 输出	简单任务，成本敏感

代码中的模型切换

java 复制代码

// 默认使用 gpt-4o（高质量）
ChatRequestParameters defaultParameters = ChatRequestParameters.builder()
    .modelName("gpt-4o")
    .temperature(0.7)
    .maxOutputTokens(100)
    .build();

ChatModel chatModel = OpenAiChatModel.builder()
    .apiKey("demo")
    .baseUrl("http://langchain4j.dev/demo/openai/v1")
    .defaultRequestParameters(defaultParameters)
    .build();

// 运行时切换到 gpt-4o-mini（低成本）
ChatRequestParameters overrideParameters = ChatRequestParameters.builder()
    .modelName("gpt-4o-mini")
    .temperature(1.0)
    .maxOutputTokens(50)
    .build();

ChatRequest chatRequest = ChatRequest.builder()
    .messages(UserMessage.from("你是谁"))
    .parameters(overrideParameters)  // 覆盖默认参数
    .build();

ChatResponse response = chatModel.chat(chatRequest);

关键点 ：LangChain4j 支持参数合并与覆盖 。defaultRequestParameters 设置全局默认值，每次调用时可通过 ChatRequest.parameters 临时覆盖特定参数。

2.4 其他重要参数

TopP（核采样）

TopP 是另一种控制多样性的方法，与 Temperature 配合使用：

原理：只从累积概率达到 P 值的词中选择
取值范围：0.0 - 1.0
建议：
- 如果调整了 Temperature，保持 TopP = 1.0
- 如果固定 Temperature，可降低 TopP 增加多样性

java 复制代码

ChatRequestParameters parameters = ChatRequestParameters.builder()
    .temperature(0.7)
    .topP(0.9)  // 只考虑累积概率前 90% 的词
    .build();

Presence Penalty & Frequency Penalty

这两个参数用于减少重复：

参数	作用	取值范围	效果
Presence Penalty	惩罚已出现的词	-2.0 ~ 2.0	鼓励谈论新话题
Frequency Penalty	惩罚高频词	-2.0 ~ 2.0	减少逐字重复

java 复制代码

ChatRequestParameters parameters = ChatRequestParameters.builder()
    .presencePenalty(0.5)     // 适度鼓励新内容
    .frequencyPenalty(0.3)    // 轻度减少重复
    .build();

注意：演示端点可能不支持所有参数，生产环境需查阅对应模型的 API 文档。

三、实战：T02_ModelParametersExamples 代码解析

让我们详细分析项目中的示例代码：

3.1 完整代码回顾

java 复制代码

package com.langchain4j;

import dev.langchain4j.data.message.UserMessage;
import dev.langchain4j.model.chat.ChatModel;
import dev.langchain4j.model.chat.request.ChatRequest;
import dev.langchain4j.model.chat.request.ChatRequestParameters;
import dev.langchain4j.model.chat.response.ChatResponse;
import dev.langchain4j.model.openai.OpenAiChatModel;

public class T02_ModelParametersExamples {

    public static void main(String[] args) {

        // 定制参数
        ChatRequestParameters defaultParameters = ChatRequestParameters.builder()
                .modelName("gpt-4o")
                .temperature(0.7)
                .maxOutputTokens(100)
                // there are many more common parameters, see ChatRequestParameters for more info
                .build();

        ChatModel chatModel = OpenAiChatModel.builder()
                .baseUrl("http://langchain4j.dev/demo/openai/v1")
                .apiKey("demo")
                .defaultRequestParameters(defaultParameters)
                .logRequests(true)
                .build();

        ChatRequestParameters parameters = ChatRequestParameters.builder()
                .modelName("gpt-4o-mini")
                .temperature(1.0)
                .maxOutputTokens(50)
                .build();

        ChatRequest chatRequest = ChatRequest.builder()
                .messages(UserMessage.from("你是谁"))
                .parameters(parameters) // merges with and overrides default parameters
                .build();

        ChatResponse chatResponse = chatModel.chat(chatRequest);

        System.out.println(chatResponse);
    }

}

3.2 代码结构分析

第一步：定义默认参数

java 复制代码

ChatRequestParameters defaultParameters = ChatRequestParameters.builder()
    .modelName("gpt-4o")           // 默认使用高质量模型
    .temperature(0.7)              // 中等创造性
    .maxOutputTokens(100)          // 限制输出长度
    .build();

这是全局默认配置，适用于大多数调用。

第二步：创建 ChatModel 并应用默认参数

java 复制代码

ChatModel chatModel = OpenAiChatModel.builder()
    .baseUrl("http://langchain4j.dev/demo/openai/v1")
    .apiKey("demo")
    .defaultRequestParameters(defaultParameters)  // 应用默认参数
    .logRequests(true)                             // 开启请求日志（调试用）
    .build();

关键点：

.defaultRequestParameters() 将参数绑定到模型实例
.logRequests(true) 会在控制台打印完整的 HTTP 请求和响应，方便调试

第三步：定义本次调用的覆盖参数

java 复制代码

ChatRequestParameters parameters = ChatRequestParameters.builder()
    .modelName("gpt-4o-mini")      // 覆盖：改用低成本模型
    .temperature(1.0)              // 覆盖：提高创造性
    .maxOutputTokens(50)           // 覆盖：缩短输出
    .build();

这些参数会合并并覆盖默认参数。

第四步：构建 ChatRequest

java 复制代码

ChatRequest chatRequest = ChatRequest.builder()
    .messages(UserMessage.from("你是谁"))
    .parameters(parameters)  // 传入覆盖参数
    .build();

ChatRequest 封装了完整的请求信息：

messages：对话消息列表（支持多轮对话）
parameters：本次调用的参数配置

第五步：执行调用并获取响应

java 复制代码

ChatResponse chatResponse = chatModel.chat(chatRequest);
System.out.println(chatResponse);

输出示例：

复制代码

ChatResponse { 
  aiMessage = AiMessage { 
    text = "我是一个人工智能助手，旨在回答你的问题和提供帮助。如果你有任何问题，或者需要信息，请随时告诉我！", 
    thinking = null, 
    toolExecutionRequests = [], 
    attributes = {} 
  }, 
  metadata = OpenAiChatResponseMetadata {
    id='chatcmpl-DaywRIVuDtwB9h020T4ctPPEPMAxy', 
    modelName='gpt-4o-mini-2024-07-18', 
    tokenUsage=OpenAiTokenUsage { 
      inputTokenCount = 9, 
      outputTokenCount = 29, 
      totalTokenCount = 38 
    }, 
    finishReason=STOP, 
    created=1777706439, 
    serviceTier='null', 
    systemFingerprint='fp_4727e8d6f3'
  } 
}

关键信息：

text：AI 的实际回复内容
inputTokenCount = 9：输入消耗 9 个 Tokens
outputTokenCount = 29：输出消耗 29 个 Tokens
totalTokenCount = 38：总计 38 个 Tokens
finishReason=STOP：正常结束（非截断）

四、典型场景参数配置模板

4.1 客服问答系统

需求：准确、稳定、简洁

java 复制代码

ChatRequestParameters customerServiceParams = ChatRequestParameters.builder()
    .modelName("gpt-4o-mini")     // 性价比高的模型
    .temperature(0.2)             // 低创造性，保证一致性
    .maxOutputTokens(300)         // 适中长度，避免啰嗦
    .topP(0.9)                    // 略微限制多样性
    .build();

特点：

低 Temperature 确保相同问题得到相似回答
限制输出长度，提升响应速度
适合 FAQ、产品咨询等场景

4.2 创意写作助手

需求：多样化、富有想象力

java 复制代码

ChatRequestParameters creativeWritingParams = ChatRequestParameters.builder()
    .modelName("gpt-4o")          // 高质量模型
    .temperature(0.9)             // 高创造性
    .maxOutputTokens(2000)        // 允许长文本
    .topP(0.95)                   // 保持多样性
    .presencePenalty(0.6)         // 鼓励新内容
    .build();

特点：

高 Temperature 产生独特的情节和表达
较大的 MaxTokens 支持完整故事输出
Presence Penalty 避免重复套路

4.3 代码生成助手

需求：语法正确、逻辑清晰、格式规范

java 复制代码

ChatRequestParameters codeGenerationParams = ChatRequestParameters.builder()
    .modelName("gpt-4o")          // 最强代码能力
    .temperature(0.3)             // 较低创造性，保证语法正确
    .maxOutputTokens(1500)        // 足够生成完整函数
    .frequencyPenalty(0.2)        // 减少代码重复
    .build();

特点：

较低 Temperature 确保代码语法准确
gpt-4o 在代码理解和生成方面表现最佳
适度的 Frequency Penalty 避免重复代码块

4.4 数据提取与结构化输出

需求：完全确定性、格式严格

java 复制代码

ChatRequestParameters extractionParams = ChatRequestParameters.builder()
    .modelName("gpt-4o-mini")     // 成本敏感
    .temperature(0.0)             // 完全确定性
    .maxOutputTokens(200)         // 简短输出
    .build();

特点：

Temperature = 0.0 确保相同输入永远得到相同输出
适合 JSON 提取、实体识别、分类任务
低成本模型即可满足需求

4.5 翻译服务

需求：忠实原文、流畅自然

java 复制代码

ChatRequestParameters translationParams = ChatRequestParameters.builder()
    .modelName("gpt-4o")          // 高质量翻译
    .temperature(0.3)             // 保持稳定性
    .maxOutputTokens(1000)        // 根据原文长度调整
    .topP(0.9)                    // 适度多样性
    .build();

特点：

低 Temperature 保证译文忠实于原文
高质量模型处理语言细微差别
避免过度意译导致偏离原意

4.6 参数配置速查表

场景	Model	Temperature	MaxTokens	TopP	Presence Penalty
客服问答	gpt-4o-mini	0.2	300	0.9	0.0
创意写作	gpt-4o	0.9	2000	0.95	0.6
代码生成	gpt-4o	0.3	1500	1.0	0.2
数据提取	gpt-4o-mini	0.0	200	1.0	0.0
翻译	gpt-4o	0.3	1000	0.9	0.0
头脑风暴	gpt-4o-mini	1.0	500	0.95	0.8
邮件撰写	gpt-4o-mini	0.6	600	0.9	0.3

提示：这些是起始值，实际使用时需根据具体业务反馈微调。

五、参数调优方法论

5.1 A/B 测试流程

步骤 1：定义评估指标

准确性：回答是否正确、相关
一致性：多次调用结果是否稳定
用户满意度：最终用户的反馈评分
成本效率：Token 用量与效果的平衡

步骤 2：设计实验组

java 复制代码

// 对照组：默认参数
ChatRequestParameters controlGroup = ChatRequestParameters.builder()
    .temperature(0.7)
    .maxOutputTokens(500)
    .build();

// 实验组 A：低温度
ChatRequestParameters experimentA = ChatRequestParameters.builder()
    .temperature(0.3)
    .maxOutputTokens(500)
    .build();

// 实验组 B：高温度
ChatRequestParameters experimentB = ChatRequestParameters.builder()
    .temperature(1.0)
    .maxOutputTokens(500)
    .build();

步骤 3：批量测试

java 复制代码

List<String> testQuestions = Arrays.asList(
    "如何重置密码？",
    "产品保修期多久？",
    "支持哪些支付方式？"
);

for (String question : testQuestions) {
    System.out.println("问题：" + question);
    
    ChatRequest controlRequest = ChatRequest.builder()
        .messages(UserMessage.from(question))
        .parameters(controlGroup)
        .build();
    System.out.println("对照组：" + chatModel.chat(controlRequest).aiMessage().text());
    
    ChatRequest expARequest = ChatRequest.builder()
        .messages(UserMessage.from(question))
        .parameters(experimentA)
        .build();
    System.out.println("实验组A：" + chatModel.chat(expARequest).aiMessage().text());
    
    System.out.println("---");
}

步骤 4：收集反馈并分析

人工评审：专家团队打分
用户调研：真实用户偏好调查
数据统计：选择率、完成率、投诉率

步骤 5：迭代优化

根据测试结果调整参数，重复上述流程直到达到满意效果。

5.2 动态参数选择

在实际生产中，不同场景可能需要不同的参数配置。可以使用策略模式动态选择：

java 复制代码

public class ParameterStrategy {
    
    public static ChatRequestParameters getParameters(String scenario) {
        return switch (scenario) {
            case "customer_service" -> ChatRequestParameters.builder()
                .temperature(0.2)
                .maxOutputTokens(300)
                .build();
                
            case "creative_writing" -> ChatRequestParameters.builder()
                .temperature(0.9)
                .maxOutputTokens(2000)
                .build();
                
            case "code_generation" -> ChatRequestParameters.builder()
                .temperature(0.3)
                .maxOutputTokens(1500)
                .build();
                
            default -> ChatRequestParameters.builder()
                .temperature(0.7)
                .maxOutputTokens(500)
                .build();
        };
    }
}

// 使用示例
String scenario = determineScenario(userInput);  // 根据用户输入判断场景
ChatRequestParameters params = ParameterStrategy.getParameters(scenario);

ChatRequest request = ChatRequest.builder()
    .messages(UserMessage.from(userInput))
    .parameters(params)
    .build();

ChatResponse response = chatModel.chat(request);

5.3 监控与告警

Token 用量监控

java 复制代码

ChatResponse response = chatModel.chat(chatRequest);

// 提取 Token 使用情况
long inputTokens = response.metadata().tokenUsage().inputTokenCount();
long outputTokens = response.metadata().tokenUsage().outputTokenCount();
long totalTokens = response.metadata().tokenUsage().totalTokenCount();

System.out.println("输入 Tokens: " + inputTokens);
System.out.println("输出 Tokens: " + outputTokens);
System.out.println("总计 Tokens: " + totalTokens);

// 记录到监控系统（如 Prometheus）
metricsRecorder.recordTokenUsage(totalTokens);

异常检测

java 复制代码

// 检测输出是否被截断
if (response.metadata().finishReason() == FinishReason.LENGTH) {
    logger.warn("输出被截断！MaxTokens 可能设置过小");
    // 触发告警或自动重试
}

// 检测异常高的 Token 消耗
if (totalTokens > EXPECTED_MAX_TOKENS) {
    alertService.sendAlert("Token 用量异常: " + totalTokens);
}

六、常见问题与避坑指南

6.1 Temperature 和 TopP 同时调整

❌ 错误做法：

java 复制代码

ChatRequestParameters params = ChatRequestParameters.builder()
    .temperature(1.5)    // 已经很高了
    .topP(0.5)           // 又限制得很死
    .build();

问题：两个参数都在控制多样性，同时调整会导致不可预测的行为。

✅ 正确做法：

优先调整 Temperature，保持 TopP = 1.0
如果 Temperature 无法满足需求，再微调 TopP
不要同时将两者设为极端值

java 复制代码

// 推荐方式 1：只调 Temperature
ChatRequestParameters params1 = ChatRequestParameters.builder()
    .temperature(0.8)
    .topP(1.0)  // 默认值
    .build();

// 推荐方式 2：固定 Temperature，微调 TopP
ChatRequestParameters params2 = ChatRequestParameters.builder()
    .temperature(0.7)  // 保持不变
    .topP(0.85)        // 轻微限制
    .build();

6.2 MaxTokens 设置不当导致截断

❌ 现象：

复制代码

人工智能的发展经历了多个阶段，从早期的符号主义到现代的深度学习，取得了巨大进步。目前主要应用于...
[此处突然中断]

原因：MaxTokens 设置过小，回答未完成就被强制停止。

✅ 解决方案：

增加 MaxTokens：

java 复制代码

ChatRequestParameters params = ChatRequestParameters.builder()
    .maxOutputTokens(1000)  // 从 100 增加到 1000
    .build();

检测截断并重试：

java 复制代码

ChatResponse response = chatModel.chat(chatRequest);

if (response.metadata().finishReason() == FinishReason.LENGTH) {
    logger.info("检测到截断，增加 MaxTokens 重试");
    
    ChatRequestParameters retryParams = ChatRequestParameters.builder()
        .maxOutputTokens(currentMaxTokens * 2)  // 翻倍
        .build();
    
    ChatRequest retryRequest = ChatRequest.builder()
        .messages(chatRequest.messages())
        .parameters(retryParams)
        .build();
    
    response = chatModel.chat(retryRequest);
}

优化 Prompt：要求模型简洁回答

java 复制代码

UserMessage message = UserMessage.from(
    "请用不超过 100 字简要介绍人工智能的发展历史"
);

6.3 忽略模型差异

❌ 错误认知：所有模型的参数效果相同

事实：

GPT-4 对 Temperature 更敏感
GPT-3.5 需要更高的 Temperature 才能达到相同多样性
不同厂商的模型参数范围可能不同

✅ 正确做法：

为每个模型单独调优参数，不要直接复用配置。

java 复制代码

// GPT-4 配置
ChatRequestParameters gpt4Params = ChatRequestParameters.builder()
    .modelName("gpt-4o")
    .temperature(0.5)  // GPT-4 在这个值表现良好
    .build();

// GPT-3.5 配置（需要更高温度）
ChatRequestParameters gpt35Params = ChatRequestParameters.builder()
    .modelName("gpt-3.5-turbo")
    .temperature(0.8)  // 提高温度以获得类似效果
    .build();

6.4 未考虑上下文长度限制

❌ 问题：

java 复制代码

ChatRequestParameters params = ChatRequestParameters.builder()
    .maxOutputTokens(4000)  // 看似合理
    .build();

// 但输入已经有 12000 Tokens
ChatRequest request = ChatRequest.builder()
    .messages(longConversationHistory)  // 12000 Tokens
    .parameters(params)
    .build();

错误：GPT-4o-mini 的最大上下文是 128K Tokens，但某些模型只有 4K 或 8K。输入 + 输出不能超过限制。

✅ 解决方案：

java 复制代码

int modelMaxContext = 128000;  // GPT-4o-mini 的限制
int inputTokens = estimateTokens(messages);
int safeMaxOutput = modelMaxContext - inputTokens - 1000;  // 预留 1000 Tokens 安全边际

ChatRequestParameters params = ChatRequestParameters.builder()
    .maxOutputTokens(Math.min(4000, safeMaxOutput))  // 取较小值
    .build();

6.5 演示端点参数支持有限

❌ 现象：

设置了某些参数，但输出没有变化。

原因：LangChain4j 官方演示端点可能不支持所有参数，或者做了简化处理。

✅ 解决方案：

使用真实 API 测试：

java 复制代码

OpenAiChatModel chatModel = OpenAiChatModel.builder()
    .apiKey(System.getenv("OPENAI_API_KEY"))  // 真实 Key
    .baseUrl("https://api.openai.com/v1")      // 官方端点
    .defaultRequestParameters(params)
    .build();

查阅文档：确认目标模型支持的参数列表
开启日志验证：

java 复制代码

OpenAiChatModel.builder()
    .logRequests(true)   // 打印发送的请求
    .logResponses(true)  // 打印接收的响应
    .build();

检查日志中参数是否真正发送到 API。

七、进阶技巧

7.1 基于反馈的自动调参

利用用户反馈自动优化参数：

java 复制代码

public class AdaptiveParameterTuner {
    
    private double currentTemperature = 0.7;
    private int successCount = 0;
    private int failureCount = 0;
    
    public ChatRequestParameters getNextParameters() {
        // 根据成功率调整 Temperature
        double successRate = (double) successCount / (successCount + failureCount);
        
        if (successRate < 0.6) {
            // 成功率低，降低 Temperature 增加稳定性
            currentTemperature = Math.max(0.2, currentTemperature - 0.1);
        } else if (successRate > 0.9) {
            // 成功率高，提高 Temperature 增加多样性
            currentTemperature = Math.min(1.0, currentTemperature + 0.05);
        }
        
        return ChatRequestParameters.builder()
            .temperature(currentTemperature)
            .maxOutputTokens(500)
            .build();
    }
    
    public void recordFeedback(boolean isSuccess) {
        if (isSuccess) {
            successCount++;
        } else {
            failureCount++;
        }
    }
}

7.2 参数版本管理

将参数配置外部化，便于管理和回滚：

yaml 复制代码

# application.yml
langchain4j:
  parameters:
    customer-service:
      temperature: 0.2
      max-output-tokens: 300
      model-name: gpt-4o-mini
    
    creative-writing:
      temperature: 0.9
      max-output-tokens: 2000
      model-name: gpt-4o

java 复制代码

@ConfigurationProperties(prefix = "langchain4j.parameters")
@Data
public class LLMParametersConfig {
    private Map<String, ParameterProfile> profiles;
    
    @Data
    public static class ParameterProfile {
        private Double temperature;
        private Integer maxOutputTokens;
        private String modelName;
    }
}

// 使用
@Autowired
private LLMParametersConfig config;

public ChatRequestParameters getParameters(String scenario) {
    LLMParametersConfig.ParameterProfile profile = 
        config.getProfiles().get(scenario);
    
    return ChatRequestParameters.builder()
        .temperature(profile.getTemperature())
        .maxOutputTokens(profile.getMaxOutputTokens())
        .modelName(profile.getModelName())
        .build();
}

优势：

无需重新编译即可调整参数
支持 A/B 测试不同配置
可快速回滚到之前的版本

7.3 成本优化策略

分级模型策略

java 复制代码

public class CostOptimizedChatService {
    
    public String chat(String userInput, String userLevel) {
        ChatRequestParameters params;
        
        if ("vip".equals(userLevel)) {
            // VIP 用户使用高质量模型
            params = ChatRequestParameters.builder()
                .modelName("gpt-4o")
                .temperature(0.7)
                .maxOutputTokens(1000)
                .build();
        } else {
            // 普通用户使用性价比模型
            params = ChatRequestParameters.builder()
                .modelName("gpt-4o-mini")
                .temperature(0.7)
                .maxOutputTokens(500)
                .build();
        }
        
        ChatRequest request = ChatRequest.builder()
            .messages(UserMessage.from(userInput))
            .parameters(params)
            .build();
        
        return chatModel.chat(request).aiMessage().text();
    }
}

Token 预算控制

java 复制代码

public class BudgetControlledChatService {
    
    private static final long DAILY_BUDGET_TOKENS = 1_000_000;  // 每日 100 万 Tokens
    private AtomicLong todayUsedTokens = new AtomicLong(0);
    
    public ChatResponse chatWithBudget(ChatRequest request) {
        long remaining = DAILY_BUDGET_TOKENS - todayUsedTokens.get();
        
        if (remaining <= 0) {
            throw new BusinessException("今日 Token 预算已用完");
        }
        
        // 预估本次调用所需 Tokens
        int estimatedTokens = estimateTokens(request.messages()) + 500;
        
        if (estimatedTokens > remaining) {
            logger.warn("Token 预算不足，降级到便宜模型");
            // 切换到更便宜的模型或降低 MaxTokens
            request = downgradeRequest(request);
        }
        
        ChatResponse response = chatModel.chat(request);
        
        // 更新用量
        long actualTokens = response.metadata().tokenUsage().totalTokenCount();
        todayUsedTokens.addAndGet(actualTokens);
        
        return response;
    }
}

结语

通过本文的学习，你已经掌握了 LangChain4j 中大模型参数调优的核心技术。从 Temperature 控制创造性，到 MaxOutputTokens 限制输出长度，再到 ModelName 选择合适模型，这些参数的合理配置能让 AI 应用更加稳定、高效、经济。记住，参数调优不是一次性工作，而是需要结合业务反馈持续迭代的过程。建议你在实际项目中建立参数配置管理系统，实施 Token 用量监控，并通过 A/B 测试找到最优配置。下一篇我们将探索多模态 AI 开发，学习如何让 Java 应用理解图片、生成图像、处理音频，开启 AI 应用的新维度！

🔔 关于作者 ：资深程序老猿，10年+架构经验，现专注 AIGC 探索与实践。

👍 若文章对你有所触动，恳请点赞 ⭐ 关注 ⭐ 收藏！AI 浪潮已至，愿与你同行。

LangChain4j Java AI 应用开发实战（二）：大模型参数调优实战：Temperature、TopP、MaxTokens 深度解析

系列篇章💥

目录

前言

一为什么需要参数调优？

1.1 默认参数的局限性

1.2 参数调优的价值

二、核心参数详解

2.1 Temperature（温度）

什么是 Temperature？

工作原理

代码示例

2.2 MaxOutputTokens（最大输出令牌数）

什么是 MaxOutputTokens？

为什么要限制？

常见误区

代码示例

Token 估算技巧

2.3 ModelName（模型名称）

不同模型的能力差异

代码中的模型切换

2.4 其他重要参数

TopP（核采样）

Presence Penalty & Frequency Penalty

三、实战：T02_ModelParametersExamples 代码解析

3.1 完整代码回顾

3.2 代码结构分析

第一步：定义默认参数

第二步：创建 ChatModel 并应用默认参数

第三步：定义本次调用的覆盖参数

第四步：构建 ChatRequest

第五步：执行调用并获取响应

四、典型场景参数配置模板

4.1 客服问答系统

4.2 创意写作助手

4.3 代码生成助手

4.4 数据提取与结构化输出

4.5 翻译服务

4.6 参数配置速查表

五、参数调优方法论

5.1 A/B 测试流程

步骤 1：定义评估指标

步骤 2：设计实验组

步骤 3：批量测试

步骤 4：收集反馈并分析

步骤 5：迭代优化

5.2 动态参数选择

5.3 监控与告警

Token 用量监控

异常检测

六、常见问题与避坑指南

6.1 Temperature 和 TopP 同时调整

6.2 MaxTokens 设置不当导致截断

6.3 忽略模型差异

6.4 未考虑上下文长度限制

6.5 演示端点参数支持有限

七、进阶技巧

7.1 基于反馈的自动调参

7.2 参数版本管理

7.3 成本优化策略

分级模型策略

Token 预算控制

结语