原文：https://mp.weixin.qq.com/s/i6rO6k1Br0XgiA9DRQIaDQ

欢迎关注公zh: AI-Frontiers

和大语言模型聊天的时候，你是不是也觉得，光会写提示词还不够？有时候模型答得乱七八糟，真不是你的问题。其实不管是直接用对话框，还是调API，有个小细节特别容易被忽略------配置参数。你可以把这些参数想象成模型身上的调节旋钮，拧对了地方，回答的质量一下子就上来了。反过来，要是完全不管，或者凭感觉乱拧，那结果可就真不好说了。

假设将调用大模型比作烹饪美食，那么参数调优就如同掌控火候的核心技艺------火候不足，菜肴便寡淡无味、缺乏层次；火候过旺，食材则易被烧焦、失去本味。同理，在使用 LLM API 时，参数的细微调整，都会直接影响生成内容的精准度、创造性与实用性。无论是让AI撰写严谨规范的法律条文，还是创作天马行空的诗歌作品，参数的合理设定，都直接决定了最终输出结果的"风味"与质量。

为了让大家更直观地理解参数调优的重要性，我们结合几个实际应用场景，看看不同场景下的参数调优逻辑：

案例一：智能客服中的参数调优

在智能客服场景中，用户的核心需求是获取准确、简洁、贴合问题的回复，无需多余的发散内容。此时，我们可以将temperature（温度值）设置为较低水平（如0.2），同时调低top_p（累积概率）至0.5左右，以此降低生成内容的随机性和多样性，确保AI给出的回答始终准确、一致，贴合客服场景的核心需求。

除此之外，还可以合理设置max_tokens（最大生成长度），例如限制为100，避免生成冗长冗余的回复，让用户快速获取关键信息。
案例二：内容创作中的参数调优

在内容创作场景中，比如生成广告文案、社交媒体推文、创意短文等，核心需求是产出富有创意、形式多样的内容，避免千篇一律。这时，我们可以将temperature调高至0.8左右，同时将top_p设置为0.9，通过提升随机性和多样性，充分激发模型的创造力，让生成的内容更具新意和吸引力。

同时，适当调整frequency_penalty（频率惩罚）和presence_penalty（存在惩罚）的数值，能够有效鼓励模型使用新颖的词汇和句式，避免重复使用相同的表达，让内容更具丰富性。
案例三：数据分析中的参数调优

在数据分析场景中，例如从海量文本中提取关键信息、生成结构化分析报告，核心需求是输出准确、严谨、结构化的内容，杜绝随意发散。此时，可将temperature设置为较低水平（如0.3），top_p调整至0.6，减少生成内容的随机性，确保输出结果的准确性和一致性，贴合数据分析的严谨性要求。

另外，合理设置max_tokens（如200），限制输出内容的长度，既能保证报告的简洁性，也能提升内容的可读性，让分析结论更清晰易懂。

不难发现，通过调整temperature、top_p、frequency_penalty等核心参数，我们可以灵活控制AI生成内容的随机性、创造性和重复性，从而精准适配不同场景的需求。

反之，若参数设置不当，将会严重影响模型的输出质量，常见问题主要有以下3种：

1. 过度发散的回答

当temperature设置过高（如1.2）时，模型的随机性会大幅提升，输出内容容易脱离实际需求。例如询问"如何做番茄炒蛋"，AI可能会给出这样的回答："首先，你需要一颗来自火星的番茄，在零重力环境下打散鸡蛋..."，这样的回复显然与用户的实际需求毫无关联。

2. 过度保守的回答

当temperature设置为0（完全确定性模式）时，模型的创造性会被完全限制，输出内容过于刻板、缺乏灵气。例如要求AI"写一首爱情诗"，它可能会给出："两个人相遇，产生感情，最终结婚。"这样的表述虽然符合逻辑，但毫无诗意可言，无法满足内容创作的需求。

3. 意外中断的输出

若未合理设置max_tokens（最大生成长度），在生成长文（如报告、文章）时，内容可能会突然被截断。例如："综上所述，量子计算机的核心优势在于...（输出结束）"，关键结论的丢失会严重影响内容的完整性，大幅降低用户体验。

一、为什么开发者必须掌握参数调优？

对于开发者而言，掌握参数调优能力至关重要，核心原因有三点：

成本控制：max_tokens的设置直接关联API调用成本，冗余的内容生成会造成不必要的预算浪费，合理调优可有效降低使用成本。
用户体验：在客服等场景中，一个偏离需求的发散回答，可能直接导致用户流失，参数调优是保障用户体验的关键。
业务适配：不同业务场景对AI输出的要求不同，创意类场景需要"放飞"模型的创造力，而法律、金融等严谨场景则必须"收紧"模型，参数调优正是实现业务适配的核心手段。

接下来，我们将逐步拆解每个核心参数的作用机制，并通过真实案例演示如何像调节「旋钮」一样，精准操控AI的输出效果，让AI更好地服务于实际业务需求。

二、一个代码案例

2.1 设置 API Key

为安全起见，建议将 API Key 存储在环境变量中，或者存储一个env文件，在程序里面读取：

Python 复制代码

from dotenv import load_dotenv
# 加载 .env 文件
load_dotenv("you_api.env")

api_key = os.getenv("API_KEY")
app_id = os.getenv("APP_ID")

2.2 配置 Base URL

如果使用代理服务或自定义接口，需设置 Base URL：

Python 复制代码

openai.api_base = "https://your-custom-api.com/v1"

2.3 设置代理（可选）

在某些网络环境下，可能需要配置代理：

Python 复制代码

import os

os.environ["http_proxy"] = "http://127.0.0.1:8888"
os.environ["https_proxy"] = "http://127.0.0.1:8888"

或者使用 httpx 配置代理客户端：

Python 复制代码

import httpx
from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://your-custom-api.com/v1",
    http_client=httpx.Client(proxies="http://127.0.0.1:8888")
)

2.4 示例代码

以下是一个使用 openai.ChatCompletion.create() 方法进行对话生成的示例：

Python 复制代码

import openai

openai.api_key = "your-api-key"

response = openai.ChatCompletion.create(
    model="qwen-max-latest",
    messages=[
        {"role": "system", "content": "你是一个乐于助人的助手。"},
        {"role": "user", "content": "请告诉我今天的天气。"}
    ],
    temperature=0.7,
    max_tokens=100
)

print(response.choices[0].message["content"])

在上述代码中：

model 指定使用的模型，如 qwen-max-latest。
messages 是对话的上下文，包括系统、用户和助手的消息。
temperature 控制生成内容的随机性，值越高，生成的内容越多样化。
max_tokens 限制生成内容的最大长度。

通过上述配置，开发者可以快速集成大模型能力，为应用程序添加智能对话功能。

三、核心参数讲解

将介绍每个接口的用途、主要参数（默认值及建议范围）、参数如何影响模型输出效果与使用成本，并提供对应的 Python 示例代码。另外，每节还结合实际业务场景举例，帮助理解参数设置的效果，并在最后给出实战建议。这里以OpenAI API为例来介绍，其他家模型基本类似，可参考官网API文档。

Openai: https://developers.openai.com/api/docs

Deepseek: https://api-docs.deepseek.com/zh-cn/

Qwen: https://qwen.ai/apiplatform

Glm: https://docs.bigmodel.cn/cn/api/introduction

Kimi: https://platform.kimi.ai/docs/api/overview

3.1 主要参数

model（模型）: 使用的模型名称。例如常用的对话模型有 "gpt-3.5-turbo" 或 "gpt-4" 等。GPT-4 通常在处理复杂任务上效果更好，但成本更高，而 GPT-3.5-Turbo 速度快、价格低。
messages（消息列表）: 多轮对话消息组成的数组。每个消息是一个字典，包含 role（角色）和 content（内容）。典型角色有：
- "system"：系统角色消息，可用于设定对话的背景或规则，比如指示 AI 扮演某种身份。
- "user"：用户消息，即用户提出的问题或输入。
- "assistant"：助手（AI）消息，即此前模型产生的回答。开始对话时通常提供一个 system 指令和用户提问，模型会根据这些生成 assistant 回复。随着对话进行，messages 列表会不断加入新的 user 和 assistant 消息，以维持上下文。
max_tokens（最大生成长度）: 控制模型输出的最长 Token 数。默认情况下，如果不设置，模型会尽可能长地生成直到达到模型上下文上限或遇到停止信号。设置此参数可以防止输出过长（从而控制成本），但若设得过小可能导致回答不完整。一般根据需求设置几十到上千不等。例如希望简短回答可设定如 max_tokens=100。
stop （停止标志）: 可以是字符串或字符串列表，表示生成过程中遇到该标志时就停止输出，不再继续生成。例如设置 stop=["\n\nHuman:"] 可以在对话模型开始生成下一个 Human/user 提示时强制停止。合理使用 stop 有助于避免模型跑题或输出多余内容。默认情况下没有强制停止标志，模型会根据自身学习到的停止符（如系统消息或 max_tokens 耗尽）来结束。
temperature（温度）: 控制生成文本的随机性，取值范围 0～2，默认值为 1。温度越高，回复越随机、富有创造力；温度越低，回复越稳健严谨、更加确定。比如 temperature=0 时，每次回答几乎相同，适合问答、代码等需要确定性的场景；temperature=0.7 时，回复会更丰富多样，适合创意写作等需要一定随机性的场景。
top_p（概率截断）: 又称核采样，取值 0～1，默认值为 1。它控制模型考虑预测下一个词时累积概率的范围。当 top_p<1 时，模型仅从概率前 top_p 部分的词中采样，例如 top_p=0.1 意味着只考虑前10%概率质量的词。通常和 temperature 二选一调整，不需要同时修改这两个参数。在需要输出更符合常理语句时，可降低 top_p 来减少罕见词输出的可能性。
presence_penalty（话题新颖度惩罚）: 数值范围 -2.0～2.0，默认 0。正值会惩罚模型重复提及对话中已出现过的主题，提高引入新话题的倾向。换句话说，值越高，模型越倾向于不重复自己，鼓励拓展到新内容；负值则反之，会提高模型重复提及已有内容的概率。
frequency_penalty（频率惩罚）: 数值范围 -2.0～2.0，默认 0。正值会惩罚模型重复输出相同字词的频率。值越高，输出越不容易重复用词，以避免内容重复啰嗦；负值则可能使模型更倾向重复字词。比如在总结场景下可设置略高的频率惩罚以避免模型重复句子。在押韵诗歌等场景或需重复关键词时则可使用负值降低惩罚。一般建议是改变 frequency penalty 和 presence penalty 其中一个参数就行，不要同时调整两个。
n（返回结果数量）: 一次请求生成多少个回复，默认 1。如果设置 n>1，接口会返回多个备选回复。适用于希望从多种应答中进行选择的场景，比如生成多种文案创意。但要注意 n 值越大，消耗的 Token 和费用近似线性增加（相当于做了多次生成）。
stream（流式输出）: 是否启用流式输出，默认 False。若设为 True，API 将逐步返回部分消息（类似打字机效果），适合实时应用。例如在聊天界面一点点显示回答。流模式下需在代码中迭代读取流响应。需要注意的是，开启流式并不改变最终内容或费用，但可以降低延迟、提升用户体验。
functions（列表，可选）：函数调用功能的描述列表。每个函数由 name、description、parameters 等定义，用于引导模型以函数格式输出。这是 ChatCompletion 新增的高级特性，可让模型按照指定函数的参数格式返回结构化数据。当提供此参数时，模型可能选择返回一个函数调用结果而非自然语言。
function_call（字符串或字典，可选）：指定函数调用方式。默认为 "auto" 让模型自行决定是否调用函数；可设为 "none" 强制禁止函数调用；或指定为某个函数名强制模型调用该函数。配合 functions 参数使用，用于更精细地控制模型输出格式（比如强制模型给出JSON调用某函数的参数）。
user（字符串，可选）：用于标识终端用户的唯一标识符。这个信息不会影响生成内容，但会在日志中记录，OpenAI 用它来监控滥用。对于多用户的应用，传递 user 参数有助于将请求与用户对应，以满足审计或安全需求。

除了以上参数外，Completion还有三个独特的参数：

logprobs （整数或 None，可选）：如果设置一个正整数 n，模型将返回每个生成的 token 的前 n 个候选词及其概率对数值**（对数概率）** 。例如设置 logprobs=5，则对每个输出token，提供当时概率最高的5个token及其log概率。这对于分析模型输出、调试提示或在应用中基于置信度做处理很有帮助。默认值为 None（不返回概率信息）。**注意：**使用 logprobs 不会改变生成的内容，但响应中包含更多数据。n 最大不宜过大，一般5足够，否则响应体积会变大。logprobs 会额外占用一定计算，但相比生成文本本身开销不算太高。
echo（布尔值，可选）：是否在输出中包含提示文本本身。默认 False。如果设为 True，模型的完整输出将前面附带原始 prompt，然后接着生成的completion。这在某些场景下（例如想要得到"prompt+完成"的整体文本）有用。一般大多数应用下我们只需要生成部分，不需要 echo。
best_of （整数，可选）：一次生成的候选数用于选优，默认 1 。当 best_of > 1 时，服务器会生成 best_of 份补全，但只返回其中得分最高的一个v1-14.docs.dapr.io。这与 n 不同：n 会返回所有n个结果，而 best_of 会进行内部比拼后只给一个结果。注意 best_of 会显著增加 token 使用量，因为模型实际生成了 best_of 个完成，只是扔掉了其余的。只有在需要追求更高质量且愿意多花费用时才考虑使用。例如 best_of=5 能提高拿到一个高质量输出的概率，但费用约是5倍且只返回1个结果。不能将 best_of 和 stream 或 n 结合使用（若 n < best_of 则返回 n 个中最好的 n 个）。

3.2 参数对内容和成本的影响

创意与一致性： temperature 和 top_p 直接决定回复的随机性。较低的 temperature（接近0）让模型每次都选取最可能的词，输出偏确定和可预测，这适合事实问答或代码生成等需要稳定结果的任务；较高的 temperature/top_p 允许模型探索不太可能的词，增加回复的多样性，用于创意写作、对话聊天等场景会更生动。但是温度过高（如 >1.5）可能导致胡言乱语或跑题，需要谨慎调整。
输出长度： max_tokens 决定回复长度上限。如果希望简洁回答，可设一个较小的 max_tokens；生成长文则应提高该值。但无论何种情况，max_tokens 越大潜在成本越高，因为模型可能输出更多内容。同时由于每个 token 都按单价计费（输入和输出均计费），限制 max_tokens 也是控制花费的方法之一。对于聊天模型，例如 GPT-3.5，每千 tokens 定价几美分左右，所以生成100 tokens和1000 tokens在成本上相差一数量级。
重复与话题控制： presence_penalty 和 frequency_penalty 提供对内容重复度和话题广度的控制。举例来说，在一个产品描述生成 任务中，如果模型倾向重复某些词，可以增加 frequency_penalty，使其换用不同表达。而在头脑风暴 应用里，提高 presence_penalty 可以促使模型不断引入新创意而不是反复纠结旧点子。反过来，如果希望模型紧扣用户给定的话题，可以设置适度的负值以鼓励模型重复提及相关主题词。不过一般大多数应用保持默认0即可，除非有明确需要。
多回复与成本： 使用 n>1 可以一次性得到多种不同风格或角度的回答，例如在客服聊天 中生成多个答复备选。但需要注意每个候选实际上是独立调用模型生成，费用也近似按倍数增加。例如生成3个回复的费用约是单回复的3倍（因为输出 token 数增加）。因此除非有挑选最佳回答的需求，否则不建议轻易将 n 调太高。
函数输出： 提供 functions 参数会影响模型输出------模型可能返回一个函数调用而非直接回答。这对工具使用场景很有用，例如要求模型返回结构化数据给程序处理。如果不想模型走函数调用分支，应避免提供 functions 或将 function_call 设为 "none"。
流式输出： stream=True 虽然不改变最终内容，但对交互体验影响显著。在需要实时显示的应用（如聊天机器人打字效果）中使用流式能降低延迟，提高用户感知速度。不过实现上要处理好分片消息的组装。另外，开启 stream 并不会减少费用，因为总Token用量不变，但由于可边生成边发送，在长内容时可以节省一点总体请求时间。

调用示例（Python）： 下面我们以 qwen-long 模型为例，演示 OpenAI ChatCompletion 接口的基本用法。

Python 复制代码

# 准备对话消息
messages = [
    {"role": "system", "content": "你是一位乐于助人的数学讲师，用通俗易懂的语言回答问题。"},
    {"role": "user", "content": "请解释一下 Monty Hall 问题 的意义。"}
]

# 不同参数设置下调用 ChatCompletion 接口
response_default = client.chat.completions.create(
    model="qwen-max-latest",
    messages=messages
)
print("默认参数回复：\n", response_default.choices[0].message.content)

response_creative = client.chat.completions.create(
    model="qwen-max-latest",
    messages=messages,
    temperature=1.2,    # 提高随机性
    n=2,                # 获取2个不同风格的回答
    max_tokens=150      # 扩大量以获得详细解释
)
for i, choice in enumerate(response_creative.choices):
    print(f"\n回复 {i+1}：\n{choice.message.content}")

运行上述代码，模型会生成一个对于 ChatCompletion 接口的解释性回答。

在上述代码中，response_default 使用默认参数，会得到模型较为中规中矩 的解释。而 response_creative 则提高了温度并让模型输出两个版本，可能一个解释更风趣类比 ，另一个更严谨数学。需要强调的是，n=2 虽然让我们一次获得两个答案，但其消耗的 Token 也是双倍的（输入部分共享但输出两份）。实际应用时，可以根据需求权衡这种一次多回复的策略。

3.3 应用场景与参数调优

在聊天机器人 或对话系统中，合适地调整这些参数能够显著改善用户体验。例如，当构建一个代码助理时，为了保证代码输出的确定性和正确性，常将 temperature 设为 0，使模型每次都产生几乎相同的结果，减少随机 bug。同时可能设置较高的 max_tokens 以便生成较长的代码段，并利用 stop 参数让模型在输出完函数定义后停止，避免啰嗦解释。

又如，在创意写作场景（故事生成、诗歌创作），可以将 temperature 提高到 1.0 以上甚至 1.5，并将 presence_penalty 适当提高以鼓励引入新主题、新意象，从而获得更有想象力的输出。然而要注意此时可能需要对结果进行人工筛选，因为高随机性下质量波动也会增大，必要时可以请求多次或增加 n 来获取多个候选文本。

四、小结

在大模型的世界里，参数调优不仅仅是技术微调，更像是与模型进行一场默契的对话。你给它温度，它回应你创意；你设定停止词，它懂得适可而止；你调高惩罚因子，它便收起啰嗦、言简意赅。每一个参数都是调节"风格" "稳定性" "长度""成本"的旋钮，合理配置就像调音师手中的推子，最终奏出你理想中的"AI交响乐"。

在实际项目中，无论你是在开发客服助手、文案生成系统、知识库搜索引擎，还是构建多模态 Agent，理解并掌握这些参数的调优技巧，是将大模型从"能跑"到"好用"的关键一步。

最后，记住一点：**模型是死的，Prompt和参数才是活的。**与其一味吐槽"模型答错了"，不如从"调Prompt、调参数"开始，换个方式与它对话，也许你就能听懂它真正的声音。

LLM核心参数配置指南：基础篇

一、为什么开发者必须掌握参数调优？

二、一个代码案例

2.1 设置 API Key

2.2 配置 Base URL

2.3 设置代理（可选）

2.4 示例代码

三、核心参数讲解

3.1 主要参数

3.2 参数对内容和成本的影响

3.3 应用场景与参数调优

四、小结