大模型输入参数学习

赫连达2024-09-28 19:02

在大语言模型（如Transformer-based模型）中，生成文本时通常会用到一些控制生成过程的参数。这些参数可以帮助调整生成文本的质量、多样性和可控性。以下是对几个参数的详细解释：

具体使用需要根据具体情况自行酌定

1. `top_p` (Nucleus Sampling)

含义：top_p 是一种采样策略，称为"核采样"(Nucleus Sampling) 或"Top-p 采样"。它选择累积概率分布中前 p% 的词作为候选词，然后从这些候选词中随机选择下一个词。
作用：通过设置 top_p，可以控制生成文本的多样性。较小的 top_p 值会导致更保守的选择，生成的文本可能更连贯但缺乏多样性；较大的 top_p 值会导致更多的随机性和多样性，但可能会引入不相关的词。
取值范围 ：0 < top_p ≤ 1。通常情况下，top_p 设置为 0.9 或 0.95 是比较常见的选择。

2. `top_k` (Top-k Sampling)

含义：top_k 是另一种采样策略，称为"Top-k 采样"。它选择概率最高的前 k 个词作为候选词，然后从这些候选词中随机选择下一个词。
作用：通过设置 top_k，可以控制生成文本的多样性。较小的 top_k 值会导致更保守的选择，生成的文本可能更连贯但缺乏多样性；较大的 top_k 值会导致更多的随机性和多样性，但可能会引入不相关的词。
取值范围 ：top_k 是一个正整数。通常情况下，top_k 设置为 50 或 100 是比较常见的选择。

3. `temperature`

含义：temperature 是一个控制生成文本随机性的参数。它用于调整输出概率分布的平滑度。
作用：较高的 temperature 值会使概率分布更加平坦，增加生成文本的随机性和多样性；较低的 temperature 值会使概率分布更加尖锐，减少生成文本的随机性，使生成的文本更加确定和连贯。
取值范围 ：temperature > 0。通常情况下，temperature 设置为 0.7 或 1.0 是比较常见的选择。

4. `max_new_tokens`

含义：max_new_tokens 是一个控制生成文本长度的参数。它指定了生成的新 tokens 的最大数量。
作用：通过设置 max_new_tokens，可以控制生成文本的长度。较大的值会导致生成更长的文本，而较小的值会导致生成较短的文本。
取值范围 ：max_new_tokens 是一个非负整数。具体取值取决于你的需求，例如生成一个段落可能需要 50 到 100 个 tokens，生成一篇文章可能需要几百个 tokens。

总结

top_p 和 top_k：用于控制生成文本的多样性和连贯性。较小的值会使生成的文本更连贯但缺乏多样性，较大的值会使生成的文本更随机和多样。
temperature：用于控制生成文本的随机性。较高的值增加随机性，较低的值增加确定性。
max_new_tokens：用于控制生成文本的长度。

上一篇：深入理解Java内部类

下一篇：R包：VennDiagram韦恩图

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03KGG转MP3工具|非KGM文件|解密音频 04【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE Rules 实践：为项目配置 6A 工作流 08全球最强模型Grok4，国内已可免费使用！（附教程）09GPT-5 使用限制与国内升级全攻略（免费 / Plus / Pro）【2025 最新】10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南