大模型输入参数学习

在大语言模型(如Transformer-based模型)中,生成文本时通常会用到一些控制生成过程的参数。这些参数可以帮助调整生成文本的质量、多样性和可控性。以下是对几个参数的详细解释:

具体使用需要根据具体情况自行酌定

1. top_p (Nucleus Sampling)

  • 含义top_p 是一种采样策略,称为"核采样"(Nucleus Sampling) 或"Top-p 采样"。它选择累积概率分布中前 p% 的词作为候选词,然后从这些候选词中随机选择下一个词。
  • 作用 :通过设置 top_p,可以控制生成文本的多样性。较小的 top_p 值会导致更保守的选择,生成的文本可能更连贯但缺乏多样性;较大的 top_p 值会导致更多的随机性和多样性,但可能会引入不相关的词。
  • 取值范围 :0 < top_p ≤ 1。通常情况下,top_p 设置为 0.9 或 0.95 是比较常见的选择。

2. top_k (Top-k Sampling)

  • 含义top_k 是另一种采样策略,称为"Top-k 采样"。它选择概率最高的前 k 个词作为候选词,然后从这些候选词中随机选择下一个词。
  • 作用 :通过设置 top_k,可以控制生成文本的多样性。较小的 top_k 值会导致更保守的选择,生成的文本可能更连贯但缺乏多样性;较大的 top_k 值会导致更多的随机性和多样性,但可能会引入不相关的词。
  • 取值范围top_k 是一个正整数。通常情况下,top_k 设置为 50 或 100 是比较常见的选择。

3. temperature

  • 含义temperature 是一个控制生成文本随机性的参数。它用于调整输出概率分布的平滑度。
  • 作用 :较高的 temperature 值会使概率分布更加平坦,增加生成文本的随机性和多样性;较低的 temperature 值会使概率分布更加尖锐,减少生成文本的随机性,使生成的文本更加确定和连贯。
  • 取值范围temperature > 0。通常情况下,temperature 设置为 0.7 或 1.0 是比较常见的选择。

4. max_new_tokens

  • 含义max_new_tokens 是一个控制生成文本长度的参数。它指定了生成的新 tokens 的最大数量。
  • 作用 :通过设置 max_new_tokens,可以控制生成文本的长度。较大的值会导致生成更长的文本,而较小的值会导致生成较短的文本。
  • 取值范围max_new_tokens 是一个非负整数。具体取值取决于你的需求,例如生成一个段落可能需要 50 到 100 个 tokens,生成一篇文章可能需要几百个 tokens。

总结

  • top_ptop_k:用于控制生成文本的多样性和连贯性。较小的值会使生成的文本更连贯但缺乏多样性,较大的值会使生成的文本更随机和多样。
  • temperature:用于控制生成文本的随机性。较高的值增加随机性,较低的值增加确定性。
  • max_new_tokens:用于控制生成文本的长度。
相关推荐
段一凡-华北理工大学几秒前
工业领域的Hadoop架构学习~系列文章03:MapReduce编程模型深度解读
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉智能化
GitCode官方几秒前
开源鸿蒙跨平台直播|15场·10大框架|首期:跨平台不是“权衡之选“,而是基础设施
人工智能·华为·开源·harmonyos·atomgit
蓝速科技1 分钟前
3D 数字人全息舱算力部署方案对比:本地 X86 独显架构与云端 RK 架构怎么选才好
数据结构·人工智能·算法·架构·排序算法
没完没了没日没夜783 分钟前
告别Excel表格!全星研发项目管理APQP软件系统:高端制造研发合规与效率的“破局者”
人工智能
狒狒热知识3 分钟前
软文营销媒体发稿行业规范化发展与企业品牌传播安全保障
大数据·人工智能
小程故事多_804 分钟前
从想法到落地零返工,AI Agent六阶段自动化开发全流水线实践
运维·人工智能·自动化
2601_957888565 分钟前
短视频矩阵获客系统的设计与实践:提升企业数字营销效率的路径
大数据·人工智能·矩阵·企业增长
嵌入式-老费5 分钟前
esp开发与应用(按键和状态机)
人工智能
JustNow_Man5 分钟前
“失败后自动拉起修复 Agent”的闭环流水线
前端·人工智能·chrome·python
2601_957879336 分钟前
企业矩阵系统建设实践:从账号管理到AI内容协同
大数据·人工智能·矩阵系统·数字化运营