Truncation Sampling as Language Model Desmoothing

本文是LLM系列文章,针对《Truncation Sampling as Language Model Desmoothing》的翻译。

截断采样作为语言模型的去平滑性

  • 摘要
  • [1 引言](#1 引言)
  • [2 背景](#2 背景)
  • [3 截断作为去平滑性](#3 截断作为去平滑性)
  • [4 方法](#4 方法)
  • [5 实验与结果](#5 实验与结果)
  • [6 相关工作](#6 相关工作)
  • [7 结论](#7 结论)
  • [8 不足](#8 不足)

摘要

来自神经语言模型的长文本样本可能质量较差。截断采样算法(如top-p或top-k)通过在每一步将一些单词的概率设置为零来解决这一问题。这项工作为截断的目的提供了框架,并为此目的提供了一种改进的算法。我们建议将神经语言模型视为真实分布和平滑分布的混合体,以避免无限的困惑。在这种情况下,截断算法的目的是执行去平滑,估计真实分布的支持子集。找到一个好的子集至关重要:我们表明,top-p不必要地截断了高概率单词,例如,对于以Donald开头的文档,导致它截断了除Trump之外的所有单词。我们引入了 η \eta η采样,它在熵相关概率阈值以下截断单词。与以前的算法相比, η \eta η采样根据人类生成了更可信的长英文文档,更善于打破重复,并且在一组测试分布上表现得更合理。

1 引言

2 背景

3 截断作为去平滑性

4 方法

5 实验与结果

6 相关工作

7 结论

我们已经将这类截断采样算法定义为执行去平滑,这一见解引出了如何进行截断以恢复训练分布的原则,一种新的截断采样算法,以及显示现有算法缺陷的评估。我们发现top-p解码过度截断下熵分布的趋势特别令人惊讶。我们的目标是获得这些见解和我们使用的评估,以推动进一步的研究,了解和改进我们如何从神经语言模型中生成。

8 不足

通过我们所做的分析,我们认为很难理解截断采样算法(包括我们的算法)所具有的所有序列级影响:我们不允许使用什么类型的序列?哪些类型或来源的语言(在不知不觉中)被禁止?除此之外,我们只在英语模型上测试了我们的算法;形态丰富的语言的条件分布可能具有不同的性质(尤其是子词模型)。

相关推荐
数说星榆18121 小时前
农业智能化:作物识别与生长模拟
人工智能
Warren2Lynch21 小时前
如何使用Visual Paradigm AI Chatbot创建3D打印机UML状态机图:综合指南
人工智能·uml
小途软件21 小时前
基于深度学习的人脸属性增强器
java·人工智能·pytorch·python·深度学习·语言模型
学长讲AI21 小时前
开题报告PPT一键生成
人工智能·powerpoint
audyxiao00121 小时前
自动驾驶论文分享|TrajVAE:无需强约束即可灵活生成高质量行车轨迹
人工智能·机器学习·自动驾驶·neurocomputing
Hcoco_me1 天前
大模型面试题46:在训练7B LLM时,如果使用AdamW优化器,那么它需要的峰值显存是多少?
开发语言·人工智能·深度学习·transformer·word2vec
ai_top_trends1 天前
AI 生成工作计划 PPT 是否适合年初规划与年度汇报
人工智能·python·powerpoint
极新1 天前
322起融资迎接2026,摩尔、沐曦、英矽上市,智谱、铭之梦递表,Meta收购Manus,字节、钉钉重大升级|2025年12月AI领域投融资分析·极新月报
人工智能
xiangzhihong81 天前
无限邮箱注册+重置机器码+Cursor试用期实现永久免费使用
人工智能
manok1 天前
探索研究:军用领域软件工厂建设核心路径——可信仓库与SBOM驱动的安全高效研发模式
大数据·人工智能·安全·软件工厂