Truncation Sampling as Language Model Desmoothing

本文是LLM系列文章,针对《Truncation Sampling as Language Model Desmoothing》的翻译。

截断采样作为语言模型的去平滑性

  • 摘要
  • [1 引言](#1 引言)
  • [2 背景](#2 背景)
  • [3 截断作为去平滑性](#3 截断作为去平滑性)
  • [4 方法](#4 方法)
  • [5 实验与结果](#5 实验与结果)
  • [6 相关工作](#6 相关工作)
  • [7 结论](#7 结论)
  • [8 不足](#8 不足)

摘要

来自神经语言模型的长文本样本可能质量较差。截断采样算法(如top-p或top-k)通过在每一步将一些单词的概率设置为零来解决这一问题。这项工作为截断的目的提供了框架,并为此目的提供了一种改进的算法。我们建议将神经语言模型视为真实分布和平滑分布的混合体,以避免无限的困惑。在这种情况下,截断算法的目的是执行去平滑,估计真实分布的支持子集。找到一个好的子集至关重要:我们表明,top-p不必要地截断了高概率单词,例如,对于以Donald开头的文档,导致它截断了除Trump之外的所有单词。我们引入了 η \eta η采样,它在熵相关概率阈值以下截断单词。与以前的算法相比, η \eta η采样根据人类生成了更可信的长英文文档,更善于打破重复,并且在一组测试分布上表现得更合理。

1 引言

2 背景

3 截断作为去平滑性

4 方法

5 实验与结果

6 相关工作

7 结论

我们已经将这类截断采样算法定义为执行去平滑,这一见解引出了如何进行截断以恢复训练分布的原则,一种新的截断采样算法,以及显示现有算法缺陷的评估。我们发现top-p解码过度截断下熵分布的趋势特别令人惊讶。我们的目标是获得这些见解和我们使用的评估,以推动进一步的研究,了解和改进我们如何从神经语言模型中生成。

8 不足

通过我们所做的分析,我们认为很难理解截断采样算法(包括我们的算法)所具有的所有序列级影响:我们不允许使用什么类型的序列?哪些类型或来源的语言(在不知不觉中)被禁止?除此之外,我们只在英语模型上测试了我们的算法;形态丰富的语言的条件分布可能具有不同的性质(尤其是子词模型)。

相关推荐
ziwu2 小时前
【民族服饰识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·后端·图像识别
ziwu2 小时前
【卫星图像识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·tensorflow·图像识别
ISACA中国2 小时前
ISACA与中国内审协会共同推动的人工智能审计专家认证(AAIA)核心内容介绍
人工智能·审计·aaia·人工智能专家认证·人工智能审计专家认证·中国内审协会
ISACA中国3 小时前
《第四届数字信任大会》精彩观点:针对AI的攻击技术(MITRE ATLAS)与我国对AI的政策导向解读
人工智能·ai·政策解读·国家ai·风险评估工具·ai攻击·人工智能管理
Coding茶水间3 小时前
基于深度学习的PCB缺陷检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
绫语宁3 小时前
以防你不知道LLM小技巧!为什么 LLM 不适合多任务推理?
人工智能·后端
霍格沃兹测试开发学社-小明3 小时前
AI来袭:自动化测试在智能实战中的华丽转身
运维·人工智能·python·测试工具·开源
大千AI助手3 小时前
Softmax函数:深度学习中的多类分类基石与进化之路
人工智能·深度学习·机器学习·分类·softmax·激活函数·大千ai助手
韩曙亮3 小时前
【人工智能】AI 人工智能 技术 学习路径分析 ② ( 深度学习 -> 机器视觉 )
人工智能·深度学习·学习·ai·机器视觉
九千七5263 小时前
sklearn学习(3)数据降维
人工智能·python·学习·机器学习·sklearn