文章目录
- 摘要
- 引言
- [2. 预备知识](#2. 预备知识)
-
- [2.1 符号表示](#2.1 符号表示)
- [2.2 基于文本的序列化](#2.2 基于文本的序列化)
- [3. LLMs在表格数据上的顺序偏差](#3. LLMs在表格数据上的顺序偏差)
-
- [3.1 为什么LLMs存在顺序偏差?](#3.1 为什么LLMs存在顺序偏差?)
- [3.2 顺序偏差的实证展示](#3.2 顺序偏差的实证展示)
- [4. 面向LLM的表格特征重排序方法(ROTATOR-LLM)](#4. 面向LLM的表格特征重排序方法(ROTATOR-LLM))
-
- [4.1 特征轨迹生成](#4.1 特征轨迹生成)
- [4.2 ROTATOR-LLM算法流程](#4.2 ROTATOR-LLM算法流程)
- [5. 实验部分](#5. 实验部分)
-
-
- [5.1 实验设置](#5.1 实验设置)
- [5.2 对齐性能(RQ1)](#5.2 对齐性能(RQ1))
- [5.3 控制器的迁移能力(RQ2)](#5.3 控制器的迁移能力(RQ2))
- [5.4 案例分析(RQ3)](#5.4 案例分析(RQ3))
-
- [7. 结论](#7. 结论)
摘要
大型语言模型(LLMs)在理解人类语言方面表现出卓越的能力。尽管它们在各种任务中取得了显著成功,但对表格数据的理解仍然是一大挑战。尤其是,表格数据的不同特征(表字段)之间缺乏内在顺序,而LLMs只能接受序列化的输入。因此,必须人为地强加一种顺序,但这种顺序对LLMs性能的影响尚未被充分研究。
令人惊讶的是,本研究发现这种人为引入的顺序偏差会极大地影响LLMs在表格数据相关任务上的表现。缓解这种顺序偏差是一项重大挑战。为此,我们提出了一种简单且低成本的方法------ROTATOR-LLM(Re-Ordering Tabular feATures fOR LLM),该方法在测试时进行计算,无需对基础LLM进行微调。
ROTATOR-LLM旨在优化表格数据特征的顺序,从而提升LLMs对数据语义的理解能力。它将特征排序问题重新构建为一个特征轨迹生成任务。通过一个基于动态规划的元控制器,利用累积价值估计,自动回归地为每个数据实例生成个性化的特征轨迹,该估计基于通过LLM最终性能指标对序列化特征输入的评估。模型通过在不同步骤迭代选择特征,最大化性能表现。
在多个数据集和不同LLM上的实验结果显示,经ROTATOR-LLM重新排序的特征相比未排序版本,性能提升接近或超过20%。同时,该方法显著优于当前最先进的表格LLM方法。
引言
- 引言
表格数据广泛存在于现实世界的科学、医学、生物学、社会学、金融和零售等数据库中,这些数据的处理和分析通常需要耗费大量的人力和时间[8;9]。幸运的是,随着大型语言模型(LLMs)的发展,研究人员开始深入探索其在各种表格数据建模任务中的应用[39;11]。近期的突破包括许多基于LLM处理表格数据的工作,如TabLLM[10]、TableGPT[41]和TableLlama[43]。
尽管表格数据可以较容易地转换为文本格式,但LLMs在有效分析转换后的数据时仍面临困难。由于LLMs主要在自然语言数据上进行预训练,它们在从结构化表格数据中提取有意义信息方面存在挑战。为克服这一问题,现有工作大多聚焦于通过对LLM在表格数据集上进行微调,将数据的先验知识注入模型中。例如,TableLlama采用LongLoRA技术,在大规模TableInstruct数据集上对Llama-2-7B模型进行微调;类似地,TableGPT引入表编码器和指令链机制,利用Phoenix-7B进行推理。
尽管有这些进展,目前关于表格数据分析的研究往往忽视了提示语中特征顺序的关键作用。由于基于Transformer解码器的模型具有序列输入的特性,在将特征逐一输入LLM时不可避免地会人为创造一种顺序,无论具体的提示设计如何。最新研究表明,这种人为引入的特征顺序显著影响LLM的行为[4;34]。例如,同一数据实例的LLM预测结果可能仅因输入特征顺序的改变而不同,如图1 (a)所示。更多细节将在第3节讨论。
这一问题的根源主要来自预训练数据中的顺序偏差,即所采集的数据往往遵循人类偏好的特定顺序。LLMs在预训练阶段学习到了这种顺序偏好,从而使其更好地理解那些特征重要性排序与顺序偏差一致的数据语义[22;15]。
为解决该问题,一个直观的方案是通过在无偏序列数据上微调LLMs来消除顺序偏差。但由于LLMs参数规模巨大,微调不仅耗时耗资源,还需要大量高质量数据,且人工成本高昂[36;40]。更实用的方式是在数据预处理阶段使其顺序与LLMs固有的顺序偏差对齐,从而帮助模型更好地理解数据语义。该方法因其可行性、可扩展性以及适用于多样数据集的优势,更具现实应用潜力。
本文提出了Re-Ordering Tabular feATures fOR LLM(ROTATOR-LLM),一种简单且低成本的方法,通过测试时的输入层计算,帮助LLMs更好地理解数据语义[24]。具体来说,ROTATOR-LLM将特征排序问题转化为生成特征轨迹的任务,其中每条轨迹代表一个特定顺序的特征序列。为避免昂贵的LLM微调和人工标注,ROTATOR-LLM训练了一个轻量级神经网络作为元控制器,利用一个设计好的价值函数指导其自回归地为每个数据实例生成优化的特征轨迹。
定义一个与LLMs性能表现一致的特征序列价值函数具有挑战性。我们借鉴动态规划思想,通过将特征轨迹的价值定义为在生成路径中下一状态的最大潜在价值实现该目标。在轨迹终止状态,整体轨迹的价值由LLMs性能决定。该方法能够估计任意特征轨迹的价值,从而监督元控制器的训练。
为评估ROTATOR-LLM,我们针对三种LLM和四个表格数据集进行了实验。结果表明,经过ROTATOR-LLM重新排序的特征数据使LLMs的性能显著优于随机或默认顺序,验证了排序过程的有效性。此外,ROTATOR-LLM在多个基准表格LLM方法中表现出明显优势,进一步证明其在实际应用中的潜力。
总结而言,我们的主要贡献包括:
- LLMs的顺序偏差:我们证明了提示中实例特征的顺序显著影响LLMs的预测,揭示了顺序偏差的存在。
- 顺序偏差的对齐方法:提出ROTATOR-LLM,一种无需调整LLM参数的低成本解决方案,通过重新排序特征使数据实例与LLMs固有顺序偏差对齐。
- 实验评估:在四个数据集和三种主流LLM上的实验结果表明,ROTATOR-LLM平均提升了LLMs分类准确率约20%,显示出卓越的性能提升。
2. 预备知识
本节介绍本文使用的符号和数据格式转换方法。
2.1 符号表示
我们考虑将数据集 D = ( x , y ) ∣ x ∈ X , y ∈ Y D = (x, y) \mid x \in X, y \in Y D=(x,y)∣x∈X,y∈Y 与大型语言模型(LLMs) f ( ⋅ ) f(\cdot) f(⋅) 的顺序偏差进行对齐。每个输入实例 x ∈ X x \in X x∈X 包含 M M M 个特征,表示为 x = [ x 1 , x 2 , ⋯ , x j , ⋯ , x M ] x = [x_1, x_2, \cdots, x_j, \cdots, x_M] x=[x1,x2,⋯,xj,⋯,xM],其中 j ∈ J = { 1 , 2 , ⋯ , M } j \in J = \{1, 2, \cdots, M\} j∈J={1,2,⋯,M} 是特定表格数据集的默认特征顺序。
令 τ = [ τ 1 , τ 2 , ⋯ , τ M ] \tau = [\tau_1, \tau_2, \cdots, \tau_M] τ=[τ1,τ2,⋯,τM] 表示实例 x x x 的某一特定特征顺序,这一顺序称为"特征轨迹"(feature trajectory),共有 M M M 个位置。对于 1 ≤ t ≤ M 1 \leq t \leq M 1≤t≤M,每个 τ t ∈ { x 1 , x 2 , ⋯ , x M } \tau_t \in \{x_1, x_2, \cdots, x_M\} τt∈{x1,x2,⋯,xM} 表示第 t t t 个位置的特征; τ [ 0 : t ] \tau[0:t] τ[0:t] 表示轨迹前 t t t 个位置,即 [ τ 1 , ⋯ , τ t ] [\tau_1, \cdots, \tau_t] [τ1,⋯,τt],这些特征分别安排在对应位置。 t = 0 t = 0 t=0 时, τ [ 0 : 0 ] = [ ] \tau[0:0] = [] τ[0:0]=[],表示初始状态,无特征被排序; t = M t = M t=M 时, τ [ 0 : M ] \tau[0:M] τ[0:M] 表示所有 M M M 个特征已被排序。
举例来说,若共有3个特征,则完整轨迹 τ = [ x 2 , x 3 , x 1 ] \tau = [x_2, x_3, x_1] τ=[x2,x3,x1] 表示特征按顺序 2 , 3 , 1 2, 3, 1 2,3,1 排在位置1、2、3。
在第3节,我们将展示LLMs的顺序偏差,即输入特征顺序 τ \tau τ 会显著影响模型预测结果 y ^ = f ( τ ) \hat{y}=f(\tau) y^=f(τ)。为解决该问题,第4节提出ROTATOR-LLM,通过为每个实例 x x x 生成最优特征轨迹 τ ∗ \tau^* τ∗,使LLMs的预测准确率最大化。
2.2 基于文本的序列化
基于文本的序列化(Text-based Serialization)是指将表格数据转换为文本数据,从而适配LLMs的输入格式。已有工作探索了多种文本序列化方式,如Markdown表格格式[18;12]、JSON文件格式[23;26]和句子序列化[38;12]。
为了充分发挥LLMs的序列到序列能力,本文采用句子序列化方法,将表格特征转为自然语言文本。句子序列化的优势在于其与LLMs预训练时使用的文本数据更为一致,便于模型理解。
具体来说,我们使用附录C中的模板将表格数据转为文本。例如,表格 { A g e : 30 , H o u s e : N o } \{Age: 30, House: No\} {Age:30,House:No} 会被转为句子:"the age of this person is 30; this person has no house"。
我们的方法同样可以扩展到Markdown表、JSON文件等其他文本序列化格式,但这些格式的性能表现不在本工作讨论范围之内。
3. LLMs在表格数据上的顺序偏差
本节通过实证分析大型语言模型(LLMs)在表格数据上的顺序偏差,并给出相关实验证据,展示顺序偏差对LLMs行为的影响。
3.1 为什么LLMs存在顺序偏差?
顺序偏差(Order bias)指的是表格数据中特征的排列顺序会影响LLMs的预测结果。对于人类来说,特征/字段的顺序通常没有实际意义,不应影响对表格的理解和输出结果。但对于自回归模型而言,不同的特征序列化方式会生成不同的输入序列,从而导致输出的差异。对于LLMs来说,这种差异会影响模型的注意力分布(attention maps)。
我们在图1 © 中给出了一个例子,展示了不同特征顺序对最后一层注意力分布的影响。由于每个特征采用句子表达(即由多个token组成),图中每一个单元格对应于特征之间token的注意力矩阵。符号"∼i,j,k"表示该注意力矩阵是基于特征 i , j , k i, j, k i,j,k对应的token嵌入混合计算得到的。在例子中,特征序列 1 , 2 , 3 , 4 1,2,3,4 1,2,3,4(上图)和 2 , 3 , 4 , 1 2,3,4,1 2,3,4,1(下图)在最后一层注意力分布中混合了不同的tokens,导致注意力矩阵的差异。这种注意力分布的不同最终导致了预测结果的显著变化。
3.2 顺序偏差的实证展示
我们使用真实的表格数据集来展示LLMs的顺序偏差。具体来说,我们考察在特征顺序不同的情况下,LLMs预测结果的变化。LLMs预测概率可用如下公式估计:
P ( y ^ = 1 ) = # of 1 # of Permutations = # of 1 M ! P(\hat{y} = 1) = \frac{\#\text{ of } 1}{\#\text{ of Permutations}} = \frac{\#\text{ of } 1}{M!} P(y^=1)=# of Permutations# of 1=M!# of 1
P ( y ^ = 0 ) = 1 − P ( y ^ = 1 ) P(\hat{y} = 0) = 1 - P(\hat{y} = 1) P(y^=0)=1−P(y^=1)
预测结果的方差用熵来量化:
H ( y ^ ) = − P ( y ^ = 0 ) log 2 P ( y ^ = 0 ) − P ( y ^ = 1 ) log 2 P ( y ^ = 1 ) H(\hat{y}) = -P(\hat{y} = 0) \log_2 P(\hat{y} = 0) - P(\hat{y} = 1) \log_2 P(\hat{y} = 1) H(y^)=−P(y^=0)log2P(y^=0)−P(y^=1)log2P(y^=1)
举例来说,假设某数据实例有两个特征:age 和 house。如果LLM对于 { A g e : 30 , H o u s e : N o } \{Age:30, House:No\} {Age:30,House:No}的预测为 y ^ = 1 \hat{y}=1 y^=1,对于 { H o u s e : N o , A g e : 30 } \{House:No, Age:30\} {House:No,Age:30}的预测为 y ^ = 0 \hat{y}=0 y^=0,则有 P ( y ^ = 1 ) = P ( y ^ = 0 ) = 0.5 P(\hat{y} = 1) = P(\hat{y} = 0) = 0.5 P(y^=1)=P(y^=0)=0.5,对应的熵为1。如果LLM的预测没有变化,即 P ( y ^ = 1 ) = 1 P(\hat{y} = 1) = 1 P(y^=1)=1或 P ( y ^ = 0 ) = 1 P(\hat{y} = 0) = 1 P(y^=0)=1,则熵为0。相反,如果预测是随机分布的, P ( y ^ = 0 ) = 0.5 P(\hat{y} = 0) = 0.5 P(y^=0)=0.5且 P ( y ^ = 1 ) = 0.5 P(\hat{y} = 1) = 0.5 P(y^=1)=0.5,熵达到最大为1。熵越高,说明预测方差越大,表明LLMs存在越强的顺序偏差。
我们的实验在Bank、Income、German Credit和Diabete数据集[1]上进行,分别采用Llama-2-8B-instruct[28]和Mistral-7B-Instruct[13]作为预测模型。不同特征顺序下的预测熵见图1(b)。实验发现,所有LLMs在这些表格数据集上的预测熵均超过0.7,接近最大值1。这充分说明了LLMs存在显著的顺序偏差。
4. 面向LLM的表格特征重排序方法(ROTATOR-LLM)
本节详细介绍表格特征重排序算法ROTATOR-LLM(Re-Ordering Tabular feATures fOR LLM)。ROTATOR-LLM整体流程为:首先通过元控制器(meta-controller)为每个样本生成特征重排序轨迹,然后按照附录C中的模板将排序后的特征序列化成文本,最后将文本特征输入LLM进行推理。其目标是最大化LLM在表格分类任务上的预测准确率。具体细节如下:
4.1 特征轨迹生成
ROTATOR-LLM维护一个元控制器 g ( ⋅ ∣ θ ) : T → R g(\cdot|\theta): T \rightarrow \mathbb{R} g(⋅∣θ):T→R,用于估计每个特征在不同位置的排序价值。具体地,对于 0 ≤ t ≤ M 0 \leq t \leq M 0≤t≤M,输入特征轨迹切片 τ [ 0 : t ] \tau[0:t] τ[0:t], g ( [ τ [ 0 : t ] , x j ] ∣ θ ) ∈ R g([\tau[0:t], x_j]|\theta) \in \mathbb{R} g([τ[0:t],xj]∣θ)∈R表示在当前已确定的前 t t t个位置 τ [ 0 : t ] \tau[0:t] τ[0:t]下,将特征 j j j放在第 t t t位的价值。我们认为 g ( τ ∣ θ ) g(\tau|\theta) g(τ∣θ)值越高,特征顺序越能符合LLM的"偏好",从而带来更好的预测结果。
因此,ROTATOR-LLM递归地生成 M M M个特征的排序轨迹如下:
τ t = arg max j ∈ J g ( [ τ [ 0 : t − 1 ] , x j ] ∣ θ ) \tau_t = \mathop{\arg\max}_{j \in J} g([\tau[0:t-1], x_j]|\theta) τt=argmaxj∈Jg([τ[0:t−1],xj]∣θ)
我们定义轨迹价值函数 v ( τ ) v(\tau) v(τ),用于衡量以轨迹 τ \tau τ生成的输入数据在LLM预测上的分类损失。我们认为与LLM预训练分布更一致的特征顺序能带来更优的预测结果。 v ( τ ) v(\tau) v(τ)定义为:
v ( τ ) = − L f ( f ( τ ) , y ) v(\tau) = -L_f(f(\tau), y) v(τ)=−Lf(f(τ),y)
其中 L f L_f Lf表示交叉熵损失, f ( τ ) f(\tau) f(τ)代表LLM的预测输出, v ( τ ) v(\tau) v(τ)取交叉熵损失的相反数,意味着最优轨迹 τ ∗ \tau^* τ∗能最大化 v ( τ ) v(\tau) v(τ)、最小化分类误差。
需要注意的是,公式(2)只定义了完整轨迹的价值 v ( τ ) v(\tau) v(τ),但为了训练控制器 g ( ⋅ ∣ θ ) g(\cdot|\theta) g(⋅∣θ),我们还需将其扩展到任意长度轨迹切片 v ( τ [ 0 : t ] ) v(\tau[0:t]) v(τ[0:t])。由于 v ( τ [ 0 : t ] ) v(\tau[0:t]) v(τ[0:t])无法直接通过公式(2)获得,我们采用动态规划定义其递归计算方法。对于 0 ≤ t < M 0 \leq t < M 0≤t<M:
v ( τ [ 0 : t ] ) = max τ ~ [ t + 1 : M ] γ M − t v ( [ τ [ 0 : t ] , τ ~ [ t + 1 : M ] ] ) v(\tau[0:t]) = \max_{\tilde{\tau}[t+1:M]} \gamma^{M-t} v([\tau[0:t], \tilde{\tau}[t+1:M]]) v(τ[0:t])=τ~[t+1:M]maxγM−tv([τ[0:t],τ~[t+1:M]])
或者简化为
v ( τ [ 0 : t ] ) = max j ∈ J γ v ( [ τ [ 0 : t ] , x j ] ) v(\tau[0:t]) = \max_{j \in J} \gamma v([\tau[0:t], x_j]) v(τ[0:t])=j∈Jmaxγv([τ[0:t],xj])
其中 0 < γ < 1 0 < \gamma < 1 0<γ<1为折扣因子,调节不同位置特征对最终损失和价值的累积影响。此前研究发现,输入序列后部token对LLM输出影响更大[14],因此引入折扣因子。
根据公式(4),我们获得了价值函数的迭代性质:
v ( τ [ 0 : t ] ) = γ v ( τ [ 0 : t + 1 ] ) v(\tau[0:t]) = \gamma v(\tau[0:t+1]) v(τ[0:t])=γv(τ[0:t+1])
自后向前递归, t = M t=M t=M时 v ( τ ) = − L f ( f ( τ ) , y ) v(\tau) = -L_f(f(\tau), y) v(τ)=−Lf(f(τ),y)。
元控制器 g ( τ [ 0 : t ] ∣ θ ) g(\tau[0:t]|\theta) g(τ[0:t]∣θ)的参数通过最小化均方误差(MSE)与 v ( τ [ 0 : t ] ) v(\tau[0:t]) v(τ[0:t])对齐来更新:
L θ = 1 M ∑ t = 0 M ( g ( τ [ 0 : t ] ∣ θ ) − v ( τ [ 0 : t ] ) ) 2 L_\theta = \frac{1}{M} \sum_{t=0}^M \left( g(\tau[0:t]|\theta) - v(\tau[0:t]) \right)^2 Lθ=M1t=0∑M(g(τ[0:t]∣θ)−v(τ[0:t]))2
其中, v ( τ [ 0 : t ] ) v(\tau[0:t]) v(τ[0:t])可以基于迭代关系估算:
v ( τ [ 0 : t ] ) = { γ max j g ( [ τ [ 0 : t ] , x j ] ∣ θ ) , t < M − L f ( f ( τ ) , y ) , t = M v(\tau[0:t]) = \begin{cases} \gamma \max_j g([\tau[0:t], x_j]|\theta), & t < M \\ -L_f(f(\tau), y), & t = M \end{cases} v(τ[0:t])={γmaxjg([τ[0:t],xj]∣θ),−Lf(f(τ),y),t<Mt=M
4.2 ROTATOR-LLM算法流程
算法1展示了ROTATOR-LLM的一轮训练流程。具体而言,对于每个mini-batch中的样本:
- 按照公式(1)生成特征顺序(第2行);
- 将该顺序下的表格特征序列化并输入LLM,计算预测损失(第3行);
- 基于公式(6)估算价值函数(第4行);
- 最后,根据公式(5)更新元控制器的参数,使其最小化损失(第5行)。
这样,ROTATOR-LLM能够持续优化特征顺序,使得LLM在表格数据分类任务上的预测准确率最大化。
5. 实验部分
本节通过一系列实验评估ROTATOR-LLM,旨在回答以下研究问题(RQ):
- RQ1:ROTATOR-LLM是否能够有效对齐数据,使LLM表现更优?
- RQ2:训练得到的控制器能否在不同LLM之间迁移?
- RQ3:特征重排序在本质上如何影响LLMs?
5.1 实验设置
数据集
本实验基于Bank、Income、German Credit和Diabetes四个数据集,涵盖社交媒体、金融与医疗健康领域。数据均来自UCI机器学习库[1]。对每个数据集,首先对特征进行重排序,然后根据附录C中的模板转化为文本格式,最后输入LLMs进行分类。
LLMs
采用三类开源领先模型作为评估对象:Llama-3-8B[28]、Mistral-7B[13]和Phi-3-mini-4k[17]。上述模型均为instruct调优版本,下载自Huggingface平台[33]。
基线方法
比较四个基线方法:
- 默认顺序(Default order):使用数据集自带的特征顺序;
- 随机顺序(Random order):随机打乱特征顺序;
- TableLlama:基于Llama的基础表格LLM,在大规模表格数据上微调得到的模型[43];
- TableLLM:基于GPT-2架构的基础表格LLM,同样在大规模表格数据上微调得到[41]。
评估指标
鉴于数据集存在类别不平衡,单纯准确率不足以衡量性能。采用平衡准确率(Balanced Accuracy,越高越好)和F1分数(越高越好)作为主要评价指标。平衡准确率通过对少数类样本重复采样至多数类数量后计算准确率。
实现细节
元控制器为三层多层感知机(MLP),使用Adam优化器训练,学习率为 10 − 3 10^{-3} 10−3,训练200个epoch,且在验证集上采用早停。训练与推理均采用附录C中定义的文本序列化模板。ROTATOR-LLM的具体超参数设定详见附录B。
5.2 对齐性能(RQ1)
本节评估ROTATOR-LLM对数据特征顺序的优化效果。为保证公平,ROTATOR-LLM与基线均采用相同的文本序列化模板(附录C)。平衡准确率和F1分数分别见表1和表2;与基础表格LLM的对比见图2(a)(b)。
主要观察:
- 对齐有效:相比默认和随机顺序,ROTATOR-LLM显著提升LLMs分类性能,表明其成功实现了特征顺序与LLMs的有效对齐,增强了LLMs对表格数据的理解。
- 竞争力强:ROTATOR-LLM优于TableLLM、TableLlama等需大规模微调的基础表格LLM,在节省资源的同时表现更优。
- 性能稳定:在多种LLMs和数据集上均展现了持续的竞争力,说明其方法具有稳定性和良好的泛化能力。
5.3 控制器的迁移能力(RQ2)
评测训练好的元控制器在不同LLMs间的迁移能力。将Llama-2-8B和Mistral-7B分别作为源模型,Mistral-7B和Llama-2-8B分别作为目标模型,观察"源LLM → 目标LLM"的效果,结果见表3。
结果显示,从一个LLM迁移控制器到另一个LLM依然优于默认和随机特征顺序输入,验证了控制器具备良好的迁移性。这与不同LLM在预训练阶段均学习了大量人类生成内容,导致存在相似的顺序偏差相符。
5.4 案例分析(RQ3)
展示ROTATOR-LLM重排序后的数据特征,以自然语言句式形式呈现(图3),其中占位符替换成"Data features"、"Reordered features"和"Reorder and Deduplication"三种描述。我们进一步分析了去重对模型性能的影响(图2©(d)),去重操作剔除排序后可能重复的特征。
洞见总结:
- 特征顺序重要性:良好的特征顺序对LLMs的帮助超过单纯增加特征数量。某数据实例有16个特征,重排序后仅保留10个,预测准确度反而提升。
- 顺序鲁棒性:由于重排序无放回,可能导致特征重复。去重后LLMs性能依然保持高水平,说明特征顺序对模型性能具有鲁棒性,不易受冗余特征干扰。
- 相关工作
本节讨论表格数据理解相关的研究,主要从以下三方面介绍利用LLMs处理表格数据的现有方法:
-
特征序列化(Feature Serialization)
简单直接的方式是将表格数据序列化为编程语言友好的格式,如Markdown[18;12]、JSON[23;26]、HTML[23]、Python字典[31]等,或基于列名和单元格值模板将表格转换为自然语言句子[38],最大化利用LLMs的序列到序列建模能力。
-
大规模微调(Large-scale Fine-tuning)
对表格数据的大规模微调可注入领域知识。TableLlama采用LongLoRA在Llama-2-7B基础上微调TableInstruct数据集[43];TableGPT引入表编码器与指令链机制,在Phoenix-7B模型上进行指令调优[16];TabLLM则侧重单领域少样本微调Bigscience/T0-3B模型[44]。
-
上下文学习(In-context Learning)
LLMs在表格数据上已展现出强大的few-shot学习能力[3;21]。通过提示中的few-shot示例,模型能更好理解数据语义。其他提示工程方法包括连锁思维(chain-of-thoughts)[32]、思维树(tree-of-thoughts)[37]、自我一致性(self-consistency)[30]等[27]。
7. 结论
本文首次系统发现并深入分析了LLMs在表格数据上的顺序偏差问题,即特征排列顺序对LLMs预测产生误导作用。为解决该问题,我们提出ROTATOR-LLM,该方法通过元控制器学习最优特征顺序,利用动态规划估计轨迹价值函数指导训练,实现对表格数据的顺序对齐,从而增强LLMs对数据语义的理解。实验在四个数据集和三种LLMs上验证了ROTATOR-LLM相较基线和现有基础表格LLMs的优越性能,并展示了其在不同模型间的强迁移能力。ROTATOR-LLM无需对LLMs进行微调,因而较传统去偏方法更具成本效益,具有广泛的实际应用价值。