有许多在XGBoost中具有不同参数的预测函数。
预测选项
xgboost.Booster.predict()
方法有许多不同的预测选项,从 pred_contribs
到 pred_leaf
不等。输出形状取决于预测的类型。对于多类分类问题,XGBoost为每个类构建一棵树,每个类的树称为树的"组",因此输出维度可能会因所使用的模型而改变。
在1.4版本后,添加了 strict_shape
的新参数。可以将其设置为 True
,以指示希望获得更受限制的输出。假设正在使用 xgboost.Booster
,以下是可能的返回列表:
-
使用
strict_shape
设置为True
进行正常预测时:- 输出是一个2维数组,第一维是行数,第二维是组数 。对于回归/生存/排序/二分类,这相当于一个形状为
shape[1] == 1
的列向量。但对于多类别问题,使用multi:softprob
时,列数等于类别数。如果strict_shape
设置为False
,输出1维或2维数组
- 输出是一个2维数组,第一维是行数,第二维是组数 。对于回归/生存/排序/二分类,这相当于一个形状为
-
使用
output_margin
避免转换且strict_shape
设置为True
时:- 输出是一个2维数组,除了
multi:softmax
由于去掉了转换而具有与multi:softprob
相等的输出形状。如果strict_shape
设置为False
,则输出可以具有1维或2维,具体取决于所使用的模型
- 输出是一个2维数组,除了
-
使用
pred_contribs
且strict_shape
设置为True
时:- 输出是一个3维数组,形状为(
行数,组数,列数+1
)。是否使用approx_contribs
不会改变输出形状。如果未设置strict_shape
参数,则它可以是2维或3维数组,具体取决于是否使用多类别模型
- 输出是一个3维数组,形状为(
-
使用
pred_interactions
且strict_shape
设置为True
时:- 输出是一个4维数组,形状为(
行数,组数,列数+1,列数+1
)。是否使用approx_contribs
不会改变输出形状。如果strict_shape
设置为False
,则它可以具有3维或4维,具体取决于底层模型
- 输出是一个4维数组,形状为(
-
使用
pred_leaf
且strict_shape
设置为True
时:- 输出是一个4维数组,形状为(
n_samples, n_iterations, n_classes, n_trees_in_forest
)。n_trees_in_forest
在训练过程中由num_parallel_tree
指定。当strict_shape
设置为False
时,输出是一个2维数组,最后3维连接成1维。如果最后一维等于1,则会删除最后一维。
- 输出是一个4维数组,形状为(
对于 R 包,当指定 strict_shape
时,将返回一个数组,其值与 Python 相同, R 数组是列主序的,而 Python 的 numpy 数组是行主序的 ,因此所有维度都被颠倒。例如,对于在 strict_shape=True
的情况下通过 Python predict_leaf
获得的输出有4个维度:(n_samples, n_iterations, n_classes, n_trees_in_forest
),而在 R 中 strict_shape=TRUE
的输出是 (n_trees_in_forest, n_classes, n_iterations, n_samples
)。
除了这些预测类型之外,还有一个称为 iteration_range
的参数,类似于模型切片。但与实际将模型拆分为多个堆栈不同,它只是返回由范围内的树形成的预测。每次迭代创建的树的数量等于num_parallel_tree
。因此,如果正在训练大小为4的增强随机森林,对于3类别分类数据集,并且想要使用前2次迭代的树进行预测,需要提供 iteration_range=(0, 2)
。然后将在此预测中使用前
棵树。
提前停止Early Stopping
在使用提前停止进行训练时,原生 Python 接口和 sklearn/R 接口之间存在一种不一致的行为 。默认情况下,在 R 和 sklearn 接口上,会自动使用 best_iteration
,因此预测将来自最佳模型。但是在原生 Python 接口中,xgboost.Booster.predict()
和 xgboost.Booster.inplace_predict()
默认使用完整模型。用户可以使用 iteration_range
参数和 best_iteration
属性来实现相同的行为。此外,xgboost.callback.EarlyStopping
的 save_best
参数可能会很有用。
基准分数Base Margin
XGBoost 中有一个名为 base_score
的训练参数,以及一个 DMatrix 的元数据称为 base_margin
。它们指定了增强模型的全局偏差。如果提供了后者,则会忽略前者。base_margin
可用于基于其他模型训练 XGBoost 模型。
阶段性预测
使用 DMatrix 的原生接口,可以对预测进行阶段性(或缓存)。例如,可以首先对前4棵树进行预测,然后在8棵树上运行预测。在运行第一个预测后,前4棵树的结果被缓存,因此当您在8棵树上运行预测时,XGBoost 可以重复使用先前预测的结果。缓存会在下一次预测、训练或评估时自动过期,如果缓存的 DMatrix 对象已过期(例如,超出作用域并被语言环境中的垃圾回收器收集)。
阶段性预测
使用原生接口和 DMatrix,可以对预测进行阶段性(或缓存) 。例如,可以首先对前4棵树进行预测,然后在8棵树上运行预测。在运行第一个预测后,前4棵树的结果被缓存,因此当在8棵树上运行预测时,XGBoost 可以重复使用先前预测的结 果。如果缓存的 DMatrix 对象已过期(例如,超出作用域并被语言环境中的垃圾回收器收集),则缓存会在下一次预测、训练或评估时自动过期。
In-place预测
传统上,XGBoost 只接受 DMatrix 进行预测,使用诸如 scikit-learn 接口之类的包装器时,构建过程会在内部发生。添加了对就地预测的支持,以绕过 DMatrix 的构建,这种构建方式速度较慢且占用内存 。新的预测函数具有有限的功能,但通常对于简单的推断任务已经足够。它接受 Python 中一些常见的数据类型,如 numpy.ndarray
、scipy.sparse.csr_matrix
和 cudf.DataFrame
,而不是 xgboost.DMatrix。可以调用 xgboost.Booster.inplace_predict()
来使用它。请注意,就地预测的输出取决于输入数据类型,当输入在 GPU 数据上时,输出为 cupy.ndarray
,否则返回 numpy.ndarray
。
线程安全
在 1.4 版本之后,所有的预测函数,包括具有各种参数的正常预测(如 shap 值计算和 inplace_predict),在底层 booster 为 gbtree 或 dart 时是线程安全的,这意味着只要使用树模型,预测本身就应该是线程安全的 。但是安全性仅在预测方面得到保证。如果尝试在一个线程中训练模型,并在另一个线程中使用相同的模型进行预测 ,则行为是未定义的。这比人们可能期望的更容易发生,例如可能会在预测函数内部意外地调用 clf.set_params()
:
python
def predict_fn(clf: xgb.XGBClassifier, X):
X = preprocess(X)
clf.set_params(n_jobs=1) # NOT safe!
return clf.predict_proba(X, iteration_range=(0, 10))
with ThreadPoolExecutor(max_workers=10) as e:
e.submit(predict_fn, ...)
隐私保护预测
Concrete ML 是由 Zama 开发的第三方开源库,提供了类似于梯度提升类,但直接在加密数据上进行预测的功能,这得益于全同态加密。一个简单的例子如下:
python
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from concrete.ml.sklearn import XGBClassifier
x, y = make_classification(n_samples=100, class_sep=2, n_features=30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(
x, y, test_size=10, random_state=42
)
# Train in the clear and quantize the weights
model = XGBClassifier()
model.fit(X_train, y_train)
# Simulate the predictions in the clear
y_pred_clear = model.predict(X_test)
# Compile in FHE
model.compile(X_train)
# Generate keys
model.fhe_circuit.keygen()
# Run the inference on encrypted inputs!
y_pred_fhe = model.predict(X_test, fhe="execute")
print("In clear:", y_pred_clear)
print("In FHE:", y_pred_fhe)
print(f"Similarity: {int((y_pred_fhe == y_pred_clear).mean()*100)}%")