使用 PMML 实现模型融合及优化技巧

在机器学习的生产环境中,我们经常需要将多个模型的预测结果进行融合,以便提高预测的准确性。这个过程通常涉及到多个模型子分的简单逻辑回归融合。虽然离线训练时我们可以直接使用sklearn的逻辑回归进行训练和调参,但在生产环境中,模型的上线往往需要使用PMML(Predictive Model Markup Language)格式。PMML不仅能够在一个文件中完成多个模型的融合,还可以输出融合后的Sigmoid打分,极大地方便了生产环境中的模型管理和使用。

使用PMML的Segmentation功能进行模型融合

通过阅读PMML文档,我们发现可以利用其Segmentation功能来实现模型的融合。在PMML文件的最外层使用Segmentation并指定multipleModelMethod为"SelectAll",这样就可以在最终输出中包含所有内层Segment的输出。这一功能为模型融合提供了便利。

处理单模型分数缺失问题

在实际应用中,我们可能会遇到单个模型分数缺失或等于某个固定常数(例如-999,代表缺失)的情况。这时,我们希望将其视为融合失败,即不进行融合处理,直接返回一个特定的融合失败值(如-999)。为了实现这一逻辑,我们可以使用Segmentation来包裹整个回归过程,设置multipleModelMethodselectFirst。这样,当内部的第一个Segment检测到某个模型子分等于-999时,就会选择这条路径,并最终输出-999作为融合失败的标志。

xml 复制代码
<Segmentation multipleModelMethod="selectFirst">
  <Segment id="model1SegmentInvalidInput">
    <CompoundPredicate booleanOperator="or">
      <SimplePredicate field="field1" operator="equal" value="-999"/>
      <SimplePredicate field="field2" operator="equal" value="-999"/>
    </CompoundPredicate>
    <RegressionModel modelName="InvalidInputModelmodel1" functionName="regression" targetFieldName="result">
      <MiningSchema>
        <MiningField name="field1" usageType="active"/>
        <MiningField name="field2" usageType="active"/>
        <MiningField name="result" usageType="predicted"/>
      </MiningSchema>
      <RegressionTable intercept="-999"/>
    </RegressionModel>
  </Segment>
  ...
</Segmentation>

将最终分数转换为概率值

为了将回归后的预测值通过Sigmoid函数转换为概率值,从而和线上使用的分数保持一致的量纲,我们可以在有效的回归Segment中使用normalizationMethod='logit'。这样,输出的分数就会经过Sigmoid转换,转化为概率值。

xml 复制代码
<RegressionModel functionName="regression" modelName="ValidInputModelmodel2" algorithmName="regression" normalizationMethod="logit" targetFieldName="result">
  ...
</RegressionModel>

为最终输出重新命名

为了方便调用和解析PMML文件,我们需要在文件的最后为输出统一命名。通过指定OutputFieldname和对应的segmentId,我们可以清晰地标识每个输出值的来源,使得输出结果更加直观易懂。

xml 复制代码
<Output>
  <OutputField name="NewScore1" feature="predictedValue" segmentId="model1Segment"/>
  <OutputField name="NewScore2" feature="predictedValue" segmentId="model2Segment"/>
</Output>

通过以上步骤和优化技巧,我们可以高效地使用PMML实现多个模型的融合,处理单模型分数缺失问题,并将最终分数转换为概率值,同时为输出结果重新命名,以便于调用和解析。这样不仅提升了模型融合的准确性,也增强了生产环境中模型管理的便利性。

参考资料

相关推荐
kcarly5 天前
Stable diffusion 都支持哪些模型
stable diffusion·模型
无奈何杨1 个月前
LiteFlow决策系统的策略模式,顺序、最坏、投票、权重
策略模式·模型·规则引擎·决策
图王大胜2 个月前
模型 认知重建(麦肯锡)
人工智能·管理·模型·个人成长·心理·麦肯锡
nachifur2 个月前
pytorch 模型下载,from torchvision.datasets.utils import download_url不能下载模型,如何代理
pytorch·模型·下载
Ian10252 个月前
Python使用ffmpeg进行本地视频拉流,并使用训练模型识别人脸,并将识别后的模型推流源码
开发语言·人工智能·python·ffmpeg·音视频·模型·拉流推流
放逐者-保持本心,方可放逐2 个月前
Three.js渲染较大的模型之解决方案
开发语言·javascript·three.js·模型
JoeyKo3 个月前
国内版Sketchfab平台 - CG美术之家(3D编辑发布篇)
3d·3d建模·3dsmax·3d渲染·模型·3d模型·cg模型
图王大胜3 个月前
模型 定位地图
人工智能·思维·模型·定位·商业·交叉学科
网络研究院3 个月前
控制台安全内部:创新如何塑造未来的硬件保护
安全·模型·硬件·观点·未来·创新·发展
算家云3 个月前
champ模型部署指南
人工智能·3d·aigc·模型·视频生成·动态视觉·视频动画