成为AI产品经理——模型评估指标

目录

一、模型评估分类

1.在线评估

2.离线评估

二、离线模型评估

1.特征评估

[① 特征自身稳定性](#① 特征自身稳定性)

[② 特征来源稳定性](#② 特征来源稳定性)

[③ 特征成本](#③ 特征成本)

2.模型评估

[① 统计性评估](#① 统计性评估)

覆盖度

最大值、最小值

分布形态

[② 模型性能指标](#② 模型性能指标)

分类问题

回归问题

[③ 模型的稳定性](#③ 模型的稳定性)


模型评估指标分五小节课程,这节课全局讲述模型评估指标有什么,下三节课重点讲解模型性能指标,了解他们的计算;最后一节课,详细讲解模型的稳定性指标。

一、模型评估分类

模型评估分为:离线评估和在线评估两类。

1.在线评估

在线评估通常是将模型部署上线后,使用线上真实数据对模型进行评估。通常会采取ABTest方式来评估业务的表现。

ABTest的操作方式是先导入一部分流量到模型中,使得一部分用户使用模型训练后的商品页面,而一部分用户看到原来的界面,这两部分用户互相独立,测试1周或1天,观察两者点击率或者购买转化率的差异,判断模型是否达到业务预期。

如果想继续了解ABTest,请查看详情:

产品经理需要懂的AB测试 - 知乎 (zhihu.com)

如何避免产品开发的致命陷阱?AB测试是你不可或缺的救命稻草! | 人人都是产品经理 (woshipm.com)

2.离线评估

离线评估是模型在上线之前进行的验证和评估工作,如果验收不通过,算法同学要进行模型的调整和优化。

离线评估更关注模型指标,如:准确率、稳定性等;而上线评估更加关注业务指标,如:用户转化率、优惠劵的核销率。

接下来我们为了讲述模型指标,主要关注离线模型的评估。

二、离线模型评估

离线模型评估分为特征评估模型评估两类。

特征是模型的基础,所以我们不仅要对模型最终效果进行评估,还要对特征进行评估。

1.特征评估

对于特征评估我们并不是对所有的特征进行评估,我们只对重要特征进行评估。那么我们就需要和算法同学进行沟通,了解哪些特征比较重要。

特征评估包括三点:特征自身稳定性、特征来源稳定性、特征成本

① 特征自身稳定性

特征自身稳定性我们会使用PSI指标进行评估。PSI指标(模型随着时间推移发生变化而不稳定的指标)。特征自身稳定性会影响模型的整体效果,所以我们需要测评重要特征是否达到稳定指标。

② 特征来源稳定性

特征一般分为:内部来源和外部来源

如果特征是从集团内部接入的,那我们需要看他从哪条业务线获取的,这个业务的稳定性如何,业务方是否有可能中止共享数据或者收回数据。

如果特征是从集团外部接入的,我们需要审核外部公司的资质是否合法,技术储备是否完善

③ 特征成本

不同来源的特征可能成本也不相同,如果特征来源是集团内部业务,可能不需要成本或者需要年终进行成本均摊。如果是外部购买的特征数据,那就正常支付就好了。

作为产品经理,我们在进行评估的时候要充分考虑到付费特征在模型中产生的增益是否大于成本 ,如果成本过高,那么我们考虑是否可以替换特征 或者使用数据缓存的方式减少调用

2.模型评估

模型评估也包括三部分:统计性评估、模型性能指标和模型的稳定性。

① 统计性评估

在进行模型性能指标和稳定性评估之前,我们首先要对统计性能进行评估。包括:覆盖度、最大值、最小值、分布规律。

覆盖度

计算公式:打分的人数/需要打分的人数

结果越大,覆盖度越大。比如我们要做一个用户逾期还款预测的模型,如果覆盖率只有60%,那么银行就没有办法按照这个模型进行决策,这个模型就是没有用的。

最大值、最小值

我们需要对最大值和最小值进行评估。

如果最大值和最小值相隔太近,例如:0-100作为一个信用划分的区间,用户很容易集中在一个分数段,难以进行用户的区分。如果将0-100作为一个划分的总区间,相当于过去大的1份区间被细化成为现在的10份,就会更便于划分用户。

分布形态

我们的预测结果和我们的人群行为的分布应该符合一定的规律。

比如:预测用户消费能力,人群的分布情况应该满足应该满足正态分布。

业务场景不同,需要重点观察的统计性能指标也不同。

② 模型性能指标

根据问题的差异被分为:回归问题和分类问题。

模型被分为:**分类模型和回归模型。**不同类型的模型评估指标不相同。

分类问题

主要指标:混淆矩阵、KS、AUC。

将混淆矩阵作为基础工具,我们可以计算出召回率、准确率。评判模型的区分能力。我们也可以计算出TPR、FPR,从而计算出AUC和KS等相关指标。

因此,混淆矩阵是二分类问题的基础工具。

回归问题

主要指标:MAE(平均绝对误差)、MSE(均方误差)、RMSE(均方根误差)、R方等。

这些指标主要预测数值回归问题。

③ 模型的稳定性

最后,我们需要评估模型整体效果的稳定性。主要使用PSI指标进行评估。

这节课我们主要从全局角度了解模型评估,评估指标计算方法后面文章会详细说明。

今天的知识思维导图如下所示:

参考文献:刘海丰------《成为AI产品经理》

相关推荐
梓贤Vigo16 分钟前
【Axure高保真原型】视频列表播放器
交互·产品经理·axure·原型·中继器
jjyangyou2 小时前
物联网核心安全系列——物联网安全需求
物联网·算法·安全·嵌入式·产品经理·硬件·产品设计
AI_小站2 天前
多模态大模型微调实践!PAI+LLaMA Factory搭建AI导游
人工智能·程序人生·语言模型·大模型·llm·产品经理·多模态大模型
python_知世2 天前
AI时代:成为产品经理的核心路径
人工智能·深度学习·程序人生·自然语言处理·产品经理·计算机技术·大模型应用
bagell2 天前
全面掌握Prompt技术:通用框架详解、优化策略与关键指标综述
人工智能·深度学习·自然语言处理·prompt·产品经理
黑客-雨3 天前
AI时代的产品经理修炼手册:《人工智能产品经理》
人工智能·学习·大模型·产品经理·大模型学习·大模型入门·大模型教程
郭子安不爱学编程3 天前
【产品经理】工业互联网企业上市之路
产品经理
大飞攻城狮3 天前
2024年中国生成式人工智能应用与实践展望白皮书(中英文版)|附147页PDF文件下载
大数据·人工智能·pdf·产品经理·大模型学习·大模型入门·大模型教程
努力的光头强3 天前
太炸裂了,Ollama跑本地模型已成为历史,现在都在使用这个工具,而且还能集成本地知识库
人工智能·ai·pdf·产品经理·llama
发菜君4 天前
2024年大厂AI大模型面试题精选与答案解析
人工智能·学习·大模型·产品经理·大模型学习·大模型入门·大模型教程