成为AI产品经理——模型评估概述

目录

一、模型宣讲和评估的原因

二、模型宣讲

三、模型评估

[1. 重要特征](#1. 重要特征)

[① 特征来源](#① 特征来源)

②特征意义

2.选择测试样本

3.模型性能和稳定性


一、模型宣讲和评估的原因

刘海丰老师提到他们在做一个金融AI产品未注重模型指标,过于注重业务指标,导致产生了大量的业务损失。

主要问题为:

1.模型上线未评估

2.模型上线未监控

3.特征无评估、无监控

因此他们增加了模型宣讲和模型评估的节点,对这两个节点的工作内容和交付物做了相应的规定。

二、模型宣讲

首先算法同学在宣讲之前给产品经理交付模型报告

模型报告包括:模型设计、算法选型、特征来源、测试结果。

产品经理在看过模型报告之后请算法同学进行模型宣讲,宣讲内容为:

1.为什么选择这个算法?

2.选择了哪些特征?

3.训练样本是哪些?

4.测试的方案和结果是什么?

宣讲目的是搞清楚算法的逻辑且对于算法同学容易忽略的三个问题进行评估:

1.特征的来源:来源是否合理,避免出现后续特征无法获取的情况

2.训练样本的合理性:避免选择的样本数据和业务数据不符合,比如:样本太久

3.测试结果是否符合预期:测试结果太好或者太差,无法满足业务预期

这里是我们给模型上线的第一道保障。在这个环节中,我们需要知道算法的基本逻辑,特征来源的稳定性,训练样本的合理性以及测试结果是否符合预期,我们对于模型进行粗略的评估。

三、模型评估

很多同学对于模型宣讲和模型评估之间的差异有疑惑,这里说明一下:

模型宣讲我们只是进行粗略评估,但是此时的模型评估环节我们要站在业务的角度上对模型进行详细的评估。

模型评估产物:输出模型验收报告。

这里是刘老师给出的一个例子,不同业务标准的评估指标不相同,可以进行相应的调整。

1.重要特征

2.选择测试样本

3.模型性能和稳定性测试结果

1. 重要特征

我们需要列出重要特征,对于每一个重要特征的来源和意义进行评估。

① 特征来源

如果这个特征来自于外部数据,那么我们就要关注这个特征的可持续性和稳定性。

②特征意义

这个特征是否符合业务或者是否符合常理。eg:我们要用到夜间购物特征,如果这个特征设置在23点-2点不合理。一般设置在0点-5点。

2.选择测试样本

我们需要根据业务的场景和特性选择指标,比如我们观察一个线上商城的购买量,我选择的测试样本应该是2019.1-2019.12月的样本,因为购买能力会根据季节和周期进行浮动,我们应该尽量全面的选择样本。选择好测试样本之后我们交给算法同学进行测试,看是否达到业务预期效果。

注意样本的选择直接决定了测试结果,所以一定要谨慎选择,符合业务场景。

3.模型性能和稳定性

模型性能和稳定性是最最重要的,直接决定了模型是否能够上线。

模型性能分为四步进行评估:

  • 评估重要特征的测试结果是否符合预期:包括特征IV,KS等等
  • 评估重要特征的稳定性:一般是PSI值(PSI<0.2)
  • 评估模型性能测试结果是否符合预期:包括模型KS、AUC、MSE等等
  • 评估模型的稳定性,一般也是PSI值(PSI<0.2)

如果一个算法是回归模型,就不需要AUC和KS这些指标啦,随机应变。

至此,模型验收结束,就可以进行后期的模型部署,工程开发,集成测试,集成验收,产品上线的环节了。

产品上线流程图如下所示:

参考文献:刘海丰------《成为AI产品经理》

相关推荐
久菜盒子工作室19 小时前
面试经验|AI产品经理|深度学习知识
人工智能·深度学习·产品经理
AC赳赳老秦20 小时前
OpenClaw与系统环境冲突:Windows/Mac系统兼容问题解决指南
开发语言·python·产品经理·策略模式·pygame·deepseek·openclaw
久菜盒子工作室2 天前
面试|产品经理|为什么从 xxx(主要是实习 、工作)离职?
面试·职场和发展·产品经理
skylijf2 天前
2026 高项第 6 章 预测考点 + 练习题(共 12 题,做完稳拿分)
笔记·程序人生·其他·职场和发展·软件工程·团队开发·产品经理
久菜盒子工作室3 天前
面试经验|产品经理|自我介绍
面试·职场和发展·产品经理
hqyjzsb3 天前
AI培训课程怎么设计才有效?
人工智能·职场和发展·aigc·产品经理·学习方法·业界资讯·设计语言
Single3 天前
从电工张三的故事所提炼出的一种产品设计模式与技术实现路径
人工智能·经验分享·能源·语音识别·产品经理·空间计算
m0_488913016 天前
万字长文带你梳理Llama开源家族:从Llama-1到Llama-3,看这一篇就够了!
人工智能·学习·机器学习·大模型·产品经理·llama·uml
STRUGGLE_xlf7 天前
产品经理的 Claude Code 免费教程——模块 4:Vibe Coding
产品经理
没有羊的王K7 天前
产品经理——需求篇
产品经理