# 分类

模型评估可以分为 离线评估和在线评估 两大类。在产品的不同阶段,我们要根据不同的场景去应用他们。

两种评估方式由于其场景不同,所评估的关注点也不尽相同。其中,离线评估关注的是模型效果相关的指标,如精准率、 KS 等等。在线评估关注的是业务相关指标,比如新用户的转化率、优惠券的核销率、信贷审核的通过率等等。由于模型的在线评估与业务场景强相关,所以我们的课程重点将放在模型的离线评估上。

# 在线评估

在线评估是指在模型部署上线后,使用线上真实数据对模型进行的评估。这个时候,产品经理或者运营同学大多采用 ABTest 的方式去判断业务的表现.

# 离线评估

离线评估是指在模型部署上线前对模型进行的验证和评估工作,这个时候如果发现问题,我们可以很方便地对模型的参数进行调整和改进。

离线评估又可以分为 特征评估模型评估 两大类。

# 特征评估

为什么要关注特征评估呢?如果只评估最终模型的指标是否合规的时候,就相当于把模型作为一个 黑盒子了。但同时也要了解模型里面的内容,所以模型特征的评估也是非常重要的。 那特征评估主要关注那些内容呢?

# 特征自身的稳定性

对于特征自身的稳定,我们一般使用 PSI 这个指标来判断。 PSI 是评估某个特征的数据随着时间推移发生变化而不再稳定的指标。简单来说,就是看这个特征是不是稳定的,如果一个重要特征不够稳定,就会直接影响到模型整体的稳定性,自然也会影响业务。

PSI : ( Population Stability Index . PSI ), 这里简单介绍一下,后面我会在一篇文章中,详细的介绍 群体稳定性 ( PSI ) 这个概念。 PSI 可用来衡量测试样本及模型开发样本评分的分布差异,为最常见的模型稳定度评估指标。计算公式为: PSI = sum((实际占比-预期占比)* ln(实际占比/预期占比))
一般以训练集( INS )的样本分布作为预期分布,进而跨时间窗按月 / 周来计算 PSI ,得到 Monthly/weekly PSI Report ,进而剔除不稳定的变量。同理,在模型上线部署后,也将通过 PSI 曲线报表来观察模型的稳定性。

# 特征来源的稳定性

关于 特征来源的稳定性 评估,大致可以分为两种情况:

  • 如果特征数据来源于集团内部,主要考虑具体来自哪条业务线,这条业务是否稳定,以及业务方是否可能收回或者停止共享数据。
  • 如果特征接入方是外部公司,特别注意要看这个公司是否合规,是否具备完善的技术储备等等。
# 成本

在获取数据的时候,也要考虑接入的成本问题。

  • 公司内部数据,一般来说,不存在成本。在不同业务线的角度来说,可能会存在费用分摊的问题。
  • 外部数据,肯定是有成本的,或许是公司合作,或许是公司直接购买, 正常支付公司费用就好了。特别是注意,如果数据是按调用次数,流量计费的话,是否可以通过预先拉取数据来减少调用。

# 模型评估

模型的评估主要包括三个部分:统计性、模型性能和模型稳定性。

# 统计性指标

统计性指标指的就是模型输出结果的覆盖度、最大值、最小值、人群分布等指标。我们拿到一个模型,最先看的不是性能指标也不是稳定性,而是统计性指标,它决定了模型到底能不能用。

在不同的场景下,由于我们的业务不同,对模型的要求不同,对模型统计性指标的关注点也会不同。 对统计性指标进行评估的时候,我们要充分考虑业务场景。

比如:

  • 覆盖度。 在金融风控的场景下,如果一个模型的覆盖率低于 60% , 基本上就很难给到客户使用了,因为覆盖低低,风控的业务人员基本没办法对这个模型应用到决策引擎中。如果非要调用的话,最好的情况也就是用到决策树的某个分支上,专门用于某一小部分人群中,不过意义不大。
  • 最大最小值,也就是分数范围,以信用评分模型为例,如果信用评分模型覆盖的人数很多,但是模型输出的信用分数范围却很窄,假设是 90-95 ,很显然,人群并没有好的区分度。 可以参考下芝麻分的范围就设置到了 350-950
  • 人群分布:指的是模型对人打分后,分数和人群的分布形态,这个分布形态应该符合我们的常识,比如用户消费能力评估模型,对于人群的打分结果就应该符合正态分布。
# 模型性能

模型的性能评估指标是评估模型效果的指标,他和模型要解决的问题相关, 模型要解决的问题,可以分成分类问题和回归问题。

# 分类模型

分类模型的性能评价指标主要包括: 混淆矩阵KSAUC 等等。分类模型的性能评价指标主要包括: 混淆矩阵KSAUC 等等。通过混淆矩阵,我们既可以得到一个模型的精确率、召回率这些指标,从而可以评估一个模型的区分能力,我们也可以计算得到的 TPRFPR ,从而计算出 AUCKS 等相关指标。因此,混淆矩阵是评估二分类模型的基础工具。

# 回归模型

回归模型的性能评价指标主要包括 MAE (平均绝对误差), MSE (均方误差), RMSE (均方根误差), R方

# 模型稳定性

模型的稳定性即判断模型输出结果,是否会随着时间推移,而发生较大变化不再稳定的指标,模型的稳定性会直接影响模型的结果。比如在风控场景下,如果风控模型不够稳定,对于用户风险判断的结果就会发生较大变化。这个时候,我们需要实时调整风控策略,同时也要注意调整后造成决策不合理的情况。对于模型的稳定性,我们主要使用 PSI 进行评估。

# 最后

希望和你一起遇见更好的自己

qrcode