algolearn

V1

2022/01/23阅读:96主题:默认主题

负采样后CTR校准

在训练点击率预估模型的时候,训练数据中正负样本不均衡是常见的现象,对于这种问题,会对负样本进行采样,然后将采样后的负样本和正样本一起作为训练数据来训练ctr模型。由于负采样的缘故,会导致线上待预测数据分布与离线训练分布有很大差距,线上预估分数往往会高于真实值,所以非常有必要进行校准。

校准过程如下

  1. 变量定义。
    • 已经采样后的预估概率(训练)
    • 未经采样的预估概率(测试)
    • 原始正样本数量
    • 采样后负样本数量
    • 负样本的采样比例,分数,例如0.1
    • 采样前负样本数量
    • 假设点击预估函数为sigmoid函数(训练)
  1. 根据2中公式可以得到
  1. 采用的sigmoid预测

    可以得到

  2. 结合3 、 4

  3. 最终得到校准后的预估函数

分类:

人工智能

标签:

深度学习

作者介绍

algolearn
V1