阿里|Deep Match to Rank Model for Personalized Click-Through Rate Prediction

标题：阿里 | Deep Match to Rank Model for Personalized Click-Through Rate Prediction

参考&推荐阅读

paper: Deep Match to Rank Model for Personalized Click-Through Rate Prediction
阿里DMR：融合了匹配思想的深度排序模型-Deep Match to Rank
阿里巴巴DMR模型(Deep Match to Rank)
推荐系统序列化建模总结（二）

模型小结

业务场景：商品推荐排序阶段

DIN等模型将学习到的Sequence Embedding（用户兴趣向量）、User Profile、待排序物品特征等Concat后送入最上层的MLP进行特征交叉最终输出一个CTR预估分数，作者认为在Concat特征送入MLP进行交叉前就计算一个User和Item相关性可以降低模型的学习难度。

DMR可以看做是另一种对DIN的改进方式。文章提出了两种网络结构，Item-to-Item网络和User-to-Item网络，来描述用户和候选目标item是否匹配。

Item-to-Item Network

是用户行为序列中每个item的embedding，是用户行为在序列中的位置embedding，文章通过融合行为embedding、位置embedding和target item embedding计算attention权重。

通过softmax得到最终权重，将权重作用到每个行为embedding上，通过sum pooling的方式得到用户行为序列的向量表示。

此外item-to-item network子网络的输出还包括target item embedding，**以及sofatmax之前各个行为embedding的attention权重和(这种单值特征的作用大么？)**。

User-to-Item Network

在计算attention的时候并不考虑target item。

一般来说，用户的兴趣会随着时间发生变化，距离现在更近的行为更能反映用户的真实兴趣。根据用户行为发生的时间为用户行为指定权重可以解决这个问题，采用attention机制，把用户行为出现的位置按时间排序后，用数字编码，当做query（「这里也可以根据具体业务替换为其他重要的特征」），自主地为每个行为计算attention权重。

通过softmax得到最终的attention权重：

将权重作用到每个行为embedding上，最后再通过sum pooling + 非线性变换的方式得到用户行为序列的向量表示。

最后跟target item embedding 做内积运算来表示用户和目标商品的匹配程度，最终输入到MLP网络(同样的问题，这种单值特征的作用大么？)。

引入一个辅助训练网络来帮助训练，确保点积结果越大代表用户和target item的相关性越高。在辅助训练的时候，使用行为序列中的前T-1个行为学习用户表示，而用最后一个行为作为正样本，使用负采样的方法随机获得负样本。表示匹配分值，表示辅助网络loss，表示最终loss。