淘宝天猫的推荐逻辑算法主要涉及召回和精排两个重要阶段。
一、召回阶段
在召回阶段,其任务是从海量商品里选出用户可能感兴趣的候选集。例如ItemCF(基于物品的协同过滤)算法,它的原理是根据两个商品被同时点击的频率来计算相似度得到i2i表,然后依据用户的触发行为去查询这个表,从而扩展用户感兴趣的商品。不过,为了获得更好的效果,需要根据实际业务场景进行调优,像清除爬虫、刷单等噪声数据,合理选择计算商品间相似度的数据时间窗口,引入时间衰减,只考虑同一类目下商品对,采用归一化、截断、打散等策略。
二、精排阶段
精排阶段是对召回阶段得到的候选集进行排序,取出topN。这个过程会综合多方面因素。首先是对用户做一个特征关系画像,例如根据用户的浏览、购买等行为数据构建画像。然后去匹配具有此特征关系画像的商品,也就是以用户的特征关系为纽带进行相互匹配。同时,会考虑用户的行为序列,基于用户行为序列推荐模型在手淘商品推荐应用较为广泛。另外,图模型也在发展,因为手淘里用户行为多样,通过graphembedding等技术可以将异构图数据对齐或做特征融合。