在与策略相关的产品功能(搜索、排序、推荐)中,往往都涉及机器学习算法,因此评估推荐效果就转化为评估机器学习算法模型的好坏。那如何评估最终推荐的效果呢?本文作者梳理分析了4种方法,供大家参考和学习。

我们一般以人工标注为准,即看做真实结果,用各种率去衡量机器预测和真实结果之间的差距。评估方式有很多种,各有各的优点。
RPAF值
用Recall、Precision、Accuracy、F值,评估单个机器学习算法的效果,是最常见、最基础的方法。
对象分类:
(1)二分类:每一个评估对象有唯一的标签,YES or NO。如低俗、标题党文章。
(2)多分类(机器需要识别的标签数包含3个及3个以上,一般情况下,每一种标签的识别结果都是我们的关注目标)
- 单标签,每一个评估对象有唯一的标签,选择大于等于3,如文章分类。
- 多标签,每一个评估对象有多个标签,如文章兴趣点、文章关键词。
闽ICP备13000641号-4