二分类任务常用metric

前提假设

设场景为多分类问题，测试集 $\mathcal T=\{x^{(1)},y^{(1)},\cdots,x^{(N)},y^{(N)}\}$ ，标签 $y\in\{1,2,\cdots,c\}$ ，使用训练完毕的模型 $f(x;\theta^*)$ 对测试集进行预测，得到预测结果 $\{\hat y^{(1)},\cdots,\hat y^{(N)}\}$ ，指示函数为 $I(\cdot)$ 。

准确率 Accuracy

准确率是最常用的分类问题指标，表示将样本分类正确的概率，当类别平衡的时候可以使用auc来直接评估结果。

错误率 Error Rate

错误率与准确率对应，表示将样本分类错误的概率。

混淆矩阵

相对于准确率与错误率是整体评价指标，后续的评价标准（精确率、召回率）都是对于某个类别 $c$ 而言，对于类别 $c$ 的分类结果可以有如下情况：

真正例 True Positive

表示样本的真实类别为 $c$ ，并且模型正确地预测为类别 $c$ 。

假负例 False Negative

表示样本真实类别为 $c$ ，并且模型预测值不为 $c$ ，即预测为错误类。

假正例 False Positive

表示样本真实类别不为 $c$ ，模型预测值为 $c$ ，预测错误。

真负例 True Negative

表示样本真实类别不为 $c$ ，且模型预测结果也不为 $c$ 。

精确率 Precision

分母为所有预测为 $c$ 的情况，分子为预测为 $c$ 且真实值为 $c$ 的情况，则表示在所有预测为c的情况中，预测正确的比例为多少。表示对于每次预测为 $c$ 类别时，查得有多准。

召回率 Recall

分母为所有真实值为 $c$ 的情况（预测为 $c$ 且预测正确的情况加上预测为非 $c$ 且预测错误的情况），分子为预测为 $c$ 且真实值为 $c$ 的情况，表达在所有真实值为c的情况中，预测正确的比例为多少。表示真实值为 $c$ 类别时，多大的概率能预测准确。

F 值 F Measure

其中 $\beta$ 用于平衡精确率和召回率的重要性，一般取值为1． $\beta=1$ 时的F值称为F1值，是精确率和召回率的调和平均。

ROC曲线

$FPR_c(False\ Positive\ Rate)= \frac{FP_c}{FP_c + TN_c}$ ，分母为所有真实分类为非 $c$ 的情况，分子为预测为 $c$ 且真实值不为 $c$ 的情况。

$TPR_c(True\ Positive\ Rate)= \frac{TP_c}{TP_c + FN_c}$ ，即召回率 $\mathcal R_c$ 。

以 $FPR_c$ 为横坐标，以 $TPR_c$ 为纵坐标就可以绘制出roc曲线

AUC (Area under the ROC Curve)

roc曲线下面积，越大越好，常用的推荐系统排序模型评价指标，不受样本类别比例偏差影响。

参考

nndl-book

《机器学习》周志华

Just For Fun