模型评估与选择

《机器学习》–周志华第二章学习笔记

误差

过拟合

已经把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降，这样的现象叫做过拟合，与之相对的是“欠拟合”

泛化误差 vs 经验误差

性能度量是衡量模型泛化能力的评价标准，反映了任务需求。

使用不同的性能度量往往会导致不同的评判结果。

回归任务常用均方误差

错误率与精度

查准率与查全率与F1

分类结果混淆矩阵

查准率

$$ P =\frac{TP}{TP+FP}$$
查全率

$$R = \frac{TP}{TP+FN}$$

查准率和查全率是一对矛盾的度量，一般来说，查准率高时，查全率往往偏低
P-R曲线
F1度量

$$F1 = \frac{2PR}{P+R} = \frac{2*TP}{样例总数+TP-TN}$$

对查准率/查全率的不同偏好

其中$$\beta>1$$时查全率影响更大，相反$$\beta<1$$时查准率影响更大
宏XX 、微XX
- 在各混淆矩阵上分别计算出查准率和查全率，在计算其平均值，这样就得到了宏查准率、宏查全率、宏F1
- 将各混淆矩阵的对应元素进行平均，得到$$TP、FP、TN、FN$$平均值，再基于这些平均值计算出“微查准率”、“微查全率”和“微F1”
ROC、AUC

ROC全称：受试者工作特征(Receiver Operating Characteristic)

根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以他们为横、纵坐标作图，就得到了“ROC曲线”

AUC可通过对ROC曲线下各部分的面积求和而得

AUC考虑的是样本预测的排序质量，因此它与排序误差有紧密联系。
代价敏感错误率与代价曲线

非均等代价（unequal cost）

在某种度量下取得评估结果后，并不能直接比较以评判优劣

常用方法

两学习器比较
- 交叉验证 t 检验(基于成对 t 检验)
  
  k 折交验证，5 * 2 交叉验证
- McNemar 检验(基于列联表，卡方检验)
多学习器比较
- Friedman + Nemenyi
  - Friedman 检验(基于序值，F检测，判断“是否都相同”)
  - Nemenyi 后续检验 (基于序值，进一步判断两两差别)

对回归任务，泛化误差可通过“偏差-方差分解”拆解为：