第一章 绪论
1.1 引言
1.2 基本术语
(1)数据集 data set
(2)示例 instance sample
(3)属性值 attribute value
(4)样本空间 sample space
(5)分类:预测的是离散值;回归:预测的是连续值;
(6)监督学习:回归、分类;无监督学习:聚类;
(7)泛化能力 generalization
1.3 假设空间
(1)科学推理的两大手段:归纳、演绎
(2)归纳学习:从样例中学习;演绎:基本一套公理与基本规则进行推导;
(3)机械学习:对训练样本进行记忆
学习过程可以看作是一个在所有假设组成的空间中进行搜索的过程;搜索目标是找到与训练集匹配的假设;
1.4 归纳偏好
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好;
任何一种机器学习算法都必然有其归纳偏好,否则会被假设空间中看似在训练集上的“等效”假设所迷惑;
奥卡姆剃刀:若有多个假设或者观察,则选择最简单的那一个;
没有免费午餐定理:考虑两个学习算法,无论其中一个多么聪明,另一个多么笨拙,但二者的期望性能相同;
(可使用分类错误率$p(x)\mathbb{I}(h(x)\ne f(x)P(h|X,\Sigma)$来度量算法的性能,$\Sigma$代表一种算法)
但事实上,NFL定理成立的重要条件是所有“问题”出现的条件与可能性均相同;
习题选编
本章1.4节在论述NFL定理时,默认使用了“分类错误率”作为性能度量来对分类器进行了评估。若换用其他度量$l$,则式(1.1)将会改写为
试证明,免费午餐定理依然成立。
第二章 模型评估与选择
2.1 经验误差与过拟合
(1)错误率 error rate $E=a/m$
(2)精度 accuracy $1-a/m$
(3)训练误差 training error 在训练集上的误差
(4)泛化误差 generalization error 在新样本上的误差
(5)过拟合 overfitting:将训练样本自身的一些特点当作所有潜在样本都会具有的一般性质
过拟合是机器学习面临的关键障碍。模型选择:对候选模型的泛化误差进行评估,然后选择泛化误差最小的模型。
2.2 评估方法
使用测试集测试判别能力,并将测试误差作为泛化误差的近似;
测试集应该尽量和训练集互斥;
2.2.1 留出法
直接将数据集$D$划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集;
数据集的划分尽量保持数据分布的一致性(如采用分层采样等方法)
一般要采用若干次随机划分、重复进行试验评估后去平均值作为留出法的评估结果;
2.2.2 交叉验证法
通过分层采样的方式将数据集化为$k$个大小相似的互斥子集,取$k-1$个子集为训练集,剩下一个作为测试集;
留一法:使用数据只少了一个样本,则训练出的模型和用整体数据集训练出的模型比较相似,但计算开销较大;
2.2.3 自助法
估计偏差:由于训练样本规模不同而导致;
每次随机从数据集中抽取一个样本复制后放回,重复m次后即可得到一个包含m个数据的数据集,并将其作为训练集,剩余的未被采样的部分作为测试集。这样的结果称为包外估计(out_of_bag estimate)。其中,测试集所占比例约为:
自助法在数据集较小、难以划分有效训练/测试集时有用,但会影响数据分布;
2.2.4 调参与最终模型
调参 parameter tuning
现实做法:对每个参数选定一个调节范围和变化步长
2.3 性能度量
回归任务常用“均方误差”
对于数据分布$\mathcal{D}$ 和概率密度函数$p(·)$ ,均方误差可以描述为
分类任务的性能度量
(1)错误率、精度、查准率、查全率和$F1$
真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN)
一般而言,查准率和查全率是一组相互矛盾的度量;
根据查准率和查全率可以绘制$P-R$曲线;
若一个学习器的PR曲线完全被另一个学习器的曲线包住,则可断言或者性能优于前者;
除此外,还可比较PR曲线所包围的面积,一定程度上度量了二者双高的比例;
(2)平衡点(Break Even Point):查准率等于查全率时的取值,平衡点越大则学习器性能越好;
(3)F1度量
在一些任务中,对于查准率和查全率有不同的偏好,则F1度量可以进行加权调整为:
对于多混淆矩阵的情形,可以考虑两种方法获取其全局性能:(1)对所有混淆矩阵的度量取平均(2)对混淆矩阵的元素取平均
(4)ROC受试者工作特征(Receiver Operating Characteristic)
基于TPR和FPR两组数据绘制出的曲线称为学习器的ROC曲线;
若一个学习器的曲线完全被另外一个学习器包住,则可断言后者的性能要优于前者;
(5)AUC: Area Under ROC curve
当两个学习器的ROC曲线出现交叉时,则考虑ROC曲线所包含的面积;AUC估计式可以表达为
(6)代价敏感错误率
非均等代价 unequal lost的前提下会存在代价矩阵,并且用$cost_{ij}$表示上述矩阵元;
对于二分类问题,代价敏感错误率可以定义为
在非均等代价下,ROC曲线无法反映学习器的总体期望代价,而代价曲线图则可达到上述目的;
上述$p$代表正例的概率;
FPR为假正例率,FNR为假反例率;
This is copyright.