机器学习笔记(一)绪论

Posted by Felix Zhang on 2020-05-31
Words 1.8k and Reading Time 6 Minutes
Viewed Times

第一章 绪论

1.1 引言

1.2 基本术语

(1)数据集 data set

(2)示例 instance sample

(3)属性值 attribute value

(4)样本空间 sample space

(5)分类:预测的是离散值;回归:预测的是连续值;

(6)监督学习:回归、分类;无监督学习:聚类;

(7)泛化能力 generalization

1.3 假设空间

(1)科学推理的两大手段:归纳、演绎

(2)归纳学习:从样例中学习;演绎:基本一套公理与基本规则进行推导;

(3)机械学习:对训练样本进行记忆

学习过程可以看作是一个在所有假设组成的空间中进行搜索的过程;搜索目标是找到与训练集匹配的假设;

1.4 归纳偏好

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好;

任何一种机器学习算法都必然有其归纳偏好,否则会被假设空间中看似在训练集上的“等效”假设所迷惑;

奥卡姆剃刀:若有多个假设或者观察,则选择最简单的那一个;

没有免费午餐定理:考虑两个学习算法,无论其中一个多么聪明,另一个多么笨拙,但二者的期望性能相同;

(可使用分类错误率$p(x)\mathbb{I}(h(x)\ne f(x)P(h|X,\Sigma)$来度量算法的性能,$\Sigma$代表一种算法)

但事实上,NFL定理成立的重要条件是所有“问题”出现的条件与可能性均相同;

习题选编

本章1.4节在论述NFL定理时,默认使用了“分类错误率”作为性能度量来对分类器进行了评估。若换用其他度量$l$,则式(1.1)将会改写为

试证明,免费午餐定理依然成立。

第二章 模型评估与选择

2.1 经验误差与过拟合

(1)错误率 error rate $E=a/m$

(2)精度 accuracy $1-a/m$

(3)训练误差 training error 在训练集上的误差

(4)泛化误差 generalization error 在新样本上的误差

(5)过拟合 overfitting:将训练样本自身的一些特点当作所有潜在样本都会具有的一般性质

过拟合是机器学习面临的关键障碍。模型选择:对候选模型的泛化误差进行评估,然后选择泛化误差最小的模型。

2.2 评估方法

使用测试集测试判别能力,并将测试误差作为泛化误差的近似;

测试集应该尽量和训练集互斥;

2.2.1 留出法

直接将数据集$D$划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集;

数据集的划分尽量保持数据分布的一致性(如采用分层采样等方法)

一般要采用若干次随机划分、重复进行试验评估后去平均值作为留出法的评估结果;

2.2.2 交叉验证法

通过分层采样的方式将数据集化为$k$个大小相似的互斥子集,取$k-1$个子集为训练集,剩下一个作为测试集;

留一法:使用数据只少了一个样本,则训练出的模型和用整体数据集训练出的模型比较相似,但计算开销较大;

2.2.3 自助法

估计偏差:由于训练样本规模不同而导致;

每次随机从数据集中抽取一个样本复制后放回,重复m次后即可得到一个包含m个数据的数据集,并将其作为训练集,剩余的未被采样的部分作为测试集。这样的结果称为包外估计(out_of_bag estimate)。其中,测试集所占比例约为:

自助法在数据集较小、难以划分有效训练/测试集时有用,但会影响数据分布;

2.2.4 调参与最终模型

调参 parameter tuning

现实做法:对每个参数选定一个调节范围和变化步长

2.3 性能度量

回归任务常用“均方误差”

对于数据分布$\mathcal{D}$ 和概率密度函数$p(·)$ ,均方误差可以描述为

分类任务的性能度量

(1)错误率、精度、查准率、查全率和$F1$

真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN)

一般而言,查准率和查全率是一组相互矛盾的度量;

根据查准率和查全率可以绘制$P-R$曲线;

若一个学习器的PR曲线完全被另一个学习器的曲线包住,则可断言或者性能优于前者;

除此外,还可比较PR曲线所包围的面积,一定程度上度量了二者双高的比例;

(2)平衡点(Break Even Point):查准率等于查全率时的取值,平衡点越大则学习器性能越好;

(3)F1度量

在一些任务中,对于查准率和查全率有不同的偏好,则F1度量可以进行加权调整为:

对于多混淆矩阵的情形,可以考虑两种方法获取其全局性能:(1)对所有混淆矩阵的度量取平均(2)对混淆矩阵的元素取平均

(4)ROC受试者工作特征(Receiver Operating Characteristic)

基于TPR和FPR两组数据绘制出的曲线称为学习器的ROC曲线;

若一个学习器的曲线完全被另外一个学习器包住,则可断言后者的性能要优于前者;

(5)AUC: Area Under ROC curve

当两个学习器的ROC曲线出现交叉时,则考虑ROC曲线所包含的面积;AUC估计式可以表达为

(6)代价敏感错误率

非均等代价 unequal lost的前提下会存在代价矩阵,并且用$cost_{ij}$表示上述矩阵元;

对于二分类问题,代价敏感错误率可以定义为

在非均等代价下,ROC曲线无法反映学习器的总体期望代价,而代价曲线图则可达到上述目的;

上述$p$代表正例的概率;

FPR为假正例率,FNR为假反例率;


This is copyright.