机器学习笔记（一）绪论

第一章绪论

1.1 引言

1.2 基本术语

（1）数据集 data set

（2）示例 instance sample

（3）属性值 attribute value

（4）样本空间 sample space

（5）分类：预测的是离散值；回归：预测的是连续值；

（6）监督学习：回归、分类；无监督学习：聚类；

（7）泛化能力 generalization

1.3 假设空间

（1）科学推理的两大手段：归纳、演绎

（2）归纳学习：从样例中学习；演绎：基本一套公理与基本规则进行推导；

（3）机械学习：对训练样本进行记忆

学习过程可以看作是一个在所有假设组成的空间中进行搜索的过程；搜索目标是找到与训练集匹配的假设；

1.4 归纳偏好

归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好；

任何一种机器学习算法都必然有其归纳偏好，否则会被假设空间中看似在训练集上的“等效”假设所迷惑；

奥卡姆剃刀：若有多个假设或者观察，则选择最简单的那一个;

没有免费午餐定理：考虑两个学习算法，无论其中一个多么聪明，另一个多么笨拙，但二者的期望性能相同;

（可使用分类错误率$p(x)\mathbb{I}(h(x)\ne f(x)P(h|X,\Sigma)$来度量算法的性能，$\Sigma$代表一种算法）

但事实上，NFL定理成立的重要条件是所有“问题”出现的条件与可能性均相同；

习题选编

本章1.4节在论述NFL定理时，默认使用了“分类错误率”作为性能度量来对分类器进行了评估。若换用其他度量$l$，则式（1.1）将会改写为

$E_{ote}(\Sigma_a|X,f) = \sum_h\sum_{x\in\chi - X}P(x)\mathcal{l}(h(x), f(x))P(h|X, \Sigma_a)$

试证明，免费午餐定理依然成立。

第二章模型评估与选择

2.1 经验误差与过拟合

（1）错误率 error rate $E=a/m$

（2）精度 accuracy $1-a/m$

（3）训练误差 training error 在训练集上的误差

（4）泛化误差 generalization error 在新样本上的误差

（5）过拟合 overfitting：将训练样本自身的一些特点当作所有潜在样本都会具有的一般性质

过拟合是机器学习面临的关键障碍。模型选择：对候选模型的泛化误差进行评估，然后选择泛化误差最小的模型。

2.2 评估方法

使用测试集测试判别能力，并将测试误差作为泛化误差的近似；

测试集应该尽量和训练集互斥；

2.2.1 留出法

直接将数据集$D$划分为两个互斥的集合，其中一个作为训练集，另一个作为测试集；

数据集的划分尽量保持数据分布的一致性（如采用分层采样等方法）

一般要采用若干次随机划分、重复进行试验评估后去平均值作为留出法的评估结果；

2.2.2 交叉验证法

通过分层采样的方式将数据集化为$k$个大小相似的互斥子集，取$k-1$个子集为训练集，剩下一个作为测试集；

留一法：使用数据只少了一个样本，则训练出的模型和用整体数据集训练出的模型比较相似，但计算开销较大；

2.2.3 自助法

估计偏差：由于训练样本规模不同而导致；

每次随机从数据集中抽取一个样本复制后放回，重复m次后即可得到一个包含m个数据的数据集，并将其作为训练集，剩余的未被采样的部分作为测试集。这样的结果称为包外估计（out_of_bag estimate）。其中，测试集所占比例约为：

$\lim_{m\rightarrow\infty}(1-\frac{1}{m})^m = \frac{1}{e}\approx 0.368$

自助法在数据集较小、难以划分有效训练/测试集时有用，但会影响数据分布；

2.2.4 调参与最终模型

调参 parameter tuning

现实做法：对每个参数选定一个调节范围和变化步长

2.3 性能度量

回归任务常用“均方误差”

$E(f;D) = \frac{1}{m}\sum_{i=1}^{m}(f(x_i) - y_i)^2$

对于数据分布$\mathcal{D}$ 和概率密度函数$p(·)$ ，均方误差可以描述为

$E(f;\mathcal{D}) = \int_{x\~\mathcal{D}}(f(x)-y)^2p(x)dx$

分类任务的性能度量

（1）错误率、精度、查准率、查全率和$F1$

真正例（TP）、假正例（FP）、真反例（TN）、假反例（FN）

$查准率：P=\frac{TP}{TP+FP}\\ 查全率：R=\frac{TP}{TP+FN}$

一般而言，查准率和查全率是一组相互矛盾的度量；

根据查准率和查全率可以绘制$P-R$曲线；

若一个学习器的PR曲线完全被另一个学习器的曲线包住，则可断言或者性能优于前者；

除此外，还可比较PR曲线所包围的面积，一定程度上度量了二者双高的比例；

（2）平衡点（Break Even Point）：查准率等于查全率时的取值，平衡点越大则学习器性能越好；

（3）F1度量

$F1=\frac{2\times P \times R}{P+R}$

在一些任务中，对于查准率和查全率有不同的偏好，则F1度量可以进行加权调整为：

$F1=\frac{(1+\beta^2)\times P \times R}{\beta^2\times P + R}$

对于多混淆矩阵的情形，可以考虑两种方法获取其全局性能：（1）对所有混淆矩阵的度量取平均（2）对混淆矩阵的元素取平均

（4）ROC受试者工作特征（Receiver Operating Characteristic）

$真正例率：TPR = \frac{TP}{TP+FN}\\ 假正例率：FPR = \frac{FP}{TN+FP}$

基于TPR和FPR两组数据绘制出的曲线称为学习器的ROC曲线；

若一个学习器的曲线完全被另外一个学习器包住，则可断言后者的性能要优于前者；

（5）AUC: Area Under ROC curve

当两个学习器的ROC曲线出现交叉时，则考虑ROC曲线所包含的面积；AUC估计式可以表达为

$AUC = \frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)\times(y_i+y_{i+1})$

（6）代价敏感错误率

非均等代价 unequal lost的前提下会存在代价矩阵，并且用$cost_{ij}$表示上述矩阵元；

对于二分类问题，代价敏感错误率可以定义为

$E(f;\mathcal{D};cost)=\frac{1}{m}(\sum_{x_i\in D^+}\mathbb{I}(f(x_i)\neq y_i)*cost_{01}+\sum_{x_i\in D^-}\mathbb{I}(f(x_i)!= y_i)*cost_{10})$

在非均等代价下，ROC曲线无法反映学习器的总体期望代价，而代价曲线图则可达到上述目的；

$横轴（正例概率代价）=\frac{p*cost_{01}}{p*cost_{01}+(1-p)*cost_{10}}\\$

上述$p$代表正例的概率；

$纵轴（归一化代价）=\frac{FNR*p*cost_{01}+FPR*(1-p)*cost_{10}}{p*cost_{01}+(1-p)*cost_{10}}$

FPR为假正例率，FNR为假反例率；

机器学习笔记（一）绪论

第一章绪论

1.1 引言

1.2 基本术语

1.3 假设空间

1.4 归纳偏好

习题选编

第二章模型评估与选择

2.1 经验误差与过拟合

2.2 评估方法

2.3 性能度量

FEATURED TAGS

FRIENDS

第一章 绪论

1.1 引言

1.2 基本术语

1.3 假设空间

1.4 归纳偏好

习题选编

第二章 模型评估与选择

2.1 经验误差与过拟合

2.2 评估方法

2.3 性能度量

FEATURED TAGS

FRIENDS

第一章绪论

第二章模型评估与选择