第一章-机器学习概论

引言

机器学习( )这一学科诞生于人工智能的中，它是计算机的一种新的能力，不同于通常的任务，例如编写程序实现一个文件管理系统，或许你需要分层的分模块的去实现它，但它总还是可以使用确定的程序逻辑去表达的，机器学习面对的任务通常是需要收集分析大量来自生活（自然、社会）中的数据，换句话说，机器学习就是用数据编程。例如给一张图片，人依据经验能够很快判断出图中是否有一只猫，那么我们能否按照通常的业务逻辑处理思想解决它呢？例如我们把图像的每一个像素点的信息（X、Y坐标、颜色的RGB表示）作为程序输入，这个算法要怎么设计以得到Y或者N这样肯定的判断呢？例如分块看像素平均值？最大值？等等等等，这些方法似乎都不太可行。于是不妨以结果为导向，给出许多许多的照片，这些照片中有的有猫，有的则没有，给出这些已知的结果，让机器去学习它们，从而在面对新的照片时能够一定程度上给出它的答案

机器学习在生活中的应用

数据挖掘( ) 例如: 网络点击数据（推荐算法、用户个性化推荐），医疗记录（汇编成医疗大数据，辅助诊断治疗），生物学（基因编码、相似基因片段寻找等），工程应用
一些无法编程的应用例如，自动驾驶（小汽车、无人机）、手写体识别（自动信箱投递）、自然语言处理(NLP)、计算机视觉(CV)
... ...

什么是机器学习

它是一门致力于研究如何通过计算的手段，利用经验（数据）来提升自身的性能的学科, 研究的主要内容是从数据中产生 模型(model) 的算法，也即 学习算法(Learning Algorithm)
机器学习并没有一个严谨的定义，一个可能地说法是
- A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
- 例如假设你的邮件系统有过滤垃圾邮件的功能，那么识别一封邮件是否为垃圾邮件就是任务T，经验E就是哪些被你归为垃圾邮件，度量P可以是正确分类的邮件数量

术语表述

给一个例子，判断 breast cancer 是 malignant 或者 benign, 假定影响肿瘤是否为良性的依据是肿瘤的大小(Tumor size), 并且有一系列已知的数据例如[{size:3, condition: benign}, {size:7, condition: malignant}, ... ...]那么据此进行学习，其目标是区分肿瘤是良性(0)或者恶性(1)，这样的任务称为分类学习(Classification)，也即预测值为离散值，特别的，这里只预测是或者不是，即为二分类学习。
与此同时，若预测值为连续值，称之为 回归学习(Regression) 例如，基于房屋面积(HouseArea)来预测房屋售价，同样的，这里也会有一些已知的销售数据。
观察以上两个例子, 对于其输入数据例如[{size:3, condition: benign}, {size:7, condition: malignant}, ... ...], 可以看到其结果都是已知的，于是Classification以及Regression合称为 监督学习(Supervised Leaning)

对于以上几段话, 有一些概念需要明确, 以肿瘤良性或恶性的预测判断为例, 假定还有一个影响因素是年龄(Age), 将已有的数据用表格展示如下：

size	age	benign
3	43	N
5	28	Y
4	32	N
8	30	Y
6	45	N

整个表格的内容称为数据集(dataset), 其中用于训练的子集称为训练集(trainning set), 数据集由一个个条目组成, 每一个条目称为样本(sample) 或实例(instance/example), 对于每一个实例, 有多个属性(attribute)/特征(feature) 进行描述, 例如这里是两(d)个, 分别是 size age, 称这个样本是二(d)维的, 这样, 这一组属性就张成了一个属性空间, 这里属性空间是二维的, 同时对于每一组属性都有一个对应值Y or N, 称为属性值或者标记, 因此实例对应于属性空间的一个点或者向量, 又被称为特征向量. 另外, 再看数据集大小即为数据集包含的实例数目, 这里是5

与相对应的是 , 即无监督学习
任务会包含一系列的输入数据, 它们并没有事先标记, 任务目标是找到数据的内在联系或者结构并进行划分, 据此可能得到一些新的特征, 这样的任务称为聚类分析(clustering analysis).典型的聚类问题例如
1. 主题搜索, 将网页上的新闻关于同一个主题的归到一个组
2. 基因组中特定基因的表达程度
3. 社交网络分析, 比如判断哪些人是在一个圈子里
4. 客户市场细分(market sementation), 将客户划分进更细微的市场, 以便针对性的实施对策
5. ... ... 有一个有趣的例子, 称为鸡尾酒算法, 有两个人同时讲话, 与此同时有两个麦克风进行录音, 那么是否能依据两个输入把两个人声分离又或者, 有一段bgm和一个人的诗朗诵, 能否进行分离这是无监督学习的另一个例子

下一节我们将以一个简单的例子单变量线性回归( ) 来讨论一个机器学习问题的实际处理过程, 与此同时讨论这一过程中的细节问题