叫我俗先生

V1

2022/10/08阅读:40主题:蔷薇紫

第一章-机器学习概论

第一章-机器学习概论

引言

机器学习( )这一学科诞生于人工智能的中,它是计算机的一种新的能力,不同于通常的任务,例如编写程序实现一个文件管理系统,或许你需要分层的分模块的去实现它,但它总还是可以使用确定的程序逻辑去表达的,机器学习面对的任务通常是需要收集分析大量来自生活(自然、社会)中的数据,换句话说,机器学习就是用数据编程。例如给一张图片,人依据经验能够很快判断出图中是否有一只猫,那么我们能否按照通常的业务逻辑处理思想解决它呢?例如我们把图像的每一个像素点的信息(X、Y坐标、颜色的RGB表示)作为程序输入,这个算法要怎么设计以得到Y或者N这样肯定的判断呢?例如分块看像素平均值?最大值?等等等等,这些方法似乎都不太可行。于是不妨以结果为导向,给出许多许多的照片,这些照片中有的有猫,有的则没有,给出这些已知的结果,让机器去学习它们,从而在面对新的照片时能够一定程度上给出它的答案

机器学习在生活中的应用

  • 数据挖掘( ) 例如: 网络点击数据(推荐算法、用户个性化推荐),医疗记录(汇编成医疗大数据,辅助诊断治疗),生物学(基因编码、相似基因片段寻找等),工程应用
  • 一些无法编程的应用 例如,自动驾驶(小汽车、无人机)、手写体识别(自动信箱投递)、自然语言处理(NLP)、计算机视觉(CV)
  • ... ...

什么是机器学习

  • 它是一门致力于研究如何通过计算的手段,利用经验(数据)来提升自身的性能的学科, 研究的主要内容是从数据中产生 模型(model) 的算法,也即 学习算法(Learning Algorithm)
  • 机器学习并没有一个严谨的定义,一个可能地说法是
    • A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
    • 例如假设你的邮件系统有过滤垃圾邮件的功能,那么识别一封邮件是否为垃圾邮件就是任务T,经验E就是哪些被你归为垃圾邮件,度量P可以是正确分类的邮件数量

术语表述

  • 给一个例子,判断 breast cancer 是 malignant 或者 benign, 假定影响肿瘤是否为良性的依据是肿瘤的大小(Tumor size), 并且有一系列已知的数据例如[{size:3, condition: benign}, {size:7, condition: malignant}, ... ...]那么据此进行学习,其目标是区分肿瘤是良性(0)或者恶性(1),这样的任务称为分类学习(Classification),也即预测值为离散值,特别的,这里只预测是或者不是,即为二分类学习。

  • 与此同时,若预测值为连续值,称之为 回归学习(Regression) 例如,基于房屋面积(HouseArea)来预测房屋售价,同样的,这里也会有一些已知的销售数据。

  • 观察以上两个例子, 对于其输入数据例如[{size:3, condition: benign}, {size:7, condition: malignant}, ... ...], 可以看到其结果都是已知的,于是Classification以及Regression合称为 监督学习(Supervised Leaning)

  • 对于以上几段话, 有一些概念需要明确, 以肿瘤良性或恶性的预测判断为例, 假定还有一个影响因素是年龄(Age), 将已有的数据用表格展示如下:

    size age benign
    3 43 N
    5 28 Y
    4 32 N
    8 30 Y
    6 45 N
    • 整个表格的内容称为 数据集(dataset), 其中用于训练的子集称为 训练集(trainning set), 数据集由一个个条目组成, 每一个条目称为 样本(sample) 或 实例(instance/example), 对于每一个 实例, 有多个 属性(attribute)/特征(feature) 进行描述, 例如这里是两(d)个, 分别是 size age, 称这个样本是二(d)维的, 这样, 这一组属性就张成了一个 属性空间, 这里属性空间是二维的, 同时对于每一组属性都有一个对应值Y or N, 称为属性值 或者 标记, 因此 实例 对应于属性空间的一个点或者向量, 又被称为 特征向量. 另外, 再看 数据集大小 即为数据集包含的实例数目, 这里是5
  • 相对应的是 , 即无监督学习

  • 任务会包含一系列的输入数据, 它们并没有事先标记, 任务目标是找到数据的内在联系或者结构并进行划分, 据此可能得到一些新的特征, 这样的任务称为 聚类分析(clustering analysis).典型的聚类问题例如

    1. 主题搜索, 将网页上的新闻关于同一个主题的归到一个组
    2. 基因组中特定基因的表达程度
    3. 社交网络分析, 比如判断哪些人是在一个圈子里
    4. 客户市场细分(market sementation), 将客户划分进更细微的市场, 以便针对性的实施对策
    5. ... ... 有一个有趣的例子, 称为鸡尾酒算法, 有两个人同时讲话, 与此同时有两个麦克风进行录音, 那么是否能依据两个输入把两个人声分离 又或者, 有一段bgm和一个人的诗朗诵, 能否进行分离 这是无监督学习的另一个例子

下一节我们将以一个简单的例子 单变量线性回归( ) 来讨论一个机器学习问题的实际处理过程, 与此同时讨论这一过程中的细节问题

分类:

人工智能

标签:

机器学习

作者介绍

叫我俗先生
V1