机器学习的基本概念

2018-10-25 18:15:39   最后更新: 2018-10-26 14:26:37   访问数量:106




随着机器学习越来越广泛的进入我们的生活,机器学习对我们生活的影响越来越大

作为一个计算机行业的工作者,机器学习学科的学习是必不可少的

说来惭愧,博主本是智能科学与技术专业毕业,《机器学习》《模式识别》《智能科学导论》等课程均是博主的专业课,但是由于长时间没有从事相关工作,早已将这些理论忘的差不多了,如今想要重拾起来,一窥其中的奥秘

 

周志华的《机器学习》一书中指出:机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身性能的学科

机器学习是通过“模型”处理“经验”(即数据)的学科

机器学习的主要任务是分类和预测,例如下图中:

  • 用什么样的曲线函数可以最大程度的区分两种颜色的点?这就是一个分类问题
  • 黄色的点如果是下一个出现的点,那么会是什么颜色的呢?这就是一个预测问题

 

 

数据集与样本

要进行机器学习,先要有数据,数据记录的合集被称为数据集(data set),每条数据记录是关于一个事物或事件的描述,被称为一个“示例”(instance)或“样本”(sample)

 

样本空间与特征向量

反映事物或事件在某方面的表现或性质的事项称为“属性”(attribute)或“特征”(feature),属性上的取值被称为“属性值”,多个属性构成“属性空间”或“样本空间”,每个样本在属性空间中可以被映射成一个坐标向量,被称为“特征向量”,特征空间中的属性个数被称为“维数”

 

训练与学习

从数据中得到模型的过程被称为“训练”或“学习”,这个过程通过执行某个机器学习算法完成,训练中使用的数据被称为“训练数据”,每个样本被称为“训练样本”,训练样本组成的集合被称为“训练集”

学得的模型对应了数据的某种潜在规律,被称为“假设”,这种潜在规律自身被称为“真实”或“真相”

想要让计算机通过训练数据的特征来获得这些特征指向的结果,我们就要对训练数据进行标记,拥有标记数据的示例就被称为“样例”,样例是 (xi, yi) 组成的,yi 组成的空间就被称为“标记空间”或“输出空间”

 

分类、聚类和回归

  1. 分类 -- 如果我们要通过西瓜的特征来区分“好瓜”和“坏瓜”,这就是一个分类的学习任务
  2. 回归 -- 如果我们的目标是预测西瓜的成熟度(从 0 到 1 的连续值),那么,这就是一个“回归”任务
  3. 聚类 -- 将西瓜潜在的属性进行聚类,得到“浅色瓜”、“深色瓜”的区分,但在机器学习开始前,我们事先并不知道“浅色瓜”与“深色瓜”的区分原则

 

聚类过程中,机器学习算法会自动形成若干个特征组,每个特征组被称为“簇”

 

监督学习和无监督学习

通过训练数据是否拥有标记信息,学习任务可以分为“监督学习”和“无监督学习”

分类和回归是“监督学习”的代表,聚类则是“无监督学习”的代表

 

机器学习的目标是得到的模型能够很好地适用于新样本,这样的能力就被称为“泛化能力”

一般来说,训练样本越多,我们得到的分布信息就越多,泛化能力就越强

 

首先要考虑算法的目的:

 

用于预测

如果是要预测目标变量的值,那么可以选择监督学习算法:

  • 如果目标量是离散型,那么可以选择分类器算法
  • 如果目标量是连续的,那么可以选择回归算法

 

非用于预测

如果不是要预测目标变量,那么可以选择无监督学习算法:

  • 如果要划分为离散的组,那么使用聚类算法
  • 如果还需要估计数据与每个分组的相似度,则需要使用密度估计算法

 

使用机器学习算法开发应用程序,一般有以下步骤:

  1. 收集数据
  2. 准备输入数据
  3. 分析输入数据
  4. 训练算法
  5. 测试算法
  6. 使用算法

 

周志华 《机器学习》

Peter Harrington 《机器学习实战》

 






技术帖      技术分享      分类      人工智能      机器学习      machinelearning      预测      ai     


京ICP备15018585号