AI机器学习入门教程
- 作者:admin
- 发表时间:2019-03-09 22:14
- 来源:未知
机器学习问题的类型
有各种方法可以对机器学习问题进行分类。
1.基于学习系统可用的学习“信号”或“反馈”的性质
监督学习:计算机具有示例输入及其所需的输出,由“教师”给出,目的是学习将输入映射到输出的一般规则。训练过程继续,直到模型在训练数据上达到所需的准确度。一些现实生活中的例子是:
图像分类:您使用图像/标签进行训练。然后在将来,您会给出一个新图像,期望计算机识别新对象。
市场预测/回归:您使用历史市场数据训练计算机,并要求计算机预测未来的新价格。
无监督学习:没有给学习算法赋予标签,只能在其输入中找到结构。它用于聚类不同群体的人口。无监督学习本身就是一个目标(发现数据中隐藏的模式)。
聚类:您要求计算机将类似数据分成簇,这在研究和科学中是必不可少的。
高维可视化:使用计算机帮助我们可视化高维数据。
生成模型:在模型捕获输入数据的概率分布后,它将能够生成更多数据。这对于使分类器更加健壮非常有用。
清除监督和无监督学习概念的简单图表如下所示:
正如您可以清楚地看到的那样,监督学习中的数据被标记,其中无监督学习中的数据是未标记的。
半监督学习:您有大量输入数据且只有部分数据被标记的问题称为半监督学习问题。这些问题介于有监督和无监督学习之间。例如,照片档案中只标记了一些图像(例如狗,猫,人),而且大多数都是未标记的。
强化学习:计算机程序与动态环境相互作用,在动态环境中它必须执行某个目标(例如驾驶车辆或与对手玩游戏)。该程序在其导航问题空间时提供奖励和惩罚方面的反馈。
2.基于机器学习系统所需的“输出”
分类:输入分为两个或更多个类,学习者必须生成一个模型,为这些类的一个或多个(多标签分类)分配看不见的输入。这通常以受监督的方式解决。垃圾邮件过滤是一种分类示例,其中输入是电子邮件(或其他)邮件,类别是“垃圾邮件”和“非垃圾邮件”。
回归:它也是一个有监督的学习问题,但输出是连续的而不是离散的。例如,使用历史数据预测股票价格。
下面显示了两个不同数据集的分类和回归示例:
聚类:这里,一组输入将被分组。与分类不同,这些组事先是未知的,因此通常是无人监督的任务。
正如您在下面的示例中所看到的,给定的数据集点已被分为可由红色,绿色和蓝色标识的组。
密度估计:任务是在某些空间中找到输入的分布。
降维:通过将输入映射到低维空间来简化输入。主题建模是一个相关问题,其中程序被给予人类语言文档列表,并且负责找出哪些文档涵盖类似主题。
在这些机器学习任务/问题的基础上,我们有许多算法用于完成这些任务。一些常用的机器学习算法是线性回归,Logistic回归,决策树,SVM(支持向量机),Naive Bayes,KNN(K最近邻),K-Means,随机森林等。
注意:所有这些算法将在后续文章中介绍。
机器学习术语
模型
A模型是通过应用一些机器学习算法从数据中学习的特定表示。模型也称为假设。
特征
特征是我们数据的单独可测量属性。可以通过特征向量方便地描述一组数字特征。特征向量作为输入馈送到模型。例如,为了预测水果,可能会有颜色,气味,味道等特征。
注意:选择信息性,区分性和独立性是有效算法的关键步骤。我们通常使用特征提取器从原始数据中提取相关特征。
目标(标签)
目标变量或标签是我们的模型预测的值。对于功能部分中讨论的水果示例,每组输入的标签将是水果的名称,如苹果,橙子,香蕉等。
训练
这个想法是给出一组输入(特征)和它的预期输出(标签),因此在训练之后我们将有一个模型(假设),然后将新数据映射到训练的类别之一。
预测
一旦我们的模型准备好,它就可以输入一组输入,它将提供预测输出(标签)。
下图显示了上述概念: