机器学习的维度降低
- 作者:成都软件开发
- 发表时间:2019-03-21 08:58
- 来源:未知
什么是预测建模: 预测建模是一个概率过程,允许我们根据一些预测因子预测结果。这些预测变量基本上是在决定最终结果时发挥作用的特征,即模型的结果。
什么是降维?
在机器学习分类问题中,通常有太多因素在进行最终分类的基础上。这些因素基本上是称为特征的变量。功能数量越多,就越难以可视化训练集然后对其进行处理。有时,大多数这些功能是相关的,因此是多余的。这就是降维算法发挥作用的地方。降维是通过获得一组主要变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。
为什么Dimensionality Reduction在机器学习和预测建模中很重要?
可以通过简单的电子邮件分类问题来讨论降维的直观示例,其中我们需要对电子邮件是否是垃圾邮件进行分类。这可能涉及大量功能,例如电子邮件是否具有通用标题,电子邮件的内容,电子邮件是否使用模板等。但是,这些功能中的一些可能会重叠。在另一种情况下,依赖于湿度和降雨量的分类问题可以折叠成仅一个基础特征,因为前述两者都高度相关。因此,我们可以减少此类问题中的特征数量。3-D分类问题可能难以可视化,而2-D分类问题可以映射到简单的2维空间,而1-D问题可以映射到简单的线。下图说明了这个概念,
降维的组成部分
降维有两个组成部分:
特征选择:在此,我们尝试找到原始变量或特征集的子集,以获得可用于对问题建模的较小子集。它通常涉及三种方式:
过滤
包装纸
嵌入式
特征提取:这将高维空间中的数据减少到较低维度空间,即较小的空间。尺寸。
维数降维方法
用于降维的各种方法包括:
主成分分析(PCA)
线性判别分析(LDA)
广义判别分析(GDA)
尺寸减小可以是线性的或非线性的,这取决于所使用的方法。下面讨论称为主成分分析(PCA)的主线性方法。
主成分分析
这种方法由Karl Pearson介绍。它的工作条件是,当较高维空间中的数据被映射到较低维空间中的数据时,较低维空间中的数据的方差应该是最大的。
它涉及以下步骤:
构造数据的协方差矩阵。
计算该矩阵的特征向量。
对应于最大特征值的特征向量用于重建原始数据的大部分方差。
因此,我们留下了较少数量的特征向量,并且在此过程中可能存在一些数据丢失。但是,剩余的特征向量应该保留最重要的方差。
降维的优点
它有助于数据压缩,从而减少存储空间。
它减少了计算时间。
它还有助于删除冗余功能(如果有)。
维度降低的缺点
这可能会导致一些数据丢失。
PCA倾向于发现变量之间的线性相关性,这有时是不可取的。
在平均值和协方差不足以定义数据集的情况下,PCA失败。
我们可能不知道要保留多少主要组件,但是应用了一些拇指规则。