机器学习之特征选择的参数
- 作者:成都软件开发
- 发表时间:2019-03-20 09:11
- 来源:未知
降维是通过获得一组主要变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。
维度降低是预测建模的重要因素。各种提出的方法已经通过图形或通过诸如过滤,包装或嵌入的各种其他方法引入了不同的方法。但是,大多数这些方法都是基于某些阈值和基准算法,这些算法确定数据集中要素的最优性。
降维的一个动机是高维数据集会增加时间复杂度,而且所需空间也会更多。此外,数据集中的所有功能可能都没有用。有些可能根本不提供任何信息,而有些可能会提供与其他功能类似的信息。选择最佳特征集将有助于我们减少空间和时间复杂度,以及分别提高监督和非监督学习的分类(或回归)和聚类(或关联)的准确性或纯度。
特征选择有四种不同的方法,如过滤方法,包装方法,嵌入方法和混合方法。
包装器方法:这种方法具有很高的计算复杂度。它使用学习算法来评估在分类中使用所选特征所产生的准确性。包装器方法可以为特定分类器提供高分类精度。
过滤方法:通过此方法选择要素的子集,而不使用任何学习算法。高维数据集使用此方法,并且它比基于包装器的方法相对更快。
嵌入式方法:应用学习算法确定此方法的特殊性,并在训练数据集的过程中选择特征。
混合方法:过滤器和基于包装器的方法都用于混合方法。该方法首先选择可能的最佳特征集,其通过包装器方法进一步测试。因此,它利用了过滤器和基于包装器的方法的优点。
特征选择参数:
参数根据两个因素进行分类 -
由这些特征贡献的信息的相似性:
1.相关性
这些特征主要根据其相关因子分类为相关或相似。在数据集中,我们有许多相关的功能。现在,具有相关特征的问题在于,如果f1和f2是数据集的两个相关特征,那么包括f1和f2的分类或回归模型将与预测模型相比,与f1或f1的情形相比f2包含在数据集中。这是因为f1和f2都是相关的,因此它们提供了与数据集中的模型相同的信息。有各种方法来计算相关因子,但是,Pearson的相关系数是最广泛使用的。Pearson相关系数( {\ displaystyle \ rho )的公式为:
{\ displaystyle \ rho _ {X,Y} = {\ frac {\ operatorname {cov}(X,Y)} {\ sigma _ {X} \ sigma _ {Y} \ newline}}}
哪里
cov(X,Y) - 协方差
sigma(X) - X的标准偏差
sigma(Y) - Y的标准偏差
因此,相关特征是无关紧要的,因为它们都贡献相似的信息。只有整个相关或相关特征的一个代表将给出相同的分类或回归结果。因此,在使用各种算法从每个关联或相关的特征组中选择特定代表之后,这些特征是冗余的并且被排除以用于降维。
由这些功能贡献的信息量:
1.熵
熵是衡量平均信息含量的指标。熵越高,该特征的信息贡献越高。熵(H)可以表示为:
{\ displaystyle \ mathrm {H}(X)= \ mathrm {E} [\ mathrm {I}(X)] = \ mathrm {E} [ - \ ln(\ mathrm {P}(X))] \ newline }
哪里
X - 离散随机变量X.
P(X) - 概率质量函数
E - 期望值运算符,
I - X的信息内容。
I(X) - 一个随机变量。
在数据科学中,通过排除特征f1然后计算其余特征的熵来计算特征f1的熵。现在,熵值越低(不包括f1),f1的信息内容越高。以这种方式,计算所有特征的熵。最后,阈值或进一步的相关性检查基于选择的特征来确定特征的最优性。熵主要用于无监督学习,因为我们在数据集中有一个类字段,因此特征的熵可以提供大量信息。
2.相互信息
在信息论中,互信息I(X; Y)是由于Y的知识而在X中的不确定量。在数学上,互信息被定义为
{\ displaystyle I(X; Y)= \ sum _ {y \ in Y} \ sum _ {x \ in X} p(x,y)\ log {\ left({\ frac {p(x,y) } {p(x)\,p(y)}} \})\ newline}}
哪里
p(x,y) - X和Y的联合概率函数,
p(x) - X的边际概率分布函数
p(y) - Y的边际概率分布函数
数据科学中的相互信息主要是通过特征来了解关于类共享的信息量。因此,主要用于监督学习中的降维。具有与监督学习中的类相对应的高互信息值的特征被认为是最优的,因为它们可以影响预测模型朝向正确预测并因此提高模型的准确性。