机器学习之决策树
- 作者:成都软件开发
- 发表时间:2019-03-24 19:55
- 来源:未知
决策树:决策树是分类和预测最强大,最受欢迎的工具。决策树是类似树结构的流程图,其中每个内部节点表示对属性的测试,每个分支表示测试的结果,并且每个叶节点(终端节点)保持类标签。
Decision_Tree(2)
PlayTennis概念的决策树。
决策树的构造:
可以通过基于属性值测试将源集分割成子集来“学习”树。以递归方式对每个派生子集重复该过程,称为递归分区。当节点上的子集都具有相同的目标变量值时,或者当拆分不再为预测增加值时,递归就完成了。决策树分类器的构造不需要任何领域知识或参数设置,因此适用于探索性知识发现。决策树可以处理高维数据。通常,决策树分类器具有良好的准确性。决策树归纳是学习分类知识的典型归纳方法。
决策树表示:
决策树通过将树从树根目录分类到某个叶节点来对实例进行分类,叶节点提供实例的分类。通过从树的根节点开始,测试该节点指定的属性,然后向下移动与该属性的值对应的树分支,对实例进行分类,如上图所示。然后对子树重复此过程以新节点为根。
上图中的决策树根据是否适合打网球并返回与特定叶子相关联的分类来对特定早晨进行分类(在这种情况下为是或否)。
例如,实例
(展望=雨,温度=热,湿度=高,风=强)
将在该决策树的最左侧分支下进行分类,因此将其归类为否定实例。
换句话说,我们可以说决策树表示对实例的属性值的约束的连接的分离。
(Outlook = Sunny ^ Humidity = Normal)v(Outllok = Overcast)v(Outlook = Rain ^ Wind = Weak)
决策树方法
的优点和缺点决策树方法的优势在于:
决策树能够生成可理解的规则。
决策树执行分类而不需要太多计算。
决策树能够处理连续变量和分类变量。
决策树清楚地指示哪些字段对于预测或分类最重要。
决策树方法的缺点:
决策树不太适合于估算任务,其中目标是预测连续属性的值。
决策树在分类问题中容易出错,具有许多类和相对少量的训练示例。
训练决策树的计算成本可能很高。增长决策树的过程在计算上是昂贵的。在每个节点处,必须对每个候选分裂字段进行排序,然后才能找到其最佳分割。在一些算法中,使用字段的组合并且必须搜索最佳组合权重。修剪算法也可能是昂贵的,因为必须形成和比较许多候选子树。