洪泽湖地区随机森林在遥感影像分类中的应用(2)

菜单

本文在介绍随机森林分类方法和原理的基础上，采用Landsat8洪泽湖地区TM影像进行数据试验，并将结果与最大似然分类法(MLC，Maximum Likeihood Classifier)的分类结果作比较，以评价其分类性能及不同方法的优劣。

2 随机森林分类器

2.1 Cart决策树

决策树是随机森林的基本单位，它本身可以视为一个树状预测模型，它包含根节点、内部节点、终节点。该模型由根节点出发，按照特定属性对根节点进行分割，形成增长，终节点区别内部节点，具有特殊标识，内部节点继续作为根节点继续增长，直至全部分为终节点，完成增长。

决策树的在内部节点分裂时所采用属性价值的衡量标准，是区分不同决策树的依据[4]。

CART(Classification and Regression Trees)是决策树的一种，也是随机森林的组成单位，他是以Gini指标作为衡量标准，该指标适用于二进制的字段。该指标的算法思想为：

假设某节点t处的数据样本集合T包含k个类别的记录，那么Gini指标定义：

其中p(j|t)为类别j在节点t处的概率。当Gini(t)为0时，次节点处的所有样本确定了类别，能得到最大信息。当Gini(t)最大时，该节点的样本对于分类来说，分到哪一类的可能性都一样，所以信息最小。文献综述

关于分割方法T的Gini指标为：

其中，l是子节点个数，n是总样本数，ni是在节点i处样本数

Gini指标的基本思想是：对于所有分裂方法T，选择能使得在分裂节点i处的Gini(i)最小的属性作为节点i的分裂标准，创建树枝，往下延伸。

决策树结构直观便于理解，在一些简单分类当中具有一定的应用。然而每一个内部节点都需要一种属性判定形成单个分类器，随着根节点内含数量增大，整个模型的延伸需要繁多的分类器的支持。

2.2 模型建立

随机森林是将单棵决策树进行集群，先从原始样本B中使用袋装法多次随机产生Bootstrap样本集Bi，将每个生成的新训练样本Bi集生成一颗对应的决策树Ti，这棵决策树在分类时所用的预测变量组Ci也是在特征变量中随机选择，产生对应的分类结果，最后综合所有树的分类结果进行投票产生最终结果

751论文网手机版...