本文在介绍随机森林分类方法和原理的基础上,采用Landsat8洪泽湖地区TM影像进行数据试验,并将结果与最大似然分类法(MLC,Maximum Likeihood Classifier)的分类结果作比较,以评价其分类性能及不同方法的优劣。
2 随机森林分类器
2.1 Cart决策树
决策树是随机森林的基本单位,它本身可以视为一个树状预测模型,它包含根节点、内部节点、终节点。该模型由根节点出发,按照特定属性对根节点进行分割,形成增长,终节点区别内部节点,具有特殊标识,内部节点继续作为根节点继续增长,直至全部分为终节点,完成增长。
决策树的在内部节点分裂时所采用属性价值的衡量标准,是区分不同决策树的依据[4]。
CART(Classification and Regression Trees)是决策树的一种,也是随机森林的组成单位,他是以Gini指标作为衡量标准,该指标适用于二进制的字段。该指标的算法思想为:
假设某节点t处的数据样本集合T包含k个类别的记录,那么Gini指标定义:
其中p(j|t)为类别j在节点t处的概率。当Gini(t)为0时,次节点处的所有样本确定了类别,能得到最大信息。当Gini(t)最大时,该节点的样本对于分类来说,分到哪一类的可能性都一样,所以信息最小。文献综述
关于分割方法T的Gini指标为:
其中,l是子节点个数,n是总样本数,ni是在节点i处样本数
Gini指标的基本思想是:对于所有分裂方法T,选择能使得在分裂节点i处的Gini(i)最小的属性作为节点i的分裂标准,创建树枝,往下延伸。
决策树结构直观便于理解,在一些简单分类当中具有一定的应用。然而每一个内部节点都需要一种属性判定形成单个分类器,随着根节点内含数量增大,整个模型的延伸需要繁多的分类器的支持。
2.2 模型建立
随机森林是将单棵决策树进行集群,先从原始样本B中使用袋装法多次随机产生Bootstrap样本集Bi,将每个生成的新训练样本Bi集生成一颗对应的决策树Ti,这棵决策树在分类时所用的预测变量组Ci也是在特征变量中随机选择,产生对应的分类结果,最后综合所有树的分类结果进行投票产生最终结果