当下 , 大数据的时代正在来临 , 数据处理问题愈发受到人们的关注 。 人们迫切的需要从海量信息中提取重要信息,并找到数据相互之间的关系和规则,通 过决策树模型的构造,提取出有价值的分类规则,从而 根据现有数据预测未来发展的结果。 决策树分类算法中的 C4.5 算法是数据挖掘中最经典、最常用的分类算法,其挖掘的结果以图形化形式展现,从而使用者得以方便的快速做出决定或预测。决策树在各行各业应用的非常广泛,如 在医学、金融分析、机器学习、知识发现等领域 。 作者 从决策树的各个方面进行分析 , 理解阐述 C4.5 算法相对于 ID 3算法的改进,同时对 C4.5 算法进行实现。并指出 C4.5 算法中存在的不足。59592
毕业论文关键词 数据挖掘;决策树算法; ID3 算法; C4.5 算法 ;
Title Title Title Title The Analysis and Implementation of C4.5 AlgorithmAbstract Abstract Abstract AbstractNowadays,the era of big data is coming.Data processing issues isincreasingly draws people's attention. There is a urgently need to extractinformation from the mass of important information and to find therelationship between the data and rules through the model construction ofthe decision tree .People also want to extract a valuable classificationrules ,which according to existing data so as to predict the developmentresult of the future.In the data mining ,C4.5 algorithm is one of the mostclassic and commonly used algorithm.The mining results was shown by grghy,so that the user can easily make quick decisions or predictions. Thedecision tree has been applicated in a wide range of industries,such asmedical, financial analysis, machine learning, knowledge discovery andother fields.Author analyzes the decision tree from all aspects.understandand elaborate the improvement from C4.5 algorithm to ID3 algorithm byreviewing the relevant literature , and pointed out the deficiencies in theC4.5 algorithm.
Key words : Data mining;decision tree ; ID3 algorithm ;C4.5 algorithm.
目录
1.绪论...5
1.1研究背景5
1.2研究意义....5
1.3研究内容....5
2.相关理论综述6
2.1决策树定义6
2.2决策树经典算法..6
2.3C4.5算法改进详解..7
2.4决策树的特点.9
3.问题分析与解决方案.10
4.系统设计与实现....11
4.1C4.5的算法实现....11
4.1.1算法描述...11
4.1.2主要步骤...12
4.3关键代码...12
5.实验分析.17
5.2结果分析..18
5.3运行截图..19
结论21
致谢21
参考文献24
1.1.1.1. 绪论绪论绪论绪论1.1 1.1 1.1 1.1 研究背景 研究背景 研究背景 研究背景决策树技术是目前最成熟的方式来了解一个概念 。 它最早产生 于 2 0 世 纪 6 0 年代 ,亨特等人研究的概念建模时建立人类学习系统( CLS 概念学习系统 ) ,到 70 年代末,J 罗斯 · 昆兰提出的 ID3 算法,其目的是减少的深度树。但是,它忽略叶子的片数。在 1975 年和 1984 年,分别有人提出 CHAID ( Chi-squared Automatic InteractionDetection ) 和 CART ( Classification and Regression Tree , 亦称 BFOS ) 算法 。 198 6年 , J.C.Glimmery 提出 ID4 算法 。 1988 年 , P.E.Offutt 又提出了 ID5R 算法 。 199 3年 , Quinlan 拿出以 ID3 算法为基础的 C4.5/C5.0 的算法 , C4.5 算法 ID3 算法进行了默认值预测变量的处理、修剪技术、派生规则等多方面的改善,无论是分类问题 , 抑或是回归问题都适用。决策树算法具有以下优点 : ( 1 )分类准确度 ; ( 2 )生成的模型很简单 , ( 3 )对噪声数据有很好的鲁棒性 。 这是目前使用最广泛的归纳推理算法 , 得到了数据挖掘研究人员的广泛关注。
1.2 1.2 1.2 1.2 研究意义 研究意义 研究意义 研究意义决策树算法在许多领域 , 如医疗 、 生产制造 、 机器学习 、 遥感影像分类 、 财务分析和知识发现等领域的决策树算法已被广泛使用。决策树是一种海量数据集的一个非常有效的分类方法。通过构造决策树模型 , 源]自{751·~论\文}网·www.751com.cn/ 提取有价值的分类规则 , 来帮助决策者做出准确的预测 。 决策树算法是离散函数值的近似值 。 它是一个典型的的的分类方法 , 第一上述数据处理 , 使用的规则的感应的算法的 , 以生成可读的和号决定的的树木获得的 , 和新的数据以供分析 。 决策树实际上是一组规则对数据进行分类的过程。1.3 1.3 1.3 1.3 研究内容 研究内容 研究内容 研究内容数据挖掘需要低复杂度和高效的并行算法和策略选择 , 包括低复杂度的算法的全局优化问题尽可能陷入局部最优近似直线或尽量减少低阶多项式算法的复杂性 , 以及高效的并行策略包括需要有精湛的技艺和递归循环,避免使用全局的信息。现在 , 研究人员正在继续研究改进决策树算法 , 研究人员又从不同的角度对 C4. 5算法进行了相应的改进,这其中包括针对 C4.5 算法处理连续属性比较耗时,用数学本科 毕业设计说明书(论文)的等价无穷小使信息增益率的计算效率不断提高等等方面。本论文将对 C4.5 算法进行分析和实现,同时做进一步的深入学习。 C4.5算法的分析和实现:http://www.751com.cn/jisuanji/lunwen_64855.html