第 1 章,介绍了论文的研究背景,在大数据条件下入侵检测系统的研究意义,以 及课题研究所用到的关键技术。文献综述
第 2 章,介绍了相关技术的研究发展现状,主要包括入侵检测系统和机器学习技 术在 IDS 中的应用,以及 Hadoop 的国内外发展现状,指明了本课题的应用前景。
第 3 章,介绍了本论文所用的主要算法(决策树算法)和 Hadoop 的具体架构,并 具体阐述了决策树的 SLIQ 算法和 Map/Reduce 等操作。
第 4 章,针对 SLIQ 算法进行了详细阐述并提出了优化方案,并计算了算法的时 间复杂度,同时解释了算法的并行化方案,介绍了实验将用到的数据集。
第 5 章,介绍了实验所用的环境以及系统的性能评估指标,并对实验结果进行了 分析论证。
第 6 章,对全文和毕业设计所做工作进行了总结,并对未来的工作提出了改进方 向和展望。
2 相关技术研究发展现状
2.1 入侵检测系统的国内外研究发展情况
2.2 机器学习技术在 IDS 中的国内外研究情况
2.3 云计算平台的国内外发展现状
3 基于决策树的入侵检测算法
3.1 决策树算法
3.1.1 决策树的基本思想
在机器学习中,决策树表示了研究对象的各种特征与对象的类别之间的关系。顾 名思义,从树的根节点开始,在每个内部节点,通过各个子节点的属性及其取值,最 终可以获得所测试的对象的类别。
根据一定数量的样本,可以生成一个基本的决策树,从而对新的具体情况进行判 断。而对于入侵检测系统来说,一个好的决策树,必定是一个能够高效地判断出某种 网络行为是否为攻击行为的模型。“奥卡姆剃刀”思想描述的就是这种高效的决策树: 越小的决策树越优于大的决策树(be simple 简单理论)。也就是说,在树的每一层节 点,必须使用一个(或多个)最佳分类属性来对父节点进行分裂,这样,在运用该决 策树对其他情况进行分类时,就能得到更高的平均效率。来!自~751论-文|网www.751com.cn
一般建立决策树的过程通常分为树的生长和剪枝两个阶段。
3.1.2 决策树学习的经典算法
决策树学习有一些经典的算法,包括 ID3、C4.5,SLIQ 等,它们都有各自优势 和局限。
1) ID3 算法
尽管它建立在“奥卡姆剃刀”的基础上,但 ID3 算法生成的决策树也不总是最 小的树形结构。 它的核心思想是, 在决策树的各个节点上通过计算信息增益 (Information Gain)来选择 Gain 最小的属性作为最佳分类属性,使得在每个非叶节点上 进行测试时,使用该属性将样本集分为各个子集后,系统的熵(Entropy)最小。