在机器学习领域,主要研究的是程序如何通过训练数据的积累不断提高算法性 能,这和 IDS 对入侵行为进行自我学习,来提高入侵检测系统的性能的目标是一致的。
因此,在入侵检测系统中融入机器学习的理论与方法,已是一种共识,并且已经取得 了一些积极的进展。68520
图 2.1 机器学习系统的基本结构
图 2.1 描述的机器学习系统的基本模型,包括 4 个模块。图中的“环境”和“知 识库”表示某些信息的集合。“环境”代表外界信息来源,而“知识库”则代表系统 所具有的知识。“环境”经由“学习环节”的处理对系统“知识库”进行充实改善, “执行环节”根据“知识库”的知识完成特定任务,同时把获得的信息反馈给“学习 环节”。
国外的研究机构早就开始了对入侵检测系统中利用机器学习技术的研究,而国内 在这方面的研究则明显起步较晚。国外代表性的工作有:J.May 等[7]实现了大型网络 的异常检测,使用了内部网络连接的统计特征和 N-gram 算法。Wenke Lee [8]的实验显 示,机器学习方法在系统调用的短序列检测中发挥了至关重要的作用。M.Sabhnani 和 G Serpen[9]结合了人工和基于机器学习的自动生成规则的方法,结果生成了一种启 发式规则,使之可以用于两种 R2L 攻击检测,能够检测到 KDD 数据集中的 warezclient 和 warezmaster 攻击。C. Sinclai[10]和 C.Kruegel 等[11]提出了决策树算法以用于进行入 侵检测。另外在其他方面,目前也取得了较大的进展,例如用人工神经网络、支持向 量机(SVM)、基于遗传和进化的学习,以及基于增强机器学习进行入侵检测等。论文网
随着网络和系统的迅速发展,IDS 还面临着海量含噪数据、不完整信息的推理、 分析和大型分布式异构的平台环境等挑战。实际上,入侵检测是一种分类问题,也就 是将一个行为归类为正常行为或各种异常行为的问题。与任何事物一样,在主机或网 络中出现的不同行为也是可以用特征来描述与区别其他行为的,关键就在于选择哪些 特征和如何将正常与异常事件分离开。
而新形势下面对入侵检测问题,就必须认识到训练集大且维度高、连续特征值离 散化、入侵种类繁多等实际情况。目前的机器学习技术中,能够用于分类的算法主要 有决策树算法、粗糙集算法和支持向量机等算法。虽然它们都已经得到广泛的应用, 但必须明白的是,没有任何一种机器学习算法是万能的,都有各自的局限性。粗糙集 方法在连续特征值离散化、约简算法及处理大规模数据等方面还是有所不足。支持向量机的应用仍局限于二值分类问题上,尽管已经有人开始提出将其应用于多值分类问 题上的一些做法,但还不够成熟。相对于上述两种算法而言,决策树算法更加直观, 产生的规则形式更简单易懂,不仅可以应用于大训练集的处理,还可以用于多分类问 题。因此在入侵检测这个实际问题中,使用决策树算法还是比较合适的。
Quinlan 于 1986 年提出的 ID3 算法和在 1993 年提出的 C4.5 算法是当前最有影响 的决策树算法。其他常用的决策树算法还有 SPRINT,CART,C5.0,Fuzzy C4.5,OC1, QUEST 和 CAL5 等。
本毕业设计就是采用一种决策树算法,来对大数据条件下的入侵检测系统的一种 研究尝试。
机器学习技术在IDS中的国内外研究现状:http://www.751com.cn/yanjiu/lunwen_77081.html