本实验首先对局域网的运行进行一段时间的监测并记录其有关的数据,用与网络流量相关的四个属性来表征网络的运行情况,即TCP和UDP包在全部数据包中的比例Ptcp 和 Pudp网络中每秒的平均数据包数量A vg pac ket / se c 以及每秒平均数据位 A vg M b it/sec。每一小时取一次样, 共得到十组数据,如表3所示。
表3 实验数据
P tcp /% Pudp /% 每秒平均数据包 每秒平均数据位
96.0 0.2 169.541 0.530
95.9 0.5 171.836 0.531
93.8 0.4 183.936 0.596
96.2 1.0 171.477 0.523
95.7 0.7 133.544 0.407
92.2 0.8 168.651 0.531
97.2 0.7 177.258 0.565
85.0 0.6 193.379 0.547
89.0 0.3 141.256 0.425
84.6 0.3 190.285 0.524
我们可以运用模糊关联规则知识发现算法对这些记录的实验数据进行模糊关联规则挖掘,其意图就是要找出该局域网在实际运作中各网络流量属性之间所隐含的规律,从而使网络监管员在这挖掘出来的规律基础上,更方便容易的了解和清楚网络的运行,进而更准确、更高效的对网络流量进行监测[12-14]。
由实验所获得的实验数据的特征与网络特性,我们可以将这四个属性划为模糊集﹛low,high﹜,同时构造出相对应的隶属度函数,如Ptcp隶属度函数为:
我们可以根据实际情况取我们所期望的最小的支持度和最小的置信度,例如我们可以取最小的支持度为0.25,最小的置信度为60%,运用Apriori算法来连接和剪枝,最后可以得到频繁3-项集L3。其运算的过程如图3所示:
项集 支持度
Tlow 0.312
Thigh 0.547
Ulow 0.700
APhigh 0.663
AMhigh 0.774
项集 支持度
Tlow 0.31
Thigh 0.547
Ulow 0.700
Uhigh 0.150
APlow 0.151
APhigh 0.663
AMlow 0.200项集 支持度
Tlow Ulow 0.279
Thigh Ulow 0.328
Thigh APhigh 0.375
Thigh AMhigh 0.448
Ulow APhigh 0.483
Ulow AMhigh 0.538
APhigh AMhigh 0.641
项集
Thigh Ulow AMhigh 0.286
图3频繁项集产生
根据频繁集L3得到以下的关联规则集:
Thigh Ulow ----AMhigh s=0.286 c=0.286/0.328=87.2%
Thigh AMhigh----Ulow s=0.286 c=0.286/0.448=63.8%
Ulow AMhigh----Thigh s=0.286 c=0.286/0.538=53.2%
Thigh----Ulow AMhigh s=0.286 c=0.286/0.547=52.3%
Ulow----Thigh AMhigh s=0.286 c=0.286/0.700=40.1%
AMhigh----Thigh Ulow s=0.286 c=0.286/0.774=36.9%
由以上的运算我们可以得出强关联规则集:
R1:Thigh Ulow ----AMhigh s=0.286 c=0.286/0.328=87.2% 模糊关联规则知识发现算法研究+文献综述(8):http://www.751com.cn/tongxin/lunwen_1529.html