a b=max(a,b)
a b=min(a,b)
定义3 ∈F(U×U)是U上模糊等价关系,当且仅当D满足:
a) 自反性:D(x,x)=1( x∈U);
b) 对称性:D(x,y)=D(y,x)( x,y∈U);
c) 传递性:D² D。
当D只满足自反和对称性,则称D为U上模糊相似关系。模糊等价的矩阵表示称模糊等价矩阵,矩阵表示的模糊相似关系叫做模糊相似矩阵。
模糊关系理论是大多理论和应用基础,以上定义模糊集合间的关系和运算,表明模糊集合间的互相作用。典型集合论中“关系”刻画事物之间的“精确性”联系,模糊关系则是从更深刻意义上表现事物间更宽泛联系。
模糊性是一种普遍存在的客观世的现象,而隶属函数则是对这种模糊性的数学描述,在模糊关联规则数据挖掘中可以通过不同的方法建立隶属函数,其中比较常用的方法有:
(1)择优比较法;
(2)集值统计迭代法;
(3)模糊统计法;
(4)绝对比较法;
(5)推理法。
模糊集的建立实际上就是用模糊属性表示数据集中的所有属性,每个模糊属性都包含多个模糊值,而每个模糊值都有相应的模糊集。用模糊隶属函数来描述一个确定属性值对于一个模糊属性集的隶属度。一个确定属性值可以隶属于多个模糊值,对应有多个隶属度。如表1所示,事务数据库 ,属性 ( , )。
表8 示例数据库
(%)
(%)
t1 97.2 0.6
t2 98.5 0.2
t3 96.6 0.9
t4 94.4 0.3
把每个属性又分别划分成几个模糊集,例如属性 和属性 都包含两个模糊集:low和high。 表示数据集中事务T的第i个项目 属性为 的数据值,即第j列i行的数据; 表示数值 对属性 的第k个模糊集 的隶属程度。对表1所示的数据库,在其各数据项隶属度被计算出来之后,数据库就被转换成如表2所示。
表9 数据库中事务对各模糊属性隶属度表
=high =low =high =low
t1 0.7 0.2 0.6 0.4
t2 0.9 0.1 0.2 0.7
t3 0.5 0.4 0.9 0.1
t4 0.3 0.7 0.2 0.8
在本论文中,采用二次抛物线来表示属性集中某属性的隶属度函数的变化,其形式为:
(1) low:
(2) High:
定义参数值 , , , 。其中,x,y,z分别为在正常网络状态下获取的多组数据中该属性值的最小值、平均值和最大值。用此参数建立的函数,平均值y点在Low和High的隶属度都为0.5。利用上述方法得到该属性的2个模糊集合和模糊隶属度函数。在模糊挖掘的全部过程中模糊集隶属度的定义是很重要的。
4.模糊关联规则挖掘算法在安全事件相关应用
实验数据是DARPA2000 LLDOS1.0数据集[13],所获取的事件类型包括:Http_Java,TelnetTerminaltype,Email_Almail_Overflow,Sadmind_ping,FTP_Syst,FTP_Pass,Email_EchoFTP_User,TelnetEnvAl,Http_Shells,Admind,Sadmind_Amslverify_Overflow,Rsh,HTTP_Cisco_Catalyst_Exec,Stream_Dos,SSH_Detected,Email_Debug,TelnetXdisplay,Mastream_Zombie。
通过运用相关模糊关联规则算法[14],我们可以对DARPA2000LLDOS1.0 数据集中随机抽取的一周的数据进行分析。首先要定义属性集I={i1,i2,i3,.......i19},属性集中的每一项属性分别表示DARPA中所获取的某种事件所发生的次数,即i1表示出现Sadmind_ping事件的次数。事务数据库T={t1,t2,......,tn},数据库中的每一项记录ti表示对于属性集I中的事件在某一小时内的统计数据。根据I中的每一种安全事件我们可以对其具体的特点进行模糊化,对这类事件发生的次数进行抽象,使其成为易于反映其程度的模糊属性。同样的以Sadmind_ping为例,将其发生的次数定义为低、中、高三等,即新产生的模糊属性集If中由i1产生的模糊属性为i1.low,i1.middle,i1.high,其隶属函数的定义如图1所示,其中纵坐标为隶属度,横坐标为i1。 模糊关联规则及其应用研究(6):http://www.751com.cn/zidonghua/lunwen_2587.html