电子邮件垃圾安全过滤程序设计 第3页
第四章 基于粗糙集(Rough集)理论的垃圾邮件分析、过滤
4.1 Rough集简介
Rough集理论是由波兰华沙理工大学Pawlak教授于20世纪80年代初提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法,具有无需提供问题所需处理的数据集合之外的任何先验信息的特点。Rough集的研究对象是由一个多值属性集合描述的一个向量集合,对于每个对象及其属性都有一个值作为其描述符号,对象、属性和描述符构成表达决策问题的3个基本要素。给定对象间的一个等价关系,即导致由等价类构成的近似空间的不分明关系。Rough集就用不分明对象类形成的上近似和下近似来描述,对应了确定属于给定类的最大对象集合和可能属于给定类的最小对象集合。上近似和下近似的差是一个边界集合,包含了所有不能确切判定是否属于给定类的对象。因而在质量分类,决策规则等方面具有巨大的应用前景。
4.2 目前的研究进展情况本文来自辣'文~论^文,网
很多情况下,邮件头包含了整封邮件的主要特征,我们希望通过对邮件头的处理,获得较好的处理结果。根据Rough集理论,其流程如下:
(1)理解领域知识和相关的先验知识,明确系统目标,人工定义条件属性和决策属性,得到决策表的框架结构;
(2)收集大量样本,填充决策表(注意样本的一般性,去除明显错误的冗余噪音数据);
(3)进行数据的预处理:数据补齐和数据的离散化;
(4)属性约简,即考察条件属性相对于决策属性的分类能力,使条件属性个数最少而不改变其分类能力;
(5)值约简,去掉无用的属性,获得初步的知识库;
(6)将归纳出的知识应用于实践,检验其正确性,相应改进前面的操作。
4.2.1 决策表条件属性和决策属性描述
在人工分析了大量信头样本的基础上,结合邮件收发的理论知识,我们归纳出了以下决策表的条件属性:
属性一:邮件中继次数,它实际上就是信头中“Received:”项的个数;
属性二:收件人个数;
属性三:邮件路由信息的中断次数,若前一条“Received:”信头中接收站点的域名和ip与后一条“Received:”信头中发送站点的域名和ip均不相同,则被视为路由信息中断;
属性四:“Received:”项中的各个域名与其IP不匹配的次数,由于域名的动态性和网络资源的限制,无法获得域名与IP的匹配信息;所以这一属性都缺省为0;保留此属性,以备以后有条件时应用;
属性五:“Received:”中from项缺少域名的次数,我们规定:若最后一个Received中(即第一个中继的SMTP服务器添加的路由信息)没有from项的域名,且发信的地址与此Received中的by项匹配,则此处缺少域名是合理的;
属性辣:“Received:”中的by项缺少域名的次数;
属性七:“Received:”中的from项没有ip的次数,我们规定:若最后一个Received中(即第一个中继的SMTP服务器添加的路由信息)没有from项的ip和域名,且发信的地址与此Received中的by项匹配,则此处缺少ip是合理的;
属性八:“From:”中的原始发送地址是否与“Received:”中的原始发送地址一致,若“From:”中的原始发送地址或“Received:”中的原始发送地址不规范,则视为不一致;若最后一个“Receiced:”中有from项,则它的内容是原始发送地址;否则最后一个“Receiced:”中的by项的内容是原始发送地址;
属性九:“To:”中的目的地址是否与“Received:”中的实际收信人的地址一致;若“To:”中的目的地址或“Received:”中的实际收信人的地址不规范,则视为不一致;实际收信人地址是第一个“Received:”(最后一个SMTP服务器添加的信息)中的by项;
属性十:若存在“Delivered-To:”一项则比较它和“To:”是否一致,这一属性值的缺省值为1;
属性十一:若存在“Return_Path:”则比较和“From:”是否一致,属性值缺省值为1。
决策表的决策属性描述:
邮件类型 决策编号毕业论文
http://www.751com.cn普通邮件 1
广告邮件 2
反动邮件 3
4.2.2 处理所用的较优算法
数据离散化算法(改进的贪心算法1(启发式算法)
步骤1:根据原来的信息系统S构造新的信息系统 ;
步骤2:初始化断点集CUT=空集;
步骤3:选取所有列中1的个数最多的断点加入到CUT中,去掉此断点所在的列和在此断点上值为1的行;当有一个以上的断点的1的个数相同时,把对应的断点所在的列值为1的对应的行的1的数目相加,取和最小的断点;
步骤4:如果信息系统 中的元素不为空,则转第3步,否则停止,此时CUT即是得到的断点集。
属性约简算法(基于信息熵的算法1):
步骤1:计算决策表T中决策属性集D相对条件属性集C的条件熵H(D/C);
步骤2:计算条件属性集C中相对决策属性集D的核属性集 ,将非核条件属性记入集合At中,即At=C- ;
步骤3:令B= ,本文来自辣'文~论^文,网
(1)如果 !=0,则计算条件熵H(D/B),转(4);
(2)对每个属性 ,计算决策属性集D相对条件属性集 的条件熵H(D/ );
(3)选择使H(D/ )最小的属性 (若同时有多个属性达到最小值,则从中选取一个与B的属性值组合数最少的属性作为 ),并且At=At- ,B=B ;
(4)若H(D/B)=H(D/C)则终止,否则转(2)。
值约简算法(启发式值约简算法):
算法输入:信息系统T包含n条记录,m-1个条件属性,1个决策属性。
算法输出:T的值约简 。
步骤1:对信息表中的条件属性进行逐列考察。若删除该列后产生冲突,则保留冲突记录的原该属性值;否则,如果出现重复记录,可将该记录的原属性值标为“*”;对于其它记录,将属性值标为“?”;
步骤2:删除可能产生的重复记录,并考察每条含有标为“?”的记录。如果仅由未被标记的属性值即可以判断出决策,我们将符号“?”改为“*”,否则将“?”改为原来的属性值。若某条记录的所有条件属性均被标记,则标记“?”改为原属性;
步骤3:删除所有条件属性均被标为“*”的记录及可能产生的重复记录(card( )= );
步骤4:如果两条记录仅有一个条件属性值不同,且其中一条记录的属性被标记为“*”,那么对该记录如果可由未被标记的属性值判断出决策,则删除另外一条记录,否则删除本记录。
知识匹配时,采用多数优先的匹配。
4.2.3 实验
随机获取一定数的样本(开始为40封邮件),每次实验递增4个样本,共做11次。性能指标主要通过正确率、错误率和未识别率来判断。实验平台是重庆邮电学院计算机科学与技术研究所开发的RIDAS(Rough Set Intelligent Data Analysis System),集成了有关Rough集30余种经典算法。性能测试如表1,性能图如图2:
编号 获取知识样本数 正确识别数 正确率 错误识别数 错误率 未识别数目 未识别率
1 40 33 82.50% 7 17.50% 0 0
2 44 37 84.09% 7 15.91% 0 0
3 48 41 85.41% 7 14.58% 0 0
上一页 [1] [2] [3] [4] 下一页
电子邮件垃圾安全过滤程序设计 第3页下载如图片无法显示或论文不完整,请联系qq752018766