对于给定目标案例,如何从案例库中检索和选择最为相似的案例决定了案例推理系统的学习和推理性能。案例间的相似性度量是检索的关键,在案例间相似度的评估中,通常是建立一个相似性计算函数对当前案例与旧案例进行比较,常用的相似性度量函数有:Tversky系列对比匹配法、距离度量法、最近邻算法、多参数相似性计算、面向对象案例表示的相似性度量方法、基于模糊集相似性计算的方法等。CBR中的检索策略有多种,主要检索方法有:分类网模型、模板检索、最近邻检索法、归纳检索、基于知识的深检索、神经网络检索方式、粗糙集检索方式、模糊检索技术。
2 权重确定的方法
2.1 传统的定权方法
常用的定权方法有:专家咨询法、成对比较法、调查统计法、无差异折衷法以及相关分析法等等。在上述方法中,前四种方法一般是在领域专家先验知识的基础上通过事先假设或采用平权的办法来确定特征属性的权重值,无疑会给最相似实例检索的准确性造成影响。后一种方法基于一种统计的方法,相对于前者有一定的进步,但从总体看,传统的案例特征属性定权方法过分依赖于主观判断和经验,有时难以令人信服。除此之外,还有层次分析法(analytic hierarchy process,AHP)和二元对比排序法。AHP法存在一些困难,那就是判断矩阵的一致性问题,AHP法虽然直观明了,但具有很强的主观性,准确率不高,两者都存在没有全面反映人们处理复杂问题的逻辑思维方式的缺点。
2.2 优化后的定权方法
近来,特征属性权重的确定方法引起了广泛关注,有神经网络模型和粗糙集方法、粗糙集约简法、相似粗糙集理论、神经网络和敏感度方法、遗传算法、基于模糊推理的权重优化方法、FRAWO——即融合模糊数学、改进欧氏距离相似度算法的混合检索方法以及基于PULL&PUSH调整策略的权重优化方法、CBR变权值引擎模型等。虽然这些定权方法对传统常用的权重确定方法上都有所改进,考虑的问题更加的周到,但不免有些方法还存在一些欠缺的方面。源.自/751·论\文'网·www.751com.cn/
① 传统粗糙集理论能很好的处理离散型数据,但对于连续型数据却非常有限,不能直接处理,而现实中大多为连续数据,就必须将连续数据进行离散化处理,但是大多数离散化方法会产生案例相似度测量误差,并造成数据丢失,从而导致案例检索和案例推理结果的不准确的结果;
② 基于知识熵的案例特征权值计算方法:基于知识熵的案例特征权值确定方法计算简单,无须任何先验知识,通过实例验证具有一定的可信度,克服了传统的权值确定方法的主观性和任意性,而且该特征权值确定方法不仅适用于案例相似性匹配时的权值计算,对其他的权值确定问题也有一定的指导意义,在实际使用时应注意分析当前要求;
③ 相似粗糙集理论用相似关系代替不可分辨关系,避免了数据离散化,是对传统粗糙集理论的扩展,与传统粗糙集理论方法相比更客观、科学、准确,与GA和AHP及基于CRS的方法相比更简单有效、易于实现,很好的解决了传统粗糙集理论只能很好地处理离散型数据,但对于连续型数据却非常有限,不能直接处理这一问题,克服基于CRS的方法所导致的案例相似度测量误差而影响案例推理的准确性这一难题。
④ 神经网络和粗糙集方法,可利用已有数据来挖掘案例最优或较优特征权重,但神经网络法的网络结构难于确定,并且需要大量训练样本;
⑤ 神经网络和敏感度方法加入考虑了其他算法没有考虑到的特征项之间的关联性这一问题,把案例库中各特征项构造成为神经网络的输入,各特征项对决策的分类影响作为神经网络的输出,依次删除网络的各输入节点,通过编程测试不同的输入对网络输出影响的敏感程度来确定它的权重。