表10 TF-KNN算法得到的相似度结果 40
表11 TF-KNN算法得到查全率结果 40
表12 K-NN算法的查准率结果 41
表13 TF-KNN算法的查准率结果 42
1 引言
1.1 研究背景
当人们面对一个新问题时,往往会利用以前解决问题的经验,对当前类似的情况进行分析、推理,得到解决新问题的方法,从而不必从头做起。将人们这种解决自然问题的心理过程上升到方法学的角度,就是基于案例的推理(Case-based Reasoning,简称CBR),其思想就是将过去的案例与当前问题相联系,利用类比推理进行新问题的描述、相似案例检索、方案调整、方案评估、案例学习与维护,从而简化知识的获取过程。由于CBR方法同传统的基于规则的推理系统(Rule—based Reasoning,简称RBR)相比,具有知识获取容易、有记忆功能、健壮性好、更加符合人们的认知心理过程等优点,适合在很难建立机理模型和领域知识不完全、难以定义但经验丰富的决策环境与对象中运用,并且在问题的求解中得到了广泛的研究,随着法制化进程的不断推进,在海量案例中选取相似案例,进行案例分析,已经成为法制领域研究的重要内容,发挥着不可替代的作用,所以自20世纪80年代末、90年代初兴起之后,它受到人工智能研究者的高度重视,已成功应用于医学诊断、工业智能控制、商业信息决策、机械设计等领域。
案例检索方法的研究主要包括案例特征属性权重的确定与检索策略的制定,给定合理的特征权重对检索质量起着至关重要的作用,现在的研究给出了很多的案例检索权重的确定方法,但是很多的权重确定方法存在着或多或少的缺陷,考虑的不是很全面,这些方法虽然可以计算出各个特征属性的权重,但是忽略掉的方面使其不能适合所有的案例分析,研究者们在前者的基础上进行改进研究,将可能出现的问题列入到考虑范围内,将算法设计的更加完善,能够适用于更多条件下的案例检索。案例相似度计算中的特征权的赋值影响最终检索结果的质量,合理的特征属性权重能提高案例推理算法结果的精度。在案例库实时更新的CBR 系统中,一般要求案例属性的权重也能进行调整,故权重的实时优化一直是案例检索环节的一个研究热点。
1.2 研究目的及意义
如何在CBR系统中高效地完成最相似案例的检索是CBR的关键问题之一,这对于新问题的求解效率和推理的准确性有较大的影响。CBR的检索要达到以下两个目标:一是检索出来的案例尽可能地少;二是检索出来的案例应尽可能与新问题相关或相似。这就要求检索的精确度非常的高,而案例特征属性权重的选取直接影响到案例检索的精度,在面对众多的案例检索权重确定方法中确定方法的有效性是非常必要的,所以本课题的研究目的就是比较并验证现下的某些案例检索权重确定方法的有效性和准确度。
案例的相似性匹配(案例检索)是CBR的关键,匹配的结果是否准确直接影响到问题的求解效果,而案例的相似性匹配是案例特征相似性匹配及特征权重的综合反映。案例特征的相似性匹配可以根据具体的研究问题来确定,而同时特征权值的分配和确定是进行案例匹配的另一项重要基础性工作,这是因为各个特征在案例中所具有的地位不同,对案例性质的影响程度和所起作用也不相同,有的起关键作用,有的作用很小,甚至不起作用,通过对每一个特征属性赋上一个合理的权重,这样在计算整体相似度时使重要的属性对结果影响较大,而比较次要的属性结果影响较小,这样度量结果会更加客观地反映出案例和待解问题的相似程度,提高检索的准确性。所以,这些特征需要通过适当的权值配置,才能在案例匹配时发挥与其性质相适应的作用。由此可见案例检索中权重的确定是非常重要的,而权重的确定方法确实非常的多,所以研究这些权重的确定方法的有效性与准确度是非常有意义的。