1.2 文献综述
1.3 研究方法与创新
本文论述了泊松分布与泊松回归的建立。根据极大似然估计思想建立极大似然函数,为便于求解通过取对数得到对数似然函数。由于函数的复杂性,参数不便于求得解析解,通过Newton-Raphson迭代法和遗传算法两种方法求解参数数值解。关于假设检验,通过构造卡方统计量(某些正则条件)检验模型显著性,构造Wald统计量(某些正则条件)检验自变量显著性。最后根据瑞典第三方机构提供数据将泊松回归应用到事故发生和保险索赔数目拟合中。
本文创新之处在于分析了两种参数数值解的求法:Newton-Raphson迭代法[7]和遗传算法[8]。通过实证分析确定了SAS[9]软件关于泊松回归参数估计思想,求解算法,模型显著性检验,自变量显著性检验。最后通过建立泊松回归和伽马回归分析了上述数据,并根据分析结果给出了风险类别在统计上更有意义的等级划分方式。
1.4 本文体系架构
本文共分四章:
第一章是绪论部分,先后主要说明了研究背景和研究意义,文献综述,研究方法和创新,体系架构;
第二章是回归模型部分,先后主要说明了泊松分布,泊松回归,参数估计及其求解算法,模型显著性检验和参数显著性检验;
第三章是实证分析部分,主要是在已知数据的基础上将泊松回归应用到事故发生与车险索赔次数[10]中,并利用伽马回归分析了车险次均索赔额[11]。根据SAS求解结果给出了风险类别在统计上更有意义的等级划分方式;
2 泊松回归模型
2.1 泊松分布概述
在正式建立回归模型之前,首先我们有必要认识下泊松分布。泊松分布是由法国数学家(Siméon-Denis Poisson)引入的,常用来说明某一“区域”内事件发生数目的概率[12]。例如电话交换机在某段时间内接到呼叫数,汽车站在某段时间内乘客的数目,热电子在固定时间内发射数,显微镜下一定区域内观察到的微生物个数都服从泊松分布。
下面在系列假设基础上推导出泊松分布。设 时间段内事件发生数是 ,我们假设 关于下述三个条件成立:
(1)无后效性
某时刻之后任意长的时间段内发生的事件数与该时刻之前发生的事件数相互独立;
(2)普通性
充分小的时间间隔内事件最多只能发生一次,发生两次或两次以上的概率基本为零;
(3)平稳性
某一时间段内事件发生次数与起始时间无关,仅与时间长度有关。
由于推理的需要我们在此先给出并证明一个引理:
引理: 假设 单调函数, 成立当 时,则有 ,其中 。
证明:因为 ,所以当 时,有 。如果 ,则有 。取 ,有 。所以对于自然数 , ,下式成立:
即当自变量为有理数时引理成立,然后根据函数的单调性可得对无理数同样成立,所以引理关于全部实数都成立。
下面开始证明:
表示 时间段内事件发生 次的概率。根据全概率公式和无后效性,有:
内事件发生 次, 内事件发生 次 = 内事件发生 次 内事件发生 次 内事件发生 次 = 。
特别有 :
由于 关于 是单调下降的,所以根据引理可得: ,且当 时有 ,
由假设知
故 有: 令 ,有 。由已知得 ,故
则 又 则 一般的 Newton-Raphon迭代法SAS泊松回归模型及其应用(2):http://www.751com.cn/shuxue/lunwen_22121.html