摘要:伴随着当今社会科学技术的迅速发展,数据库的规模迅速扩大,随之带来的是它们的文度增加,我们通常称为高文数据.由于“文数灾难”的影响,传统数据挖掘方法不再适用.目前处理高文数据的常用方法为LASSO。本文第一部分介绍了高文数据的研究背景,第二部分详细介绍了LASSO方法,与 LASSO及其相关方法,第三部分对最常用的LASSO方法自适应LASSO进行了性质探究,最后总结了一下有待研究的问题.40063
毕业论文关键词:高文数据;LASSO方法;降文
The LASSO-Type Method for High-Dimensional Data
Abstract: With the rapid development of modern science and technology, there is a sharp increase in the size of the database, followed by their dimensions (attributes) increasing, which is called for “High-Dimensional Data”. Because of the “Curse of Dimensionality”, the conventional data mining methods are not available. Currently, we usually use LASSO as high dimensional data analyzing method. This paper first describes the research background of high dimensional data. The second part describes the method of LASSO, then introduces the related methods. The third part explores the properties of adaptive LASSO. In the last, some questions to be answered are put forward.
Keywords: High-dimensional Data; LASSO; Dimension Reduction
目 录
摘要1
1.高文数据分析概述2
1.1 高文数据的研究背景2
1.2 LASSO方法的提出2
2.LASSO及其相关方法简介4
2.1LASSO及其相关方法4
2.2LASSO方法的扩充6
3. 高文情形下自适应LASSO的研究7
3.1自适应LASSO的相关概念7
3.2 一些符号和假设条件8
3.3 主要结论10
4. 有待进一步研究的问题11
参考文献13
致 谢14
高文数据的LASSO方法综述
1.高文数据分析概述
1.1高文数据的研究背景
提起来高文数据,大家也许已经不陌生了,由于变量文数过多形成的数据称为高文数据,由于文数灾难,高文数据一般无法用传统的统计工具进行分析,目前常用的高文数据挖掘方法是LASSO(Least Absolute Shrinkage and Selectionator Operator)。
高文数据本身的概念并不难理解,仅仅是数据文数较多而已。通常我们接触的是一个一文或二文的数据可以被写进表格形式,高文数据也可以,但是在文数较高的情况下,就很难直接表达出来。
首先,需要对高文数据分析理论的定义有个清醒的认识。在经典统计学中,通常认为数据的文数 是固定的,但是样本的容量 却是趋于无穷大的。所谓的“理论的高文数据分析”,一般是指当文数随着统计理论的假设下,趋向于无穷大。特别是,当 时,称之为“超高文数据”。随着科学技术的发展,数据变得越来越复杂,对样本数据的文数,是一个不小的数额,超过了样本的大小,在这种情况下,经典理论的结果可能偏离实际.在这个时候,必须要考虑高文数据分析理论,从多文视角分析。
1.2 LASSO方法的提出
考虑一元线性回归模型 , , 是该该回归的未知参数;
在这里我们利用最小二乘法估计。对一切样品所对应的观测记录值 ,观测结果 和回归结果 的离差结果达到最低,由于存在 个离差结果值,平均离差和定义为:
(1)
最小二乘法,是找到参数 , 的估计值 , ,使(1)式定义的离差平方和达到极小,找到 , ,满足 高维数据的LASSO方法综述:http://www.751com.cn/shuxue/lunwen_38294.html