1.2 国内外研究现状与发展趋势
1.3 文献综述和研究内容
1.3.1 文献综述
通过以上文献,了解了数据挖掘的相关理论背景,包括:回归分析的定义、回归分析的功能、回归分析的方法、单因素方差分析、多因素方差分析法等基本理论的研究;以及他们之间的相互关系的理论研究现状。以上这些是为接下来的研究做主要理论基础的。
1.3.2 研究内容
本项研究运用多元线性回归技术,根据数据库中已有的某件特定热门事件的数据,对微博用户群进行分析研究,同时找出人群、地域、时间等因素对微博热度的影响。根据微博特点和现有数据,提出热度的衡量标准的运算方式,进而提出微博热度的多元分析模型,对客户进行多元线性分析。模型不但符合微博用户的特点而且实际应用性强,可以根据分析结果识别相关性较高的因素。并且将运用于未来热门事件的预测上,找到广告投放的重点位置,根据这种模型,微博营销企业可以预测客户关注度的变化,在客户管理过程中处于主动地位。(若在时间宽裕的前提下,运用分类技术对此问题进行更深一层次的研究。)
而在各个因素对微博热度的影响时,研究的主要方法及技术路线有以下几点:
(1)文献分析法。主要是围绕研究问题,查阅国内外相关文献,对这些文献进行研究分析。通过对以往文献的回顾,归纳总结前人的研究成果和研究动态,分析其研究中的不足,找出研究思路和研究指标。
(2)专家访谈法。问题提出时,文献阅读中以及市场调研期间,通过聊天的形式与有关人员、专家或消费者就各个因素对微博热度的影响进行沟通,甚至数据收集后,进行数据分析时,征询相关人员的意见,对数据结果做出了合理的解释。
2 相关理论综述
在实际问题中,影响因变量y的自变量往往不止一个,如果p个自变量x1,x2,••••,xp与随机变量y之间存在着相关关系,通常就意着当x1,x2,••••,xp变量取定值后,y便有相应的值与之对应。假设随机变量y与相关变量x1,x2,••••,xp之间存在线性关系。
(2-1)
其中,随机变量y称为被解释变量(因变量),x1,x2,••••,xp称为解释变量(自变量),ξ为随机误差,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。β0,β1,β2,•••,βp未知参数,常称它们为回归系数。线性回归模型的“线性”是针对未知参数βi(i=0,1,2,•••,p)而言的。对于回归解释变量的线性是非本质的,因为解释变量是非线性时,通常可以通过变量的替换把它转化成线性的。
2.1 数学模型
如果(xi1,xi2,•••,xip;yi),i=1,2,•••,n是变量(x1,x2,••••,xp;y)的一组观测值,则线性回归模型可表示为
yi=β0+β1xi1+β2xi2+•••+βpxip+ξ,i=1,2,•••,n (2-2)
为了顾及模型参数的需要,古典线性回归模型通常应满足以下几个基本假设。
2.1.1 随机误差项具有零均值和等方差即
这个假定常称为高斯-马尔柯夫条件。
2.1.2 正态分布假定条件 (2-4)
由上述假定和多元正态分布的性质可知,随机变量y遵从n文正态分布。 多元线性回归在电信行业中的应用+文献综述(3):http://www.751com.cn/shuxue/lunwen_5611.html