基于海量数据的数据分
析方案设计
集团标准化小组:[VVOPPT-JOPP28-JPPTL98-LOPPNN]
基于海量数据的数据分析方案设计
dataanalysisprogramdesignbasedonmassdata
摘要:随着互联网,移动互联网和物联网的发展,谁也无法否认,我们来到了一个海量数据的时代。随着数据积累的越来越多,现在许多行业大多面临基于海量数据的分析问题,该文从基于海量数据挖掘的分析方法出发,利用河南省2005到2009年交通事故的数据,设计了一个数据分析方案。
关键词:海量数据,数据挖掘,回归模型,方案
Abstract:withthedevelopmentofInternet,mobileInternetanddevelopmentofInternetofthings,nobodycandenythatwecometoamassivedataera.Asdataaccumulatemoreandmore,manyindustriesarefacingproblemsbasedonlargeamountsofdataanalysis.ThispaperibasedontheanalysisofmassdataminingmethodofHenanprovincefrom2005to2009,usingthedataoftrafficaccidents,designesadataanalysisprogram. Keywords:massdata,datamining,regressionmodel,scheme
一、引言
随着信息技术的发展,人们积累的数据越来越多。事实上,数据本身是没有意义的,只有用以进行分析处理才真正起到作用。因此,可以说激增的数据背后更重要的是隐含的信息,人们希望能够对这些数据进行更高层次的分析,以便更好地利用这些数据。
海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。 在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:数据量过大,数据中什么情况都可能存在;软硬件要求高,系统资源占用过高;要求很高的处理方法和技巧。
基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取出隐含在其中的、可信、新颖、人们事先不知道的、但又是潜在有用的模式的高级处理过程。数据挖掘是由统计学、人工智能、数据库、可视化技术等多个领域相融合而
形成的一个交叉学科。除了进行关系和规则的描述之外,数据挖掘的一个很重要的任务是分析。根据在过去和现在的数据中寻找到的规律建模,这样的模式有时候也可以认为是以时间为关键属性的关联知识。
一个数据挖掘系统可以自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是数据挖掘在交通事故中的应用,交通事故数据挖掘应用分析的主要作用有:可以分析出影响交通安全的诸因素及其影响的轻重程度,预测交通事故的发展趋势;发现和识别事故高发区域、交叉口和路段;可以分析交通事故成因、特征、规律及交通安全工作中的薄弱环节,明确交通安全管理工作的重点和对策等。
一般情况下,分析的基本数据是时间序列数据,也就是按照时间先后存放在数据库中的数据。时间序列预测法可用于短期、中期和长期预测。根据对资料分析方法的不同,又可分为:简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、、指数平滑法、季节性趋势预测法、市场寿命周期预测法等。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化,因此,仅仅通过对某段历史数据的训练,建立单一的神经网络模型,还无法完成准确的建模任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。也可以根据问题规模的不同采用并行算法的计算优势进行分析。
二数据挖掘分析的过程
(一)问题定义
一个行业或者机构面临的数据挖掘需求总是多种多样的,在问题形成之前甚至需要多次研究问题本身,再由问题提炼出模型。这样,一个数据挖掘的使用者最先也是最重要的就是熟悉背景知识,弄清需求,要想充分发挥数据挖掘的价值,必须对目标要有一个清晰明确的定义,即决定到底想干什么。 (二)获取数据资源,建立数据挖掘库
要进行数据挖掘必须收集到要挖掘的数据资源。更多情况下,这些数据资源分布在不同的数据源里,因为大部分情况下需要预处理,修改这些数据,而且常会遇到采用外部数据的情况,所以应该尽量将其收集到一个数据库或者数据仓库中。 (三)分析和调整数据
分析数据就是数据深入研究其规律的过程,从数据集中找出规律和趋势,可以采用聚类分类关联规则发现等具体的分析技术,最终要达到的目的就是搞清楚多因素相互影响的复杂关系,最后发现因素之间的相关性。调整数据是基于以上数据分析的过程和结论,在对数据状态和趋势有了进一步了解的基础上进行数据调整,这时对问题要进一步明确化、量化,针对问题的需求对数据进行增删,按照对整个数据挖掘过程的新认识组合或生成一个新的变量,以体现对状态的准确描述。 (四)模型化
这是数据挖掘的核心环节,在经过以上步骤的处理和分析后,问题进一步明确数据结构和内容进一步根据需求进行了调整,就可以建立数据挖掘模型。在预测过程中,一般是用神经网络、决策树、数理统计、时间序列分析等方法来建立模型。
三、数据模型的建立和分析
(一)收集数据
在全国道路交通事故情况中选取2005--2009年河南省交通事故情况进行分析;
其中X1为事故起数,X2为死伤人数,X3为受伤人数,Y为直接财产损失。
(二)分析方法简介
回归分析是实际工作中应用最广泛的统计方法之一,概括的讲,回归分析是描述两个或两个以上变量间关系的一种统计方法。在实际工作中回归分析的应用范围很广,回归分析可以求出自变量与因变量之间的经验公式,所以,只要需要定量分析多变量之间相关关系时都是必不可少的。尤其在现在流行的数据挖掘技术中,回归分析也是必不可少的。通过对已知训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。 (三)分析
从图二可以看出,直接财产损失和事故起数、死亡及受伤人数都有关系; 图2直接财产损失与事故起数、死亡人数和受伤人数的相关折线图 (一)简单相关分析
从简单相关系数(表二)可以看出,在不考虑相互影响的情况下,河南省交通事故直接
财产损失与全年交通事故总数、死亡人数和受伤人数均成正向高度相关,这说明上述三个因素都是直接财产损失的重要因素,其重要次序依次为事故起数,死亡人数和受伤人数。
表1交通事故直接损失与影响因素之间的简单相关系数
因变量Y与自变量X1,X2,X3是直接的关系,因此,在进行多元线性回归的时候将X1,X2,X3直接纳入模型。 (二)回归分析
表2:变量进入情况
1,输入/移去的变量 模型 1 输入的变量 移去的变量 方法 输入 受伤人数,死亡人数,事故. 起数a a.已输入所有请求的变量。 表3:模型拟合度检验
2,模型汇总b 模型 1 R .990a R方 .980 调整R方 .921 标准估计的误差 7733796.958 a.预测变量:(常量),受伤人数,死亡人数,事故起数。 b.因变量:直接财产损失 表二所示的是对模型拟合度的检验结果。对于多元线性回归模型,一般应采用其调整的决定系数来判断,在本例中,其值为0.921,说明其拟合程度是可以接受的。
表4:方差分析表
Anovab 模型 1
回归 残差 总计
平方和 df 均方 F Sig. .178a
2.970E15 3 5.981E13 1 3.029E15 4
9.898E14 16.549 5.981E13
a.预测变量:(常量),受伤人数,死亡人数,事故起数。 b.因变量:直接财产损失
表三所示是模型检验结果,这是一个标准的方差分析表,回归模型的Sig.值为0.178,说明该模型有显着的统计意义。 3,建立模型
表5:回归分析结果
由未标准化的回归系数可知,拟合结果为Y=9348.558X1--14099.449X2--2888.165X3,
四、结论
数据挖掘经常会在行业中得到应用,主要是根据历史情况进行建模,统计一直是分析的一个基本工具。在海量数据的前提下可以直接应用在数据挖掘的过程中,讨论了数据挖掘预测中的处理模式设计,然后就交通安全事故的相关分析进行了讨论,就模型的选择、评价和应用都进行了深入的讨论。面对日益严峻的道路交通安全形势,交通管理部门应该越来越重视对交通事故数据的收集和分析工作。在分析道路交通事故现状的基础上,应用数据挖掘技术,可以更为完善的处理复杂、稀疏、多维、不全的数据,从而做出更为科学的决策。因而,应用数据挖掘技术分析预防道路交通事故,对于保障人们的人身安全,减少国家的经济损失有着积极作用。相信数据挖掘技术在海量数据预测中的应用会为道路交通事故分析预防工作提出新的思维方式。 参考文献:
【1】 王一夫,陈松桥,陈安的海量数据预测模型设计及案例分析【z】, 【2】 吴昊,李军国的基于关联规则理论的道路交通事故数据挖掘模型【D】,百度
文库。
【3】 杨进倩,孔令人,夏毓荣的数据挖掘技术在道路交通事故分析和预防中的作用
【D】,。
【4】 赵卫亚,彭寿康,朱晋的计量经济学书【M】。机械工业出版社,2009. 【5】 数据挖掘技术综述【Z】,。 【6】 中国历年交通事故死亡人数官方统计【Z】,l
因篇幅问题不能全部显示,请点此查看更多更全内容