大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘

1 对大数据的理解和认识

大数据(big data)一词经常被用以描述和指代信息爆炸时代产生的海量信息。研究大数据的意义在于发现和理解信息内容及信息与信息之间的联系。研究大数据首先要理清和了解大数据的特点及基本概念,进而理解和认识大数据。

1.1 大数据的特点“4V+4V”

从数据的表现形式看,业界普遍认为大数据具有如下的“4V”特点[1]

● volume(大量):数据体量巨大,从TB级别跃升到PB级别。

● variety(多样):数据类型繁多,如网络日志、视频、图片、地理位置信息等。

● velocity(高速):处理速度快,实时分析,这也是和传统的数据挖掘技术的本质上的不同。

● value(价值):价值密度低,蕴含有效价值高,合理利用低密度价值的数据并对其进行正确、准确的分析,将会带来巨大的商业和社会价值。

上述“4V”特点描述了大数据与以往部分抽样的小数据主要区别。然而,实践是大数据的最终价值体现的唯一途径。从实际应用和大数据处理的复杂性看,大数据还具有如下新的“4V”特点。

● variable(变化性):在不同的场景、不同的研究目标下数据的结构和意义可能会发生变化,因此,在实际研究中要考虑具体的上下文场景。

● veracity(真实性):获取真实、可靠的数据是保证分析结果准确、有效的前提。只有真实而准确的数据才能获取真正有意义的结果。

● volatility(波动性):由于数据本身含有噪音及分析流程的不规范性,导致采用不同的算法或不同分析过程与手段会得到不稳定的分析结果。

● visualization(可视化):在大数据环境下,通过数据可视化可以更加直观地阐释数据的意义,帮助理解数据,解释结果

1.2 对大数据的理解

国内外不同的专家和学者对大数据有不同的理解,中国科学院计算技术研究所李国杰院士认为:大数据就是海量数据复杂数据类型”[2]。维基百科对大数据的定义是:大数据是由于规模、复杂性、实时性而导致的使之无法在一定时间内用常规软件工具对其进行获取、存贮、搜索、分享、分析、可视化的数据集合Gartner咨询公司给出的定义是:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。而互联网数据中心将大数据定义为:为更经济地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术

结合上述大数据的“8V”特征,笔者认为大数据的核心和本质是应用、算法、数据和平台4个要素的有机结合。大数据是应用驱动的,大数据来源于实践,海量数据产生于实际应用中。

 

数据挖掘源于实践中的实际应用需求,用具体的应用数据作为驱动,以算法、工具和平台作为支撑,最终将发现的知识和信息用到实践中去,从而提供量化、合理、可行、能够产生巨大价值的信息。另外,挖掘大数据所蕴含的有用信息,需要设计和开发相应的数据挖掘和机器学习算法。算法的设计和开发要以具体的应用数据为驱动,同时也要在实际问题中得到应用和验证,而算法的实现与应用需要高效的处理平台。高效的处理平台需要有效地分析海量的数据及对多源数据进行集成, 同时有力支持数据挖掘算法以及数据可视化的执行,并对数据分析的流程进行规范。总而言之,这个应用、算法、数据和平台相结合的思想是对上述大数据的理解和认识的一个综合与凝练,体现了大数据的本质和核心。建立在此架构上的大数据挖掘,能够有效处理大数据的复杂特征,挖掘大数据的价值。

本文在此框架下,从应用的角度探讨了大数据时代的数据挖掘的机遇与挑战, 介绍了研究团队开发的大数据挖掘平台FIU-Miner以及成功应用该平台实现的高端制造业数据挖掘、空间数据挖掘和商务智能3个大型、复杂数据挖掘案例。

2 大数据时代的数据挖掘

2.1 数据挖掘

在大数据时代,数据的产生和收集是基础,数据挖掘是关键。数据挖掘是大数据中最关键也最有价值的工作。通常,数据挖掘或知识发现泛指从大量数据中挖掘出隐含的、先前未知但潜在的有用信息和模式的一个工程化和系统化的过程。数据挖据可以用以下4个特性概括[3]

1)应用性:数据挖掘是理论算法和应用实践的完美结合。数据挖掘源于实际生产生活中应用的需求,挖掘的数据来自于具体应用,同时通过数据挖掘发现的知识又要运用到实践中去,辅助实际决策。所以,数据挖掘来自于应用实践,同时也服务于应用实践。

2)工程性:数据挖掘是一个由多个步骤组成的工程化过程。数据挖掘的应用特性决定了数据挖掘不仅仅是算法分析和应用,而是一个包含数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证以及知识积累和使用的完整过程。而且在实际应用中,典型的数据挖掘过程还是一个交互和循环的过程。

3)集合性:数据挖掘是多种功能的集合。常用的数据挖掘功能包括数据探索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等。一个具体的应用案例往往涉及多个不同的功能。不同的功能通常有不同的理论和技术基础,而且每一个功能都有不同的算法支撑。

4)交叉性:数据挖掘是一个交叉学科,它利用了来自统计分析、模式识别、机器学习、人工智能、信息检索、数据库等诸多不同领域的研究成果和学术思想。同时,一些其他领域如随机算法、信息论、可视化、分布式计算和最优化也对数据挖掘的发展起到重要的作用。数据挖掘与这些相关领域的区别可以由前面提到的数据挖掘的3个特性来总结,最重要的是它更侧重于应用。

具体而言,实际应用的需求是数据挖掘领域很多方法提出和发展的根源。从最开始的顾客交易数据分析(market basket analysis)、多媒体数据挖掘(multimedia data mining)、隐私保护数据挖掘(privacy-preserving data mining)到文本数据挖掘(text mining Web 挖掘(Web mining),再到社交媒体挖掘(social media mining)都是由应用推动的。工程性和集合性决定了数据挖掘研究内容和方向的广泛性。其中,工程性使得整个研究过程里的不同步骤都属于数据挖掘的研究范畴。而集合性使得数据挖掘有多种不同的功能, 而如何将多种功能联系和结合起来,从一定程度上影响了数据挖掘研究方法的发展。比如,2 0 世纪9 0 年代中期,数据挖掘的研究主要集中在关联规则和时间序列模式的挖掘。到20世纪9 0年代末,研究人员开始研究基于关联规则和时间序列模式的分类算法(如classification based on association),将两种不同的数据挖掘功能有机地结合起来。21世纪初,一个研究的热点是半监督学习(semi-supervised learning)和半监督聚类(semi-supervised clustering),也是将分类和聚类这两种功能有机结合起来。近年来的一些其他研究方向如子空间聚类(subspace clustering)(特征抽取和聚类的结合)和图分类(graph classification (图挖掘和分类的结合)也是将多种功能联系和结合在一起。最后,交叉性导致了研究思路和方法设计的多样化。

2.2 从数据挖掘应用的角度看大数据

大数据是现象,核心是要挖掘数据的价值。结合数据挖掘的各种特性,尤其是其应用性,从应用业务的角度对大数据提出如下两点的认识[3]

首先,大数据是一把手工程。在一个企业里,大数据通常涉及多个业务部门,业务逻辑复杂。一方面,要对大数据进行收集和整合,需要业务部门的配合和沟通以及业务人员的大力参与,这些需要企业决策人员的重视和认可,提供必要的资源调配和支持。另一方面,要对数据挖掘的结果进行验证和运用,更离不开相关人员的决策。数据挖掘的结果大多是相关关系,而不是因果关系,这些结果还可能有不确定性。另外,有时候数据挖掘的结果与企业运作的常识不一致,甚至相悖。所以,如何看待这些可能的不确定性和反常识的分析结论,充分利用好数据挖掘结果,必然离不开决策者的远见卓识。

其次,大数据需要数据导入、整合和预处理。当面对来自不同数据源的大量复杂数据时,具体业务逻辑复杂与数据之间的关系琐碎直接导致企业的业务流程和数据流程很难理解。因此,企业在实施大数据时可能并不清楚要挖掘和发现什么,对数据挖掘到底能帮助企业做什么并没有直观和清楚的认识。所以,很多时候都不可能先把数据事先规划好和准备好,这样在具体的数据挖掘中,就需要在数据的导入、整合和预处理上有很大的灵活性,只有通过业务人员和数据挖掘工程师的配合,不断尝试,才能有效地将企业的业务需求与数据挖掘的功能联系起来。

2.3 大数据时代应用数据挖掘的挑战

大数据时代的来临使得数据的规模和复杂性都出现爆炸式的增长,促使不同应用领域的数据分析人员利用数据挖掘技术对数据进行分析。在应用领域中,如医疗保健、高端制造、金融等,一个典型的数据挖掘任务往往需要复杂的子任务配置,整合多种不同类型的挖掘算法以及在分布式计算环境中高效运行。因此,在大数据时代进行数据挖掘应用的一个当务之急是要开发和建立计算平台和工具,支持应用领域的数据分析人员能够有效地执行数据分析任务。

现有的数据挖掘工具(如Weka[4]SPSSSQL Server等)提供了友好的界面,方便用户进行分析。然而,这些工具并不适合进行大规模的数据分析。同时使用这些工具时,用户很难添加新的算法程序。流行的数据挖掘算法库(如Mahout[5]MLC++MILK)提供了大量的数据挖掘算法。但是,这些算法库需要有高级编程技能才能在一个具体的数据挖掘任务中进行任务配置和算法集成。最近出现的一些集成的数据挖掘产品(如Radoop[6]BC-PDM[7])通过提供友好的用户界面来快速配置数据挖掘任务。然而,这些产品是基于Hadoop框架的,对非Hadoop算法程序的支持非常有限。此外,这些产品并没有明确地解决在多用户和多任务情况下的资源分配问题。

为了解决现有工具和产品在大数据挖掘中的局限性,开发了一个新的平台——FIU-Minera fast, integrated, and user-friendly system for data mining in distributed environment[8]),是一个用户友好并支持在分布式环境中进行高效率计算和快速集成的数据挖掘系统,该平台支持数据分析人员快速、有效地进行数据挖掘任务。

 

深圳市数据智慧有限公司成立于2013年,致力于互联网+大数据服务软件创新,其公司产品------O2O品牌营销社交平台,是“大数据”行业领导品牌。

 

欢迎关注数据智慧科技,获取独家新闻。


服务客户