引用
Lakshen G A , Sanja Vraneš, Janev V . Big data and quality: A literature review[C]// Telecommunications Forum. IEEE, 2017.
摘要
大数据是指艾(10的18次方)字节及更高范围内的数据量。这个数量超过了当前在线存储和处理系统的容量。具有大量、高速和多样等特点的大数据给传统IT企业带来了挑战。计算机辅助创新、实时数据分析、以客户为中心的商业智能、行业决策和过程透明等可能成为大数据的优势。大数据也存在许多有待解决的问题,需要运用质量评估方法。这些问题涉及存储和传输,管理和处理。本文阐述了与大数据相关的质量问题的现状,提供了有价值的见解,可用于推动大数据科学发展。
关键词
大数据、质量评估、流处理、调查、大数据框架
1. 介绍
“大数据”这一术语最初是指传统数据库工具和方法无法(有效)处理的数据量1。它是一个应用于新一代软件、应用程序、系统、存储和体系结构的术语,旨在从非结构化数据中获取业务价值。大数据已成为不可或缺的研究领域,因为它有望为现实世界的企业带来巨大价值。本文介绍了一项与“大数据”挑战相关的研究,“质量”也是其中之一。
通过任何搜索引擎对“数据质量”这一术语进行简单的Web搜索,可以返回超过一千二百万页结果,这清楚地表明了数据质量及其问题的重要性。数据质量问题从传统的结构化数据管理关系数据库发展到大数据。这需要先进的工具、软件和系统来收集、存储、管理和分析数据集,并且都在维持数据内在价值的时间框架内完成。大数据描述了一种数据集变得太大而无法在可接受的时间范围内处理、管理、存储和检索的情形。
在文献中,没有统一的“大数据”定义,它在技术、工业、研究或学术视角中的定义都不同5。例如,“大数据”被定义为“数据质量始终满足知识工作者和最终客户期望”3,但也被定义为“适合其在运营,决策和计划中的预期用途的数据”4 。
大数据方面的数据质量维度等问题尚未得到充分探索和理解,并且可能与传统大小的数据集的质量维度有很大不同。本文主要涉及大数据质量方面的挑战以及大数据处理所需的功能。
2. 大数据相关的文献综述
2.1. 大数据的特征
大数据通常是结构化、半结构化和非结构化数据集,具有海量数据(太字节及以上),无法通过传统硬件、软件和数据库管理技术轻松收集、存储、操作、分析、管理和展示。
通常用其特征描述大数据。Laney 6是第一个提出三个维度的人,他用“3V”数据来描述增加大量数据所面临的挑战和机遇:容量(Volume),速度(Velocity)和多样性(Variety)。近年来还增加了额外的“V”数据。显然,定义大数据及其特征将是一项长期工作,但它不会对大数据处理产生负面影响。除了3V已被经常用于描述大数据外,真实性(Veracity)和价值(Value)已作为额外维度被用以描述数据完整性和质量,从而成为“5V”大数据7。表1给出了大数据“V”特征的简要说明。
Suthaharan 甚至认为前三个V(容量,速度和多样性)无法支持对大数据特征的分类的早期检测,并提出了3C:基数(Cardinality),连续性(Continuity)和复杂性(Complexity)。
2.2. 大数据的重要性
世界已经认识到大数据的重要性。2010年8月,巴拉克·奥巴马总统在“行政部门和机构负责人备忘录”中宣布要做“透明且开放的政府”,宣称“同医疗保健和国家安全一样,大数据是一个国家的挑战和重要事务”9。美国国家科学基金会、美国国家卫生研究院、美国地质调查局、国防和能源部以及国防高级研究计划局于2012年3月宣布了一项联合研发计划,该计划将投入2亿多美元用于开发新的大数据工具和技术。它的目标是加强“......对挖掘和处理大量信息所需技术的理解;将这些知识应用于其他科学领域,以及达到卫生、能源、国防、教育和研究领域的国家目标”10。经过对文献的调查,总结了图1所示的五种通用方法。
3. 数据质量相关的文献综述
由于数据质量的相关性以及数据类型和信息系统的多样性,数据质量的获取是一个复杂的、多学科交叉的研究领域14。
3.1. 主要议题
数据质量涉及多个研究主题和现实应用领域。表2展示了数据质量文献和欧盟研究项目中讨论的研究议题和应用领域。
讨论得最常见的研究问题是模型、技术、工具、框架和方法学,以及第3.2节简要描述的维度:
模型主要用于表示数据和数据模式的数据库,以及用于表示组织业务流程的信息系统11。
技术指的是有助于识别和解决数据质量相关问题的算法,启发式、基于知识的程序和学习过程。
方法学指导如何选择适当技术或工具,作为数据质量测量和改进过程的有效方法。
工具是一种设计好的自动化软件程序,并提供界面以评估数据质量活动。
框架由一组用于域或任务域的一致性工具组成。此外,近年来数据质量在不同的应用领域受到越来越多的关注:电子政务、生命科学、网络数据和医疗保健等。本文仅讨论网络数据背景下的数据质量。
3.2. 数据质量评估维度
数据质量维度是数据管理专业人员用来描述数据特征的术语,可以根据定义好的标准进行测量或评估,以确定数据质量12。它还用于描述数据质量的度量。关键数据质量维度尚未得到广泛认可13,但核心数据质量维度如下图所示。
维度定义如下:
完整性(Completeness:):存储数据与理论上的“100%完整”的比值
唯一性(Uniqueness:):根据识别方式确保不会记录任何东西两次以上。
及时性(Timeliness:):数据在所需时间点上代表现实的程度。
有效性(Validity:):如果数据合其定义的语法(格式,类型,范围),则数据有效。
准确度(Accuracy:):数据正确描述“真实世界”对象或事件的程度。
一致性(Consistency:):将一个事物的两个或多个表示与定义进行比较,应没有任何差异。
除了上述六个维度之外,还有其他因素(如数据的可用性,灵活性,机密性和价值计时问题)会对数据的有效使用产生影响[15,16]。
导致数据质量问题的原因有以下几种:缺乏验证例程17,数据有效但不正确18,语法、格式和结构不匹配19,源系统发生意外更改,混乱的接口,缺乏引用完整性检查,系统设计较差以及数据转换错误。根据TDWI的数据质量调查20,40%的被调查公司因质量数据不佳而蒙受损失、遇到问题或抬高成本,43%的公司尚未研究该问题。286名受访者报告,质量不佳的数据导致的最常见问题是:“需要额外的时间来协调数据” 87%,“系统或应用程序中的信誉损失” 81%,“额外成本” 72%,“客户不满意” 67%,以及延迟部署新系统 64%。
另一方面,投资于改进数据质量管理的公司获得了有形和无形的收益,通常与上述问题正好相反1。高质量数据带来的好处如:“得到唯一的真相” 19%,“提高客户满意度”和“增强对分析系统的信心” 17%。
对600家公司高层管理人员的调查发现,约60%的公司削减了加工成本,超过40%的公司通过更好地分析客户数据提高了销售额,超过30%的公司通过更好地分析数据赢得了一份重要的合同。根据2001年普华永道全球数据管理调查,将数据作为战略资源进行管理并投资于数据质量的公司,已经在声誉和盈利能力方面从其他没有这样做的公司中脱颖而出。
4. 数据质量方面的挑战
企业使用大数据通常面临着许多挑战,如异质性和不完整性、数据源的多样性、巨大的数据量、较短的数据时间线、未存在被认证的数据质量标准、缺少成熟架构、错误处理、隐私、及时性、来源和可视化。这些技术挑战在各种各样的应用程序领域中都很常见,因此仅适于一个领域的解决方案并不符合成本效益。目前尚缺乏对大数据质量标准和质量评价方法的综合分析研究2。
根据对欧盟研究项目中详细阐述的案例研究的分析(见表2),可以选择一些示例场景,如影响欧洲几个州的自然灾害(S1)、着陆阶段导致跑道关闭的飞机事故(S2) 、以及欧洲成员国公共部门管理中的数据/文件/信息交换,例如健康信息交换(S3),将其与建立大数据应用所需的质量评估挑战和功能联系起来(见表3)。
5. 大数据框架分析
有许多不同的大数据框架可供使用,也已用于现有的大数据应用程序,因此本文将专注于最流行的流媒体解决方案。选择五个框架进行分析,其摘要列于表4(来源:P. Zapletal, Comparison of Apache Stream Processing Frameworks,www.cakesolutions.net)。
流应用程序和流处理器非常多样化。有两种主要的运行时设计,基于数据流(Storm,Samza,Flink,Apex)和基于Micro-batch(Spark)。
Storm是实时分析、分布式数据流抽象(具有底层控制、时间窗口和最近引入的状态)的先驱,而Spark在批处理运行时具有统一的批处理和流处理,与批处理程序很好地集成,但最近落后了。Flink是开源流创新的领导者,是基于数据流引擎的统一批处理和流处理,具有高灵活性、强大的状态和窗口计算能力。Samza严重依赖Kafka的基于日志的理念,并且具有插件式组件,但与Kafka一起运行最佳,而且时间窗口是原生的。随着使用新流媒体引擎的Spark 2.0的到来,流媒体技术得到迅速发展。最后,Apex是一个本机流媒体引擎,本身在YARN上构建,并具有高级分区支持和局部优化特性。
Facebook、Twitter和LinkedIn等社交平台是人际交往服务的云服务提供商。开发这些平台可以使用SQL,NoSQL,Cache Augmented SQL,图形数据库以及更多工具。每个平台都有自己的表示风格,如表格式;而其他平台使用不同的方法,这使得每个平台有不同的特点。比较这些平台及其特点需要使用BG等基准测试。
BG是一个基准测试(参见http://bgbenchmark.org/BG/),用于评估基于数据存储的交互式社交网络的行为和会话的性能,包括读取或更新整个数据集中的少量数据。BG可用于计算基于数据存储的社交行为评级(SoAR)或社交名称评级。评级是对系统执行的并发操作的数量的度量。
6. 总结
本文对大数据的创新主题进行了回顾,这些主题最近引起了很多关注和兴趣。当今大数据技术存在许多问题,本文从质量和存储两个方面对大数据技术的需求进行了研究。本文还介绍了处理大数据的最新工具和技术,它们使数据处理更加高效,更有意义。
但是,必须首先解决本文中描述的许多技术挑战,然后才能充分展现这一潜力。在从数据采集到结果解释的分析过程的所有阶段中,挑战不仅包括显而易见的规模问题,还包括异质性、缺乏成熟架构、错误处理、私密性、及时性、来源和可视化。下一代工业产品不会自动解决这些问题,因此需要变革性解决方案。为了实现人们心中的那个大数据理想,应多支持和鼓励应对现有技术挑战的基础研究。