大数据

1大数据是什么
2大数据的来源

3大数据处理流程
4大数据的特征

5大数据的关键技术
6大数据市场规模

大数据是什么

麦肯锡公司给出的定义是：依据数据集的容量大小和数据库工具的能力区分，大小以正常量为界，无特定数据存储量的限制；数据库工具从数据搜集、存储、管理和分析四方面衡量。

国际数据公司给出的定义是：依据其特征区别，拥有海量的数据规模(Volume)、运作动态、快速的数据流转体系(Velocity)、具有处理多类的数据类型(Variety)的能力、能够挖掘庞大的数据价值(Value)，也就是所谓的大数据的“4V”特征，但随着研究和应用的扩大，提出了大数据的第五个特征在线性(Online)。维基百科的给出的定义是：以数据规模和数据处理效率作为区分，数据规模量以大且人工量为衡量，数据处理效率以数据获取、处理、管理、分析的时间和效果价值度量。Gartner的研究中，对“大数据”(Big data)，对其界定如下：应当依靠新的处理方法，来对海量数据进行处理，以提升决策分析能力的信息资产。维克托·迈尔-舍恩伯格等人的研究中，对此进行了下述定义，即：“针对所有数据进行处理，能够实现对数据价值的充分挖掘，进而获得所需价值信息。^[1]”

概括起来，大数据就是数据在改造可能一切的一种过程的标签，是一种社会经济现象，与在一些问题领域出现的分析大量数据的技术能力以及由此产生的变革效应相关联。

大数据的来源

大数据的海量数据来自三个方面：第一，由人直接产生，如内容提供商、新闻报道、实时评论、广告宣传、用户社交网络中的数据等；第二，由数据的存储、处理过程中产生，如原始数据自动加工过程中，对数据进行压缩、聚类、规则适用、可视化处理、智能衍生等；第三，由物理世界的信息大量数字化产生，如感知数据、传感节点采集的数据、视频监控、无线宽频信号采样等

大数据处理流程

最早开始对大数据技术进行应用探索的是2005年雅虎公司的Hadoop项目。该项目起初构想是管理网页搜索，经过ASF软件基金会引入开发成为开源应用。

经过长期研究和实践总结，大数据处理流程基本分为五个主要环节，包括数据导入、数据存储与管理、运算处理、数据挖掘和数据可视化。

(1)数据导入阶段，是对结构化和非结构化数据源的初步处理，目的在于规范数据格式、统一存储要求并保留数据的真实原有含义。该过程包括数据的抽取、变换、下载、清洗和整理，为高效率数据处理提供基础准备。

(2)数据存储与管理阶段，是实现数据分类、容错、使用和调整的重要阶段。大数据不仅将数据的定义扩大，同时将数据的容量和增速加大，这就要求存储和管理技术能够满足量与质的标准，提高数据运用的扩展。

(3)数据运算处理阶段，是数据存储和管理的延续，在大数据分布式并行计算中实现统一。该阶段依据数据类别和业务要求，选择有效计算处理模型，完成存储、执行和抽取的综合流程，实现高效数据运算。

(4)数据挖掘分析阶段，是基于业务目标的数据过程化操作到规律化分析的步骤。作为数据价值实现的关键环节，大数据挖掘分析不同于传统统计计量理论的结构化样本数据、主观建立的经验模型、模型的计量政策检验等特征，数据囊括非结构化数集，模型以人工智能和机器分析系统为主，实现对语音、图片等半结构和非结构数据的广度识别和深度分析，得到主体情感、性格等隐性知识和行为特征。

(5)数据可视化阶段，是对于目标的结果性内容体现，是数据处理结果和用户认可的衔接部分。基于用户的管理方案和决策层的经营策略，提高大数据分析结果的被理解能力是该阶段的主要任务。可视化的重要性不仅在商业决策经济活动中凸显，而且在日常生活的移动数据服务中体现商业营销的价值^[2]。

大数据的特征

数据量大、数据种类多、数据价值密度低、数据处理速度快以及数据反馈效率高是大数据的主要特征。

(1)数据量大(Volume)。

计算机的初步发展阶段，容量单位为“B”，到后来的KB，而短短数十载，今天的大数据存储容量的起始计量单位至少PB。而现在一般都已经上E(100万个T)或Z(10亿个T)。大数据时代不仅将互联网时代的数据指数级增加，同时也把自身融入进了社会各式各样的行业领域之中，特别是电子商务行业与移动通信业。

(2)数据类型繁多(Variety)。

大数据时代这个结构与非结构数据信息的时代，不仅出现的数据量之大，而且数据类型之多，像doc(文件)、jpg(图片)、txt(文本)等等。随着科技的发展，现在还会出现一些专用数据格式，包括地理位置信息、加密数据、卫星通讯、物联网等等。系统对数据是有一定要求，像数据的包容性等等，不同的数据需要转化，才能使系统对其识别，数据的多类型必然对硬件运算能力提出更高的要求，同时对软件运算能力(对数据的处理能力)提出更高的要求。

(3)数据价值密度(Value)相对较低。

大数据时代数据量增速之快，使数据量之大，然而真实有价值的数据却隐藏在表面之下，特别像现在实现物联网，通过网络将物物相连、数据共享，信息感知无处不在，信息海量，但价值密度较低。通过强大的机器算法和强大的硬件，大数据时代亟待解决“识别数据，提取有真实价值数据”这一难题。

(4)处理速度快(quickly)。

传统的计算机无法处理如此庞大、多样、不规则的数据，在云存储的基础上，通过云计算，结合新的算法对信息存储、分享、挖掘以及关联运用，可以将其庞大数据高度分辨出来，筛选出有价值数据，并存储下来，为下步运算服务，这是大数据区分于传统数据挖掘最显著的特征。

(5)反馈时效高(Velocity)。

在如此之大的数据之下，技术架构和路线，哪怕十分完善，也无法高效处理这海量数据。数据的高实效反馈有助于为企业的发展提供及时的帮助，为企业发展制定方向^[3]。

大数据的关键技术

大数据是指海量的数据，这些数据具有不同的表示形式和来源，如商业交易系统、移动应用程序、网站、客户数据库、机器生成的数据和物联网环境中使用的传感器生成的实时数据等，大量的数据通过可横向扩展的软件进行处理。大数据市场的增长率比全球信息技术市场的增长率高三倍以上，每年约为5%。大数据技术被广泛应用。它被用于搜索引擎、运输和物流、数据存储、视频和图片分析、电信、网络和社交媒体、医药和医疗保健、科学和研究以及社会生活等。

(1)数据采集与预处理

数据采集和预处理阶段吸收从各种来源大量生成的原始数据。这些原始数据是分散的，操作和维护也比较困难，并且可能会因异常而混乱，包括损坏的值、格式不良和不适合由大数据应用程序使用。将分散的数据整合在一起并写入数据仓库，便是数据采集的过程。此类数据需要过滤和清理、重新格式化和结构化、删除重复数据、移除非法值和数据压缩，这些预处理步骤对于将数据转换到适合或有价值的分析水平至关重要。

①FlumeNG作为一种实时的日志收集系统，能够自定义数据发送者，以此来进行数据收集，并对数据进行粗略处理和写入接收器。

②NDC，即网易数据运河系统，是一种平台解决方案，用于实时数据迁移，同步和预订结构化数据库。

③Chukwa:是一种构建在HDFS和MapReduce之上的数据收集机制，用于监控大型分布式集群；能够对大规模的日志进行记录和分析，它用一个灵活且强大的工具箱来显示、监控和分析收集到的数据并给出结果。

④SQOOP:一个旨在Hadoop和结构化数据库之间高效传输大量数据的工具。以Strom，SparkStreaming为代表的流计算工具，能够实时的清洗，聚合并分析不止一个的高吞吐量的数据源，而且能够及时的处理和反馈数据流。

(2)数据存储

①HDFS是Hadoop的重要组件之一，是完全面向文件的系统，用于存储底层文件。它具有许多副本，可以轻松获取数据并快速返回。将数据存储在HDFS中取决于其文件系统和一个称为Hbase的非关系数据库。它能够支持查询分析、交互式分析、迭代计算、键值存储、详细列表查询等应用场景，HDFS的性能可以影响到它往上的所有大数据系统以及应用。

②Hbase是一个完全非关系的、开源的、基于Hadoop的分布式数据库。它是面向列的键/值对数据库，其解决了HDFS在随机读写中存在的劣势，可用于低延迟执行。它可以提高表的更新速率，也可以支持水平分布的集群。Hbase表被称为Hstore。Hbase拥有许多的特性，例如实时查询，自然语言搜索，线性，模块化，自动和可配置的表共享访问。

③Redis：一种很迅速的非关系数据库，能够将键值对持久化，通过复制可提高读性能，用客户端分片可提高写入性能。当存储数据，相关的数据表可达数千列甚至更多，还包含多种繁琐的查询时。可考虑用列存储方法对数据进行压缩。如ORC便能够很好的进行压缩，大大缩减占据的磁盘空间。

(3)数据清洗

①MapReduce已经成为处理大规模数据的无处不在的工具，它是一个分布式并行计算软件框架，位于数据分析开发堆栈的核心。MapReduce的优势之一是能够在数以千计的商用服务器上横向扩展到大量数据，其拥有易于理解的编程语义，以及高容错率。MapReduce它可以拆分大文件然后将其发布到多个节点，以进行并行式处理，结束之后再对其归纳。当相关业务的数据量越来越多，需清理和调整的数据也更加复杂时，则需用Azkaban或Oozie等任务调动器进行更换和看管重要工作。

②Sloth是一种用于流计算任务的处理平台，它易于使用，实时且可靠，可节省用户在开发，运营和维护上的投资成本，满足各种产品对流计算需求越来越大的现状。

(4)数据查询分析

数据分析阶段是对海量数据的价值进行提炼的关键。数据分析阶段为收集的数据注入相关性和意义。这是一个复杂的进化过程，通过比较数据特征来进行模式识别，并根据领域知识或经验进行修正。分析结果旨在帮助用户了解当前状态，做出预测和明智的决策。

①Hive：数据仓库的基础架构，可提供数据汇总，适用于长期批查询和基于HDFS的大型数据集分析。可用Hive执行数据改动操作，Hive处理过的数据集用Impala对其执行快捷的数据分析。

②Hadoop和Spark是目前国内外在大数据的相关数据分析处理中，最具有代表性的分布式并行计算框架，主要用于数据存储以及并行计算。Spark具有与HadoopMapReduce相同的功能。它可不读取HDFS，因为其在内存中存储了中间Job的输出。Spark不仅可进行交互式查询，也能够改进迭代工作的负载。

(5)数据可视化

在大数据的可视化中，它主要用到了四项技术：数据简化，以及任务、管道、数据三者的并行化。Microsoft在Azure上的可视化平台以有向无环图和数据流图的形式向用户提供大数据分析任务，并取得了良好的效果。Alibaba的“御膳房”是国内的数据可视化平台的代表之一。目前由于内存技术的局限性，使大数据可视化工具还面临着许多技术困难，如尚不完善的可扩展性、功能性和响应时间等^[4]。

大数据市场规模

2018年以来，大数据技术的快速发展，以及大数据与人工智能、VR、5G、区块链、边缘智能等—批新技术的交汇融合，持续加速技术创新。与此同时，伴随新型智慧城市和数字城市建设热潮，各地与大数据和数字经济相关的园区加速落地，大数据产业持续增长。赛迪顾问统计显示，2020年中国大数据产业规模达6388亿元，同比增长18.6%，预计未来三年增速保持15%以上，到2023年产业规模将超过10000亿元。

从具体行业应用来看，互联网、政府、金融和电信引领大数据融合产业发展，合计规模占比为77.6%。互联网、金融和电信三个行业由于信息化水平高，研发力量雄厚，在业务数字化转型方面处于领先地位；政府大数据成为近年来政府信息化建设的关键环节，与政府数据整合与开放共享、民生服务、社会治理、市场监管相关的应用需求持续火热。此外，工业大数据和健康医疗大数据作为新兴领域，数据量大、产业链延展性高，未来市场增长潜力大^[5]。