第二单元 大数据概论与应用 一、大数据的历史背景 1.信息基础设施持续完善,包括网络带宽的持续增加、存储设备性价比不断提升,犹如高速公路之于物流,为大数据的存储和传播准备物质基础。
2.互联网领域的公司最早重视数据资产的价值,最早从大数据中淘金,并且引领大数据的发展趋势。
3.云计算为大数据的集中管理和分布式访问提供了必要的场所和分享的渠道。大数据是云计算的灵魂和必然的升级方向。
4.物联网与移动终端持续不断的产生大量数据,并且数据类型丰富,内容鲜活,是大数据重要的来源。

二、大数据的来源分类 
三、大数据有多大? 
四、数据爆炸 1.数据的大爆炸-政府

视频监控摄像头广泛应用于主要道路、热点地区、地铁和居民小区的安全监视。北京超市食品架前均要求装能清晰拍到走在架前的人的脸部。
一个8Mbps摄像头每小时产生3.6GB,很多城市的摄像头多达几十万个,一个月的数据量达到数百PB,若需保存3个月则存储量达EB量级。
国家税务总局每月收集全国数据4TB,己集中的结构化数据260TB
北京市政府部门数据库总量2011年,63PB,2012年95PB
2.数据的大爆炸-制造业
GE的每一引擎装20个传感器,在飞行过程中每隔一段时间通过卫星将传感器收集的引擎状态传给GE公司。每个引擎每飞行小时产生20TB,从伦敦到纽约每一飞行产生640TB级数据,GE每天收集PB级引擎数据。美国每月收集360万次飞行记录,监视机队25000个引擎。
3.数据的大爆炸-服务业
■ 公交一卡通每天4千万次,地铁一千万人次。北京市交通调度中心每天数据增量30GB,存储量20TB
■ 农夫山泉每天从销售其矿泉水的超市回传10张照片,每月3TB
■ 用户上网记录每秒83万条,对应年数据量3.6PB
■ 年均产生数据510TB(不含视频)累计产生数5PB
■ 农业银行每年产生结构化和非结构化数据分别突破100TB和1PB,已归档PB级数 据
■ 工商银行企业级数据仓库存储量已超过350TB,积累的数据4.5PB
■ 交通银行发每日约处理600G数据,存量数据超过70TB
■ 银联发卡量40亿张,每天近600亿次交易,每秒50万次记录,存储量350TB
4.数据的大爆炸-医疗
现在一个病人的CT影像往往多达两千幅,数据量己经到了几十个GB.
如今中国大城市的医院每天门诊上万人,全国每年门诊人数更是以数十亿计,住院人次己经达到两亿人次。按照医疗行业的相关规定,一个患者的数据通常需要保留50年以上。

5.数据的大爆炸-互联网

五、数据的特点 1.数据量增加
根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量 TB→FB→EB→ZB
2.数据结构日趋复杂
l 大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长
l 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴
l 大数据时代正在来临
3.数据增长快
据IDC预测,未来10年全球数据量将以40+%的速度增长,2020年全球数据量将达到35ZB (35,000,000PB),为2009年(0.8ZB)的44倍

来源:IDC数字宇宙研究报告
六、大数据的概念与构成 
七、大数据的特征(4V特征)
1.价值密度低(Value)
大数据有巨大的潜在价值,但同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本。
2.速度快(Velocity)
随着现代感测、互联网、计算机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征。
3.体量大(Volume)
从2013年至2020年,人类的数据规模将扩大50倍,每年产生的数据量将增长到44万亿GB,相当于美国国家图书馆数据量的数百万倍,且每18个月翻一番。
4.种类多(Variety)
大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;不仅有企业组织内部的业务数据,还有海量相关的外部数据。
八、大数据的应用 1.大数据的应用-宏观经济分析

第五名:河南省1月22日数据显示,经初步核算,2017年河南全省实现地区生产总值为44988.16亿元,比上年增长7.8%。
第六名:四川省1月19日,经国家统计局审定,2017年四川全省实现地区生产总值为36980.2亿元,按可比价格计算,比上年增长8.1%,增速比全国平均水平高1.2个百分点。
2.大数据的应用-制造业

3.大数据的应用-互联网网金融

4.大数据的应用-交通运输业

5.大数据的应用-医疗
医生需要了解病人病历以及典型病人治疗方式相关数据,以便对症治疗;
疾病预防中心需要了解疫情爆发、扩散的相关数据,以便做好疫情防御;
医院需要病床、药品及季节行流行病相关数据,以便统一部署医疗设施;

Asthmapolis公司,利用数据框架创造了一个GPS跟踪记录哮喘患者呼吸状况,并且信息能够移植到一个中央数据库,用于判断哮喘病在个人、团体及基于人口发展的趋势。
阿斯利康与WellPoint,进行真实世界的研究,以确定一些慢性疾病和常见疾病的最有效和最经济的治疗方法。阿斯利康将使用数据框架,连同自己的临床试验数据,引导R&D投资决策。

总结:利用大数据加强个体化医疗,提高临床决策支持,加强欺诈检测和分析由生活方式和行为引发的疾病这四方面来创造价值。
7.应用领域-公共安全

动态人脸识别系统
8.应用领域-医疗健康

11.应用领域-城市经济
游客变化

日常通勤
