发端于上世纪90年代的大数据,如今已润物细无声般融入大众生活,成为互联网应用的核心技术之一,其重要性不言而喻。
在2019阿里云峰会·上海,阿里云智能总裁张建锋在诠释全面上云趋势时,提到了旗下“四张王牌”——飞天云操作系统、飞天大数据平台、阿里巴巴双中台和智联网AIoT。
其中,飞天大数据平台是构筑于计算、存储、网络等基础设施之上,为企业和机构实现提供数字化和智能化的能力,举个例子,在城市交通中,基于大数据和人工智能控制红绿灯,可以有效缓解拥堵指数;使用大数据技术可以改造传统制业造流程,实现良品率的提升。
据介绍,飞天大数据平台已经成为国内规模最大的计算平台,可扩展至10万台计算集群,单日数据处理量超过600PB。
早年大数据的阿克琉斯之踵
如果说数据是新时代的“石油”,那么大数据就是集石油开采以及石油加工于一身的集合,这也是当今最高精尖的技术之一。
但在AIoT时代,数据的开采和加工能力远远跟不上数据增长的速度。知名研究机构Gartner曾预测,到2025年,将有416亿台物联网设备,并将产生79.4ZB(1ZB相当于1万亿GB)的数据。
要分析处理如此大规模的数据,背后需要强大的计算平台支撑,诸如Google、AWS、微软等硅谷巨头都纷纷投入大数据技术的研发,但掌握核心技术者寡,开源的Hadoop也因此成为大数据时代的宠儿,直至今日,全球绝大多数企业都在基于开源Hadoop来搭建大数据平台。
虽然这是企业获取大数据能力最快的途径,但这种方式存在天然的性能缺陷,面对大规模数据时,性能捉襟见肘,这也被认为是Hadoop平台的阿克琉斯之踵。据介绍,开源大数据平台的集群规模很难突破1万台服务器(相当于将1万台服务器连成一台计算机)。
早在十年前,以双11为代表的大规模流量场景已经触碰到了Hadoop的天花板;未来,AIoT引领的万物智联时代,企业自然需要性能更强的大数据平台。
场景驱动,阿里云攻克大数据计算瓶颈
客观来讲,云计算、大数据、人工智能等前沿技术都属于应用驱动的技术,这也是阿里巴巴能够在大数据领域走向世界顶级阵营的主要原因。
早在十年前,阿里巴巴就比其它公司更早地遇到互联网规模化带来的挑战,当时淘宝用户量急剧速度,几乎达到底层计算平台的极限,构建更强大的大数据平台迫在眉睫。
在开源和自研之间,阿里选择了后者,开启了国内首个大数据平台(飞天大数据平台)的研发,并且统一阿里巴巴内部的数据和大数据计算体系。时任阿里云总裁王坚曾表示,“从战略上来说,阿里云想做的事情实际上可以解读为Amazon+Google并有所超越。”这足以证明阿里云投入大数据技术的决心可见一斑。
经过阿里巴巴集团内部多年实践,该大数据平台已经攻克了多个技术难题:例如,可以将不同的数据源用类似的方式存储,用统一的方法计算,提供一套标准化语言,快速实现不同类型数据的计算;用“交互式查询”来解决海量数据查询慢的瓶颈,系统可以预判用户将会做哪些查询,提前准备,大大降低大规模数据查询的时间。
与此同时,也创造了多项世界记录:2013年8月15日,阿里云历史性地突破了同一个集群内5000台服务器同时计算的局限;2015、2016年,阿里云刷新世界计算奥运会SortBenchmark的六项世界纪录;2017年,完成全球首次基于公共云的100TB BigBench大数据基准测试。
目前,飞天大数据平台可以承载EB级别的数据存储能力以及百PB的单日数据处理量,支撑了阿里巴巴集团内部99%的数据存储以及95%的计算能力,是当前国内规模最大的计算平台。张建锋举了个例子,淘宝、天猫有1千多万家店铺,每天有3亿人访问,很少有企业能实现如此大规模的实时计算,这是阿里巴巴这么多年做飞天大数据平台积累的成果。
数据显示,在超小型10TB规模的指标上,飞天大数据平台性能已是开源产品的3倍以上。
始于阿里,普惠各行各业
随着大数据深入各行各业,如何加工利用数据、释放数据价值,实现企业的数字化转型,是各行业企业的核心问题。
企业构建自有大数据体系通常面临着诸多难题,例如技术栈臃肿导致上手门槛高、系统维护成本高等问题,且数据质量难以保证。
过去几年,飞天大数据平台的技术效应不断向外溢出,已广泛服务于电商、工业、医疗、农业、气象、教育等诸多行业企业,帮助数万企业用更低成本、更高效率计算海量数据,为社会和消费者提供服务。
在交通领域,城市大脑在杭州实时指挥1300个红绿灯路口、200多名交警。从2016年到2018年,杭州从全国最拥堵城市排行榜上下跌52名。
在工业领域,阿里云的大数据处理技术帮助制造企业寻找上千个参数的最优搭配,提升制造的良品率。协鑫光伏、天合光能等行业龙头企业,都在尝试这一全新的生产模式。在政务领域,浙江最多跑一次通过大数据处理平台打通政务数据,将与老百姓办事最密切相关的100个事项70多亿条数据,按照统一标准汇入统一的数据仓,实现共通共享共用。老百姓办事不仅能最多跑一次,甚至有可能一次都不跑。在海外,飞天大数据平台也已进入新加坡、欧洲等市场,大规模算力已服务全球消费者。