说说敏捷大数据
为什么提出敏捷大数据,先来看看大数据应用的终极目标,我以前的文章有讲到,大数据分析的成功普及将是传统信息化的终点,换句话说信息化走向智能化之后,整个高科技相关的产业链(包括传统产业)会产生质的变化。大数据应用的终极目标是:面向过去,发现数据规律-通过描述性分析,归纳已知;面向未来,预测数据趋势-通过深度挖掘分析,预测未知;最终通过大数据分析提高对事物的理解和处理能力,进而实现真正的智能!不管是商业智能,机器智能,还是智能客服,智能问答,智能推荐,智慧医疗、智慧交通等等相关核心系统,本质都是朝着这一目标在演进。要实现这一目标,虽然还需要一定时间,但不会太久,我们从IT产业发展历史可以看到,PC时代-互联网-移动互联网-物联网-云计算-大数据-深度学习-机器智能-奇点到来,时间跨度递减,热点周期递减,IT前沿产业发展实则是一个加速收敛的过程,现在正处于机器智能诞生的前夜。那么大数据会不会像某些领域炒作一样雷声大雨点小?实际上前些年我们说云计算云里雾里一样,现在还能说云计算是在云里雾里吗?任何新兴事物发展都有个过程。那么大数据应用要落地,个人认为目前主要有面临几个方面的瓶颈:(1)IT向DT(Data Technology)技术泛型的转变,将会是硬件和软件技术架构的根本性改变,量子计算机、纳米机器人、深度神经网络芯片、分布式系统、GPU大规模计算等等都是对传统IT技术架构的颠覆,现阶段各种大数据分析相关的开源技术和系统百花齐放,大数据技术生态体系庞杂,技术门槛较高也间接说明了这一点。研究、研发人员要跟上这一波技术变革还需要时间去消化和积累,特别是研究界和工业界的结合,对大数据应用来讲至关重要,因为真正对大数据架构、技术、算法、业务都懂的复合型人才可以说是凤毛麟角。(2)传统商业智能BI应用的失败教训太多,项目周期漫长,考验客户耐性,应用成本高,昂贵的豪华报表,数据分析用户参与度低,难达预期目标,存储能力、扩展能力、并发能力弱等问题无法从根本解决,我们仍没有从BI实施中总结失败教训和获得成功经验,大数据应用与传统BI系统是融合还是代替?如SAP,Oracle等传统BI厂商在扩展自身产品大数据处理能力的同时,如何与发源于互联网巨头的主流大数据技术架构有机统一?如此种种还有很多问题需要解决。(3)大数据应用的标准化和产品化问题。数据的动态性、时效性、多样性怎么标准化的管理,离线分析、在线分析、实时分析、内存分析计算框架的融合,图像、文本、视频、音频、网页、关系数据库等多模态数据挖掘的统一,数据分析应用效果如何量化与评价。(4)数据科学还是数据工程,机器学习技术如何走出实验室,工业企业界包括政府管理机构如何引入研究智力,数据分析如何转化和价值变现?科学研究人员和企业工程人员都得想想大数据思维,思考怎么有效对接,深度学习四大金刚从名校转入名企成为领路人,说明数据科学走向数据工程是可行的,当然这样的企业本身具有强大的实力,能引领业界发展…。
针对上述大数据应用的瓶颈分析,大概就知道我为什么提敏捷大数据了,大数据分析要落地,敏捷应用势在必行,为什么这样讲,我们再来看看大数据应用过程和特点,大数据分析,要完成的是一种将各方面源数据(围绕一个行业或者某个分析主题)通过ETL组织成为主题数据,从主题数据中提炼特征,从特征挖掘中发现规律和有价值的信息,就规律和预测信息形成决策支持并进行应用和追踪评估,最后反馈回大数据系统进行反复验证并优化的闭环信息处理过程。这个说法是不是跟人工智能的Agent这一核心模块很像?数据科学的本质是迭代,就好比婴儿的学习一样,输入-回应-反馈-输入,持续训练和学习才会产生智力,真正的大数据分析系统应该是一样的道理,所以不能自适应优化和持续改进的大数据系统都是在耍流氓,这个问题也说明大数据应用一定不是传统信息化系统的玩法,甚至服务条款、设计研发、交付实施等很多方面都不能按照以前的模式来。那什么叫敏捷大数据,暂且给出一个初步定义,在我看来,敏捷大数据是基于数据科学的迭代性本质和利用高效组件化技术,对大数据架构和分析子系统可进行组件化设计,对算法模型可进行标准化配置。能根据实际需求快速选型并搭建大数据原型系统,能快速迭代大数据分析结果,并实时响应客户不断变化的需求,最终将原型转化为生产系统。在快速迭代、快速反馈、自适应闭环验证优化过程中,让客户逐步完成大数据分析和管理思维变革,并提升业务能力和获得数据价值。这个定义里面有几个关键词:组件、配置、原型、闭环、迭代,缺一不可。具体技术环节的细化涉及较广暂不做展开,有兴趣的朋友可以看看数据仓库里面的主题数据集市,它的设计模式、分析目标及过程特征有点敏捷大数据的影子。总之,敏捷大数据的核心目标:一是快、二是小、三是证,快速出原型,小的业务分析目标切入,证明有效之后再扩张。传统BI项目失败就是没有把握好这三个目标,同理互联网巨头能成功,能使大数据技术百花齐放,是因为把握好了这三个核心目标。那么怎样才叫实现敏捷大数据,首先给出通用的几点(和软件工程的敏捷特征类似):应用功能可以使用已有的功能组件组合而成,在组件之间交换的数据形式应当标准化和接口化,组件的组合只需少量编程或配置便可以完成,可以对非程序员提供开箱即用的数据挖掘和分析能力,大数据应用全程(采集、存储、分析、管理)可视化操作管理。要实现敏捷大数据,一是要遵从我讲过的企业大数据应用三段论,二是把握快、小、证核心原则,三是技术上,从系统架构及详细设计层面,包括从系统架构、组件化管理、资源调度、服务抽象、部署运维、数据挖掘模块及流程各个层面都需要有科学有效地设计支撑,这就取决于各自的设计和研发能力了,有兴趣的朋友可以关注Microservices、YARN、Mesos、Docker、Container等技术内容,技术细节这里不做展开。最后,大数据应用要落地,一定不能完全照搬传统信息化的套路,要把握好数据科学的本质和特点,从业务分析实施和技术研发多个层面同时遵从敏捷大数据方法,才能走得更远。这就是我对敏捷大数据所提出的一点初步想法,要达到预期目标不容易,具体实现细节跟采用技术路线有关,需要系统深入的研究和总结实践经验。总之,敏捷之于大数据有其必要性,这样才能用好大数据,分析好大数据,实施好大数据…
来源:点金大数据
版权声明:本站原创和会员推荐转载文章,仅供学习交流使用,不会用于任何商业用途,转载本站文章请注明来源、原文链接和作者,否则产生的任何版权纠纷与本站无关,如果有文章侵犯到原作者的权益,请您与我们联系删除或者进行授权,联系邮箱:service@datagold.com.cn。