Informatica公司主席兼首席执行官苏哈比·阿巴斯(Sohaib Abbasi)曾对媒体表示:“Informatica以前只是数据集成这个细分市场上的领导者,但是现在已经成了大数据这个行业的领导者。我们并没有刻意追求这一结果,是大数据这股巨大的浪潮将我们推到了这个位置。”是什么让Informatica在大数据时代脱颖而出呢?带着这个疑问,独家专访了Informatica公司大中华区总经理王晨杰。
开启Informatica时代
十分巧合,记者最近采访了两个保险业的客户——中意人寿和恒安标准人寿,他们都采用了Informatica的产品对企业的数据库数据进行整合和治理。原本以为Informatica的数据集成产品属于“阳春白雪”,在中国只会有少数用户在使用,但是现在看来,至少在保险行业,Informatica拥有不少拥趸。
“以前,用户只是简单地存储数据,现在则更看重数据的质量。”王晨杰介绍说,“自2005年进入中国到2012年,这是Informatica在中国积累客户的阶段。许多颇具知名度和IT应用比较领先的企业都是Informatica的客户。从2013年开始,Informatica在中国的发展将迈入一个崭新阶段,就是在各个行业全面铺开。”
以前,中国用户最常用的是以PowerCenter为代表的Informatica数据挖掘与治理工具。从2012年开始,Informatica陆续推出了许多大数据产品。“我们赶上了大数据时代这个好时候,属于Informatica的时代近在眼前。当前,我们最重要的任务是采用积极、恰当的策略加速大数据应用的落地。”王晨杰表示,“我们在北美地区已经有了许多成功的大数据应用案例。今年,我们准备把这些成功经验介绍给中国用户,以启发中国用户在大数据应用方面实现更多创新。”
抛砖引玉 促进业务创新
王晨杰表示,大数据为用户带来的最大好处有两个:第一降低成本,第二促进业务创新。
按照IDC的分析,2018年全球数据总量将是2010年的64倍。试问,有哪个企业采购存储设备的投资能在这8年中增加64倍?即使企业有充足的采购资金,那么当数据增长了64倍以后,抽取和分析数据的效率也能提高64倍吗?通过数据治理、数据集成等有效手段,企业可以不断提高数据质量,消除大量的垃圾数据,从而降低存储成本。“假设,一个企业原来准备花3000万元购买存储设备,如果将其中的500万元用于数据治理和数据质量管理,那么最终企业可能只要花2000万元购买存储设备即能满足存储需求,剩下的500万元还可用于其他的IT采购。”王晨杰举例说。
如今在美国,大数据工具已经被应用于各行各业。比如百货商场在促销季时,通过对大量数据进行分析,可以将各类促销信息准确地传递给相关顾客。再比如,奥巴马竞选总统成功后,也不忘感谢他的大数据分析团队。“许多中国用户已经认识到大数据可能带来的益处,现在的关键是如何有效帮助用户将大数据工具应用到业务中,实现业务的创新。”王晨杰表示,“在IT应用的很多方面,中国用户与欧美用户可能存在一年甚至几年的差距,但是在大数据方面,中国用户如果能够充分利用天然的优势,就有可能超越国外的客户。正因为如此,我们将中国列为公司未来十年发展最重要的市常”
由于人口数量、互联网基础等方面的优势,中国是一个“自然的大数据”国家。举一个简单的例子,国外一个全球公认的领先的电信运营商,其数据总量可能还不及中国某电信运营商一个省的数据量大。中国已经有了这样的应用:电力公司通过对电表数据进行收集、分析,就可以计算出房屋的空置率。以前,调查房屋的空置率是房产部门的事,而且房产部门可能要花费大量人力和物力,进入每个小区进行调查才能得出结果。现在,利用大数据分析工具可以轻松得出结果。由此可见,大数据已经颠覆了传统的统计和分析应用方式。
王晨杰表示:“虽然我们在国外已经有了许多成功的大数据应用案例,并准备把这些成功经验带到中国来,但是我们不建议中国用户完完全全照搬这些国外的成功案例。我们希望通过这些国外的成功经验达到抛砖引玉的效果,启迪中国用户的智慧,让他们能够结合自己的业务需求,实现应用的创新。我们的产品是大数据时代企业的必备品。我们能够让大数据更好地服务于客户,为客户实现业务创新创造便利的条件。”
无论企业的规模大孝数据量多少,其实都面临同样的数据质量问题。以前,在数据量较小的时候,企业很容易就能将数据核对清楚。但是随着应用和数据量的增加,来自不同业务部门和不同应用系统的数据很可能会不一致,这给企业的管理层带来了困扰。
在大数据时代,一个企业首先应该对企业内部的数据进行治理,保证企业内部数据和信息的完整性、一致性、合规性,这样才能让企业依据这些数据做出正确决策。企业如果已经累积了一定量的数据,那么采用大数据工具,就可以有效地对垃圾数据进行清理。如果企业正在规划和建设新的数据中心或云计算系统,那么数据治理的工作可以同步进行,对数据进行整理加工后,把高质量的数据存储到数据中心里,既能节省空间,又能保证数据的准确性。在企业内部的数据得到有效治理后,企业将大数据工具用于对外业务也就水到渠成了。
产品平台化 以不变应万变
Hadoop大数据平台的出现颠覆了传统的数据处理架构,包括硬件、操作系统、数据库等。“今天的Hadoop有点像2000年时的Java。”王晨杰表示,“Hadoop本身比较复杂,能够在Hadoop平台上进行熟练开发的专业人才十分紧缺,这也是Hadoop应用快速普及的一个主要障碍。现在,很多公司都在推自己的Hadoop商业版本,未来哪个版本能够成为业界的主流现在还不好说。”
Informatica之所以能在大数据时代脱颖而出,其中一个独特的优势是其产品的平台化设计。Informatica的数据处理平台并不是针对某个特定的数据库进行开发的,它能够从所有类型的数据库以及各种文件中准确地抽取数据。2012年11月,Informatica发布了PowerCenter大数据版本。它与Hadoop之间通过一个标准的接口进行连接。开发人员不必了解Hadoop,就可以在PowerCenter上进行编程,以应对大数据的需求。未来,不管哪个大数据处理平台成为主流,Hadoop或其他软件,通过Informatica提供的接口,用户都可以轻松地在大数据平台上开发自己的应用。
目前,业内并没有一个统一的大数据定义。王晨杰认为,随着数据量的爆炸性增长,人们更应该关注如何提高数据的质量,以及如何将不同应用系统产生的数据存好用好。在收集、整理不同应用系统产生的数据的同时进行数据清洗和治理,可以去除垃圾数据,提高数据质量,这也是延缓数据量爆炸性增长的一个有效手段。
在数据集成和数据质量管理两个领域,Informatica已经有超过20年的产品开发和应用经验,再加上最新的支持Hadoop的产品,Informatica在大数据领域奠定了坚实的产品基矗如今,Informatica公司80%~85%的产品都与大数据直接相关。
现在,很多人谈到大数据时首先想到的就是Hadoop,有的人甚至在Hadoop与大数据之间划上了等号。王晨杰认为,Hadoop与云计算之间的关系比与大数据之间的关系更为密切。“虚拟化与大数据是云计算的两个最重要的支撑点。现在,虚拟化技术已经被市场普遍接受。如果未来3~5年,大数据也能像虚拟化那样得到用户的广泛认可,那么云计算落地就不再是一句空话。”王晨杰如是说。
IT业内人士通常通过分析美国风投的资金走向来判断未来IT市场的走势。“2012年,美国风投对大数据行业的投入资金比例首次超过虚拟化。”王晨杰表示,“2013年对于大数据产业来说将是具有转折性意义的一年。”
Informatica将倚重渠道
Informatica公司大中华区总经理王晨杰向记者透露说,2013年6月,Informatica World大会将在美国召开,届时Informatica全球三四千家用户及合作伙伴将齐聚一堂。Informatica公司将在此次大会上宣布公司新的定位和战略等。
王晨杰就任Informatica公司大中华区总经理只有四个多月,就已经开始对中国地区的渠道合作伙伴策略进行大刀阔斧的改革。王晨杰笑言,以前Informatica在中国就像个独行侠,其客户几乎全是Informatica自己的人员搞定的,屈指可数的合作伙伴没有发挥太大的作用。现在则不同了,Informatica新增了渠道部门,增加了相应的人员,并且开始积极寻找行业解决方案提供商和系统集成商,扩大区域覆盖面,增强服务支持能力等。王晨杰表示:“今年下半年,我们将首次举办中国合作伙伴大会,相信到时参加的合作伙伴将不下百家,其中很多都是行业内顶级的渠道商与系统集成商。大数据将给我们带来更多的商机。”目前,Informatica在中国的金融、电信、能源三大领域拥有深厚的客户基矗今年,Informatica将把在美国医疗领域的大数据成功经验引入中国,希望在中国的医疗行业实现新的突破。