不少人可能会奇怪地发现,自己在购物网站大量浏览过鞋子后,转而跳去另一个门户网站看新闻,新闻旁边的广告播放的正是他感兴趣的鞋子!这不是偶然的,“这正是大数据的一个商业应用”一一对消费者实施精准化营销。大数据(Big Data)被视为云计算之后的又一科技热点,它可以让中国的地方政府通过电力数据分析把脉当地经济,也可以让美国国家安全局通过电话监控记录发现本·拉登的蛛丝马迹,它还帮助美国一些青年男女在交发网站找到合适的对象,以及让谷歌实现其无人驾驶汽车的梦想。
“大数据时代”来临美国福布斯杂志4日称,如今,在浏览新闻网站或者参加行业会议时,想看不见或听不到“大数据”这个词几乎不可能。路透社4日称,透过数据研究消费者行为绝不再是大型企业的专利了,一些创新企业正在帮助小公司使用数据来服务消费者。英国《卫报》4日则报道了一场围绕大数据主题的圆桌会议。而有中国专家称,2013年将是中国大数据元年,5日有消息称,中国首个“大数据技术与应用”硕士项目成立,“去年一些网站在春运购票高峰期间几乎瘫痪就说明大数据处理能力有待提高”。
实际上,早在2012年,《纽约时报》就刊文称,“大数据时代”已经来临。哈佛大学量化社科院院长加里·金等则称,“大数据”将在学术界、企业界和政界迅速蔓延,“没有哪个领域不会受到影响”。《规划数字化的未来:美国总统科学技术顾问委员会给总统和国会的报告》中曾提出,“联邦政府的每一个机构和部门,都需要制定一个应对‘大数据’的战略。”终于在2012年,美国6个联邦政府部门宣布将投入2亿多美元立即启动“大数据发展研究计划”。
在开头买鞋子的故事中,美国为企业级市场提供大数据系统处理的公司Cloudera的软件工程师王之明向《环球时报》记者介绍,神奇之处在于,购物网站、新闻网站和广告商是3个不同的主体,却通过大数据技术实现精准营销。广告商通过数据分析服务,知道正在看新闻的小王想买鞋子,于是就登了鞋子的广告,而看同一个新闻网页的小张看到的也许是手机广告,因为他在购物网站曾搜索或浏览过大量新款手机。
目前,已有越来越多的传统行业走向大数据系统,如银行可以对用户信用}使用情况进行分析,从而判断账户是否被盗,以及对何种顾客提供定制增值服务等;大型连锁超市可以通过分析,减少冷门商品的库存;石油地质勘测也因为数据量庞大需要用到大数据技术。
电力系统也是产生大量数据的地方。中国一名电力领域专家对《环球时报》表示,中国的智能电网建成后,采集电力数据的成本进一步降低。现在每秒钟在电力系统可以产生大量数据。通过大数据能够把如此大规模的数据进行整合、分析,加以利用,绝对可以产生新的价值。政府也可以通过用电量来确认行业发展情况。如去年东部沿海地区经济不好的时候,浙江省海盐县的县长就曾经请电力部门采集和分析当地用电情况数据。如果说企业可以用财务报表来掩盖经营状况不良,用电量数据却可以直接反映企业开工状况。电力大数据的分析和挖掘还可以为建立建筑节能标准,以及为交通、银行系统提供有用信息。这对中国建设智能城市有重要意义。
公共卫生部门则可以通过互联网上的大数据尝试预估传染性疾病的分布、传染扩散速度等趋势,这会极大提高医院对床位、药品准备工作的有效性。
大数据理念也被美国反恐机构所运用。中国信息技术管理专家、《大数据》
一书作者涂子沛向《环球时报》介绍,美国兰德公司情报政策研究中心的主任帕拉契尼在接受美国媒体采访时曾表示,国家安全局从电话监控的记录当中发现了本·拉登的蛛丝马迹。该局对全美的电话进行监控,每6小时收集的数据量就相当于美国国会图书馆所有印刷体藏书的信息总量。
大数据顾名思义,有数据量巨大的含义,不过,在王之明看来,还有一种情况是,数据量不大,但运算很复杂。
如美国婚恋交友网站eHarmony,数据量不多,但系统需要进行复杂计算和用户配对,才能得出如何帮助一名用户找到心仪的对象。
“自产生”,可“废物利用”
大数据时代和传统数据库时代有什么不…样呢?
很多人对数据的理解依然停留在“数字”的概念上,其实,数据的范围已经扩大。人们发的每一条微博、电脑上听到的声音文件、监控器收集到的视频信息都成为数据。不仅有数字,还包括文本、图片、声音、影像、地理位置。
未来还可能包括,利用生物技术收集的生物数据,比如指纹、脉搏、眼球移动记录等等。正因如此,一些社交网站、微博网站由于用户不断自我更新信息,数据量倍增。中国人民大学信息学院院长杜小勇对《环球时报》表示,原来的计算机系统都靠操作员把数据输进去,而现在每个人都成为数据的输入者,加上存储技术不断发展,使得信息量剧增。益普索咨询公司数字研究资深总监李峰也因此认为,“随着技术能够获取的最基本原始数据不断增加,大数据时代已经到来。”
大数据还可以实现“废物利用”。王之明介绍,过去九成的原始数据在录入时就丢弃了,大数据却可以把丢掉的九成数据拿来做运算。
比如顾客在超市购物,结账时,超市掌握所有原始购买信息,如该顾客买了A品牌的牛奶和B品牌的鸡蛋,超市甚至能通过积分卡一类知道顾客是谁。传统上,超市只会保留很少的数据,如卖了多少产品。但有了大数据技术,超市可以保留所有原始数据,以供将来需要从中挖掘出更多信息时使用。
与传统数据库相比,大数据还有一大优势,可以用更便宜的技术实现计算目的,便于一些无力承担大型数据库开支的小公司选用。此外,一些传统数据库在数据录入时需要对原始数据进行整理,按统一的格式输入,但比如国家安全部门想通过数据分析来追踪恐怖分子的踪迹,无法事先判断会出什么样的报告,进而需要怎样的数据统一格式,因此也会用到大数据技术。
因此,有人说,数据是资产,是财富。更有人将数据看成是生产要素,越来越活跃,可重复利用,而且环保无污染。有中国专家对《环球时报》记者表示,发展大数据对于中国向知识经济转型具有重要意义。
中国在大数据时代不能落后在涂子沛看来,和中国、印度的竞争对手相比,西方国家的公司无法在产品的成本方面获得优势,他们只能在商业过程优化方面战胜对方。目前各行各业都出现了以数据分析为竞争能力的企业,谷歌甚至认为其l无人驾驶汽车也是一个大数据问题。资料显示,2011年,麦肯锡公司以2010年度各国新增的存储器为基准,对全世界大数据分布做了一个统计,中国2010年新增数据量约为250拍(一拍是2的50次方),不及日本的400拍,欧洲的2000拍,和美国的3500拍相比,更是连1/10都不到。
益普索的李峰对《环球时报》表示,大数据是全球性的,各国的差异在于数据获取的能力。此外,如何把数据提炼成信息,并进一步转化为知识和应用,这一体系的建立靠的是人,数据发掘能力涉及人的创造力。
杜小勇认为,美国的技术更前沿一些,更早地关注了大数据的存在。但由于中国社会人口巨大,应用都是世界最大应用,带来的挑战也是世界级的。在一轮一轮的IT技术潮流中,中国与最先进技术之间的差距是在缩小,而不是在扩大。中国的863计划已发布了与大数据相关的计划。从国家层面上说,中国对大数据的关注基本上与美国是同步的。
不过,“大数据”时代也不可避免地带来创新挑战,它造就了一个传感器和数据库无所不在的世界,而政府、情报部门和大商业机构在这方面有着先天优势,这很容易造成数据的“单向透明”。
数据流失、泄露和私下买卖也成为噩梦。
李峰表示,大数据是公开化的,要在保护个人隐私、商业机密、国家安全和共同分享大数据之间找到平衡。杜小勇举例说,如果一个外围公司通过网络商务,知道一个国家更真实的经济运行情况,也会影响国家安全。此外,大数据时代,一个人总要去参加各种活动,如电子商务、网上交流,只要有活动就会留下痕迹,就会被记录。个人信息泄密会带来很大问题,但这不应成为反对大数据的理由,“技术上要解决,更重要的是立法。”
另一方面,也有人在呼吁数据的公开,一名中国专家对《环球时报》表示,推动中国大数据发展,关键在于政府理念的转变。应推动数据公开,带动从政府到各行业公开数据,让数据这种生产要素自由流动,这样才能不断提高其附加值。美国和英国都已经有了政府大数据网站,在数据公开方面先行一步。
不管怎么说,大数据这一新趋势必将从理念到实践带来更多创新价值和挑战。▲驻加拿大特约记者 陶短房本报记者段聪聪 芮晓煜