Intel吴甘沙:大数据发展脉络

大数据2年前 (2023)发布 aixure

50 0 0

导读：英特尔中国研究院首席工程师吴甘沙先生发表了主题为大数据发展脉络：见自己，见天地，见众生的演讲。演讲中，吴甘沙指出，大科技革命的下一波高潮已经呼之欲出，大数据模式可以分成三类，第一类见自己，正如苏格拉底说的你要认识自己 2013年4月26日-27日，由…

英特尔中国研究院首席工程师吴甘沙先生发表了主题为“大数据发展脉络：见自己，见天地，见众生”的演讲。演讲中，吴甘沙指出，大科技革命的下一波高潮已经呼之欲出，大数据模式可以分成三类，第一类见自己，正如苏格拉底说的你要认识自己

2013年4月26日-27日，由51CTO传媒集团旗下WOT（World Of Tech）品牌主办的2013大数据全球技术峰会在北京富力万丽酒店召开。本次峰会将围绕大数据基础架构与上层应用的生态系统，解决大规模数据引发的问题，探索大数据基础的解决方案，激发数据挖掘带来的竞争力，让数据发出声音。51CTO作为本次峰会的主办方，将全程视频、图文直播报道这场数据的盛宴，更多内容请点击专题：2013大数据全球技术峰会。

26日上午，英特尔中国研究院首席工程师吴甘沙先生发表了主题为“大数据发展脉络：见自己，见天地，见众生”的演讲。演讲中，吴甘沙指出，大科技革命的下一波高潮已经呼之欲出，大数据模式可以分成三类，第一类见自己，正如苏格拉底说的你要认识自己。第二个层面是见天地，你要关注你自己，来到天地之间、社会之中，去了解群体和社会的行为。第三个是见众生，所谓众生就是天地、自然、万物，所谓一切众生皆有佛性，这就是天地、自然、万物的规律。

英特尔中国研究院首席工程师吴甘沙

他在演讲中提出了DRAGON时代的软件定义城市，DRAGON分别表示，Data driven、Resilient、Automated、Gamified、Open、Networked，而通往DRAGON时代的必然经过新的大数据思维方式和方法学，新的大数据生态系统和服务模式和新的大数据采集、存储、管理、计算、安全技术。其中，大数据的新思维包括，数据随时间迅速折旧，个体数据的精确性不再重要，改变“数据是稀缺资源”的世界观等。

此外，他还提出，未来的智慧城市公共数据和服务平台应该包含三层，底层城市操作系统、中层数据交易市场和顶层城市应用商店，由此需要相关的技术才可达成。

如下为演讲全文：

吴甘沙：大家早上好！身在这个舞台感到非常荣幸，我今天的标题是“大数据发展脉络——见自己、见天地、见众生”。这三个境界，我相信很多人能够同意这是一代宗师里面最令人振聋发聩的一句话，组委会让我讲一讲大数据对于我们的生活、工作以及我们思维的改变，所以我就把这个形而上的标题放上去。我知道我给自己挖了一个大坑，待会是否能填上，是否有标题党的嫌疑，请大家原谅。

说一下我自己，我在英特尔十几年，早四五年主要是做虚拟机、编译器以及移动架构，中间四五年是做多核、重核的架构，以及并行计算，这几年转到分布式系统，像物联网、大数据等等。大家可以看到，从手机到多核、重核再到分布式系统，每一个阶段我们都可以看到一个相对比较长时期的大趋势，我们把这个趋势作为一种信仰，在这个上面念念不忘做了四五年才能产生回想。我非常同意大家说的，大数据是一个非常激动人心的机会，我们也把这个作为我们最重要的信仰。为什么这么说呢？我想给大家看一下科技革命的宏观规律，在人类历史上出现三次科技革命，第一次持续了50年，实现了机械化。第二次持续了整整一个世纪，以电气化作为标志。第三次是人类历史上影响最为深远的一次革命，信息化的出现以及信息化跟其他行业的这样一种相互影响。

前苏联的康德拉季耶夫发现了三次长波理论，虽然这位老兄在第三次的时候在苏联被革命掉了，但是他的第四次长波还是能够很好的和我们的第三次科技革命吻合。所以有理由相信，如果2008年是第四次长波的结束的话，现在我们处在第五次长波的开始阶段，很有理由相信我们现在面临着第3.5次或者第四次的这样一种科技革命。下一波高潮呼之欲出。

再看一下信息革命的小周期，我们认为信息技术革命经历了三个周期，第一个周期是架化，以IBM的360主机为代表的架构化，我们产生了兼容的指令及操作系统、高级语言编译机，第二个周期是数字化，第三次是网络化，使得我们的信息对每个人唾手可得。现在我们很有理由信心，现在正在发生一些新的东西，第四次我们认为就是这几个关键词，移动互联网、物联网、云计算和大数据会是第四次科技革命的主要方式。我们相信这四个技术并不是相互割裂的，待会我会说明这四个技术是相关的。

说到大数据，究竟是一个什么东西，刚才跟IBM的王总也在谈，我想它肯定不是数据库，数据库是它的一部分，但是它更是一种思维方式，更是一种战略，要跟业务层面、跟应用结合起来的一个东西。我把大数据模式分成三类，第一类见自己，正如苏格拉底说的你要认识自己。第二个层面是见天地，你要关注你自己，来到天地之间、社会之中，去了解群体和社会的行为。第三个是见众生，所谓众生就是天地、自然、万物，所谓一切众生皆有佛性，这就是天地、自然、万物的规律。分别看一下这三个方面，第一个见自己，基督教有句话叫凡走过必留下足迹，我们经常在互联网上留下足迹，比如说北大做了微博的可视化、清华做了微博的关键词，Prismatic做了微八卦，Coursera根据你的兴趣行为帮助你做在线学习，Klout是一个社交影响力平台，能够算出你的社交影响力，比如说你的积分超过四五十分，你到机场可以免费享用VIP。所以这是第一方面。第二个方面是我们每个人心智健康的状况。第三就是你的消费行为，FICO是美国消费信用评估公司，它公开声称我了解你明天要买什么东西，包括我们的精准营销，所谓纳米的定位。

基于这些新思维，我们要有新的方法学，当然这些方法学并不是我独创的，很多方法学最早在理论终结短文中已经出现了，最近又被更深入的阐述了出来。第一个就是采样数据到全集数据，第一层面，我们要把数据采集作为一种全面的习惯，第二层面，我们数据采集时要避开主观性。老外写了一本书，说原数据本身是矛盾修辞，这里面带有采集人的主观思维，所以我们要尽量避免，怎么避免？我们要通过工具，不是通过人，去插入这个采集点，把它放入基础设施。第三层概念，因为你数据采集下来，必须要解决存储的问题。

第二个就是多数据源的整合问题，我们有很多数据源，怎么通过数据融合的算法把它整合起来，怎么从非结构化的数据当中抽取语义出来。如果这些数据源是分布在各个区域的，这个分布式中心系统跟我们的分布式中心系统还不一样，我怎么样能够在跨数据中心的情况下实现多数据源的整合。

第三个，就是大数据加上简单算法，它比小数据加上复杂算法更有意义。这个事实上在很多方面都获得了证实，比如说机器翻译，我们的搜索到现在非常流行的深度学习，都发现你的数据集大的话，你的算法可以简单，但是你的结果可以更好。你的算法如果能够跟上下文、知识的积累结合起来，这个结果就更好。比如说Google最早的搜索是基于统计学的，但是它加入了知识图谱的功能以外，搜索出来的结果就会更好。

还有一个就是因果关系跟相关关系的关系，现在这个已经出现在很多地方，大家都说我们要相关性，不管因果性，并不是说我们不需要最终追究这个因果关系，但是我们传统的科学态度是什么？看到了一个相关性，我会想要了解为什么，我想给出一个假设，建立一个模型，然后去验证这个模型，这里面带入了相当多的主观因素。还不如在这个时间段，我尽量去发现相关性，先不去考虑因果，先发现相关性，然后再研究因果。美国有一个人发明了鸟枪基因测序法，他并不是看到一个新的物种然后去测，他是直接对海水去测取，直接对纽约市的空气进行测取，他能够在其中发现几百万种新的基因片段，然后基于新的片段，再跟现存的生物做比对，再取这种相关性。我就想到前一段时间的禽流感，我们在菜市场对空气进行测取就可以了，何必进行采样呢？所以这个思维方式非常重要。

还有一个就是描述性的分析，我们原来的报表、原来的分析都是描述性的分析，它是什么呢？我要了解过去发生了什么，为什么发生。最好的情况下，是能够了解现在正在发生什么。但是未来是预测性的，我要了解未来会发生什么，甚至是处方性的分析，我想要未来发生什么，我要做什么样的事情，能够让未来这件事情发生。

还有一个就是实时性，一定比绝对的精确性更重要。大家知道，购物篮分析是基于历史的数据做出相对精确的分析，但是问题是当你在一个超市购物的时候，你去发现用户这个最好的点，是他还在浏览、找东西的时候，而不是最后结账的时候，所以实时性非常重要。这是一大类的思维和方法学。

大家可以看到，在我们的实际应用当中，比如说现代交通就需要多数据源，有些数据来自于北京的监控和指挥中心，有些是二级以上城市的数据。我们每天摄像头产生的视频和图象数据以及原数据要几百个GB，其他的数据，大家可以看到结构化的数据，手机位置信息，1800万条。出租车GPS信息两千万条每天，交通卡刷卡信息1900万条每天，还有高速收费的数据，还有静态的数据，居民调查的数据，甚至是看起来跟交流没有关系的这些领域，事实上也能够产生相关性，比如说我们的供水系统，我们的供水系统能够知道早上晨起的高峰时间，同样智能系统能够知道每天晚上办公室关灯的高峰时间，根据这个时间它能推算晚上堵车时间。包括我们的睡眠质量跟我们交通的状况有关系，我们对社交网络进行情感分析，跟我们的交通事实上也有关系。这种多数据源的集成，才能达到最大化的价值。

大价值也能带来新思维，首先数据是个原材料，如果说我们现在处在新一轮的工业革命，第三次工业革命早期的话，工业革命的原材料就是我们的数据，所以它有原生价值。同时，如果说数据是个原油储备的话，从数据里提取出来的信息是原油，所以它又有提炼的衍生价值。数据又是资产，我们原来说我们的企业IT部门纯粹只花钱不赚钱，但是如果数据成为资产了，它就可以成为一个利润中心，这个数据有初次利用价值，也有反复利用价值。比如说物流公司有个人信息数据，有托运方的数据，以及很多客户的数据。一开始的想法肯定是把这些数据很好地利用起来，使它的运营更为有效。但是再想一想，它事实上可以反复利用这些价值，比如说托运方信用数据，使得他能够对托运方进行贷款服务，甚至拿托运方正在路上的货物进行抵押贷款，他能够了解每一个细分领域的经济运行情况，又能够变成一个金融信息公司，所以数据是能够反复利用的。最后一个数据是货币，既然是货币就能够交易。

基于这样的新思维产生的新的方法学是什么呢？它可能是一种数据的资产产品和社会化分析服务，为了达到这些，我们首先要考虑数据的民主化，怎样实现数据的民主化，让每一个人接触到数据？事实上我们的政府应该走出第一步开放我们的数据，从美国来说，纽约和芝加哥都有开元数据等等，所有这些都代表政府应该在前面领路。除了政府免费开放这种数据，其他的还应该有有偿数据，通过数据的市场和定价，你这个数据是根据量定价还是根据你的数据类型定价。还有，我们并不是每一个拥有数据的人都有分析的能力，所以你要社会化分析的服务，让别人帮你分析，在保障数据拥有权和其他权利的前提下，让其他人帮助你分析，事实上在美国有这样的公司实现这个东西。

所有这些带来了新的数据大生态的系统，第一个是数据拥有者，第二种是数据中介，第三种是数据的技术公司。现在很多传统行业的客户他可能就是数据的拥有者，但是现在也有很多新的，比如说微软有提供数据的产品和服务，同时能够交换数据，所以它又承担了数据中介的服务。而像阿里巴巴可能是承担了三个角色。

在智慧城市里面，怎么去安排这样一种生态系统？我们认为未来的智慧城市，它会出现一种公共数据和服务平台，平台的最下面是城市的操作系统。大家知道，操作系统是用来管理资源、调度资源，在我们的城市里面，你也有很多分布式的存储、互联和计算的资源，还有很多分布式的传感器的资源。操作系统同时又有很多的高层的抽象，我们有文件、有进程、线程、信号灯，在城市生活当中也有路灯、有路、有各种各样的电网，所以这些高层的抽象都可以由城市的操作系统建立起来。第二层就是数据的交易市场，你要有这么一个数据的集市，让大家把数据放上去交易产生价值。刚才说过纽约、芝加哥、都柏林等各种各样的数据市常第三层就是城市的应用商店，有各种各样的应用，这些应用都能把你个人、把你的环境、服务数据连接在一起。这三层架构你需要掌握新的技术，比如说在IaaS、PaaS这一层，你需要具有多范式，在DaaS层面，你需要有数据定价的功能和权利的保障，在SaaS方面，你要把城市、政府和个人生活连接起来。这是传统大数据的技术站，最下面的是计算互联存储，现在这块事实上也有很多新的发展，我们的计算从单节点变成机架的计算，我们的标准服务器变成定制化的服务器，有硬件加速器、软硬件协同设计等等。数据处理的信息和结果能够以用户消费的结果显示出来，同时有数据权利的问题，数据权利是一个比较新的概念。

我们先说在这个站上面需要做的一些新的考量，我们认为大数据一个系统一定是针对特定的应用做出一个特定的最优大数据系统，而这个大数据系统要考虑三个因素，一个是大体量、一个是精确性、一个是实时性。我们现在认为在很多情况下你只能满足两个，不能三角全部满足，这只是我们现在的观察。比如说批量计算，能够满足大体量和精确性，但是不能满足实时性。复杂数据处理，能够满足实时性，但是处理的数据只能在一个窗口里，相对比较小，同时它是一个实时的inside。即时查询，还能够对数据进行采样，实现秒的查询结果。增量计算相对比较好的平衡了这三方面，所谓增量计算就是历史数据放在一边，新数据不断加进来，产生新的价值。当然，增量计算必须跟内存计算结合起来，有内存计算才能实现更好的短延迟的计算。小数据个人的计算是在这一头，它能够完成精确性，而我们的城市计算是在另外一头，它是一个大体量。所以你要有一个设计权衡。

基于这个设计权衡，我们也做了一个完整的站，这个站里面，当然有Hadoop，如果你拷贝三份的话，非常浪费资源。SQL和即席查询，包括图计算，在这上面实现大规模的数据分析以及数据的可视化，再下面是基于IA的平台、基架。就英特尔研究院就参与了很多工作，比如说英特尔现在已经有Hadoop。

再说一下现在谁拥有数据、谁能用数据、谁在用数据、管理边界在哪里？Google的道路状况数据库没有开放出来，我们的社交媒体数据库到底是属于发帖人还是社交网络，这也不太清楚。比如说我们的行车记录仪是属于保险公司还是车、还是个人的，你的医疗记录电子病历到底属于医院还是你个人的？实际上这些权利都不是特别清楚，所以我们现在强调数据有三种权利，第一种是拥有权，第二种隐私权利，第三种是使用知情权。

第一种，我们要保障他的拥有权，我们要有法律和技术进行保障。其次就是我们的隐私权，大家知道，隐私和服务是一种辩证法，关键是我们对这个隐私数据的使用要有控制，这种控制需要使用的知情权，这个使用的知情权就是说数据的拥有者对于这个数据的使用是可计的，数据转换当中，它的血统是否丢失了，产生多少价值。而且尤其像GPL一样，我做了开源软件的1.0，别人做了2.0，他卖了钱以后，我是否可以分一部分利润。

最后总结一下，通过DRAGON时代的必经之路，我们需要了解新的生态系统，参与生态系统，提供新的服务模式。第三个就是在大数据的采集、管理、存储、分析、数据保障这一块要有新的东西。

最后用这一张作为一个结语，刚才说的几个都不是相互割裂的，大数据是根本、是核心，云计算是术，它是方式和手段，移动互联网、物联网是物化大数据和云计算的价值。

今天我就讲到这里，谢谢大家！

# 大数据