MICROSOFT 大数据与人工智能

AI2年前 (2023)发布 aixure

75 0 0

导读：大数据加上机器学习，代表了软件产业一个新时代来临：不再是人写软件，而是数据加算法，在数字化之后，以计算机驱动，用光速来推进人类社会。微软亚洲研究院常务副院长马维英大数据不是一个单一的现象，在过去5～10年，借着越来越强大的计算能力，加上知…

大数据加上机器学习，代表了软件产业一个新时代来临：不再是人写软件，而是数据加算法，在数字化之后，以计算机驱动，用光速来推进人类社会。

微软亚洲研究院常务副院长马维英

大数据不是一个单一的现象，在过去5～10年，借着越来越强大的计算能力，加上知识挖掘等算法上的突飞猛进，我们可以构建更大的模型。

我们都知道，其实很多的人工智能、机器智能，或者驱动一个数字世界的自动化，都需要模型。在过去的很长一段时间内，这些模型因为数据的不足，通常只能做一些小的模型或者浅的模型，但特别在过去的两三年里，在机器学习领域有了突飞猛进的发展，可以构建更大、更深度的模型。

另外是知识挖掘，知识挖掘是怎样在互联网上大规模进行的？在这些结构化、半结构化的数据中构建人类最完整的知识表达，一旦我们掌握了这样的表达，我们就可以对很多的数据做更深度的理解。

软件产业新时代

微软为什么看重大数据？微软是从一家软件企业开始的，在30年前，微软就知道软件会改变全世界，软件几乎可以做所有的事情。但今天，软件的时代已经不一样了。过去是程序员写，接下来的软件是靠数据，靠机器学习，自动写出软件。这意味着什么？当你拥有更大的数据的时候，软件就更强大，软件的性能就更好。大数据加上机器学习，这代表了软件产业一个新时代来临：不再是人写软件，是数据加算法，在数字化之后，以计算机驱动，用光速来推进我们人类社会的方方面面。因为都是靠数据和算法，我们能够产生一个非常大的一个信息量，所以我们看重下一代所有的应用和服务。

今天，为什么各个大公司都在不断地在人才、技术方面大量投入？就是因为我们已经在过去的几年不断地对这些数据进行加工，我们已经越来越接近从数据到信息，到知识到科技。

语音识别过去十几年一直没有突破，但就在这两年实现了很大进展。其中重要原因就是因为有一种新的机器学习，可以从数据里面学表达方式，做很多模式识别。大家知道做影像、语音等最难的是怎么找出特征向量表示数据，过去的二三十年的研究都在研究怎么找特征，大数据来到的时候我们发现，特征也可以直接从数据去学。而且在这个过程中我们发现一个非常有趣的现象，就是越大的数据表达方式越好。因为数据大，信息就增加，所以技术上的突破就是计算能力和数据大了，而且自动学出来的发现比过去人设计的特征向量更好。

大数据的城市应用

今天的技术非常令人兴奋，但今天很多城市里面的数据都是很低阶的，这么大的数据如何表达？今天深度学习、机器学习带来了革命性的机会。过去两年我们也把这样的机器学习开始应用在城市，所以微软有一个城市计算的项目。在北京，我们收集了很多方面跟城市有关的数据，例如北京交通路网的数据、北京商业各方面的历年数据，我们可以发现很多现象，比如北京过去10年酒吧在哪里越来越多，电影院也在一些地方增加了，这些其实代表了这个城市的发展。还有空气的数据、气象的数据等。我们还搜集了北京的30000辆出租车，特别装有定位系统的数据，这样便可以用出租车当做传感器实时检测城市的脉动，甚至交通的状况，可以算出更好的开车路径。

过去两年，微软与北京市政府及中国的高校合作，在城市计算这一领域实现了很多科研成果。大数据可以分析城市问题，改善城市规划。

空气质量是今天的城市居民最关注的一个话题。北京这么大规模的城市，现在只有15个空气检测站点，非常稀疏，每个站点的投入和花费与运营非常高。这些站点在任何时刻给的数据都是非常不一样的，说明一个城市里面空气质量分布是不均匀的。今天我们的问题是能不能用大数据，用机器学习的方法预测那些没有空气站点的地点的空气质量。我们也利用了大数据把历史上所有这些我们可以收集到的，关于侦测带里的历史的数据、气象数据、交通数据、人员流动等数据，建一个非常大的模型，包含空间和时间的预测，能够在有限的15个站点之上，进一步预测所有的位置。这就是大数据在智能城市里的应用，其中既有数据分析，而且是海量和一致性的数据。

实验证明，虽然我们用的很多数据从某个角度来讲是比较弱的信号，但是把大量相关的相对弱的信号收集起来，居然比原来最好的模型还好20%。利用大数据对整个城市的空气做预测的模型是非常有价值的，这预示了这样的应用将不只在城市，而是会进到人类社会方方面面，各个产业都会被大数据带动，用更智能的算法，让过程变得更有效。

# AI