当心大数据时代的浮夸陷阱

大数据2年前 (2023)发布 aixure

61 0 0

导读：数据分析师在对阿里巴巴内衣销售数据进行分析后发现，购买大号内衣的女性往往更败家。其根据是，65%B罩杯的女性属于低消费顾客，而C罩杯及以上的顾客大多属于中等消费或高消费买家。这一结论是否成立姑且不论，但首先传递了一个信息，今天人们已经进入数据为…

数据分析师在对阿里巴巴内衣销售数据进行分析后发现，购买大号内衣的女性往往更“败家”。其根据是，65%B罩杯的女性属于低消费顾客，而C罩杯及以上的顾客大多属于中等消费或高消费买家。这一结论是否成立姑且不论，但首先传递了一个信息，今天人们已经进入数据为王的时代，其中大数据似乎又是王中之王。

无论是商业网站还是搜索网站，人们的所搜所看所买都成为大数据的组成部分，无论之于商业，还是之于公共卫生，抑或国家安全，它们都是有用的信息。有心人已经意识到，因为拥有大量未经充分研究的中产阶层，中国成为世界上最重要的数据市场之一。研究这些数据，对社会各方面都是多赢。当然，保护人们个人隐私的代价需要考虑。

2008年谷歌推出“谷歌流感趋势”（GFT）数据分析工具，谷歌的工程师根据这个工具的数据分析，预测了2009年H1N1流感将要暴发，甚至具体到特定的地区和州。这一结论在流感暴发前发表在英国的《自然》杂志上。后来，情况果真如此，这与美国疾病控制和预防中心（CDC）的预测完全一致，但时间上比CDC早了近两周。从2010年起，阿里巴巴利用其数据建立的信用记录，向小微企业提供融资，也取得了不错的效果。

这些结果表明，数据为王时代早就到来。其实，这并不奇怪。人类文明的三大支柱是材料（物质）、能量和信息，数据又是信息中的核心部分。古希腊的毕达哥拉斯早就说过，“一切皆数”，尽管其所说的“数”与今天的数据有所不同，但在某些方面是相似的。所以，在今天也就有了“一切皆信息”，也即数据为王。

不过，数据为王并不意味着大数据为王，或数据越多越好，还要看如何分析和利用数据，进而得出最契合实际的结论，并且有效利用这一结论。因此，如果要承认阿里巴巴基于内衣销售的数据分析得出的女性胸越大越“败家”的结论，就需要有符合客观实际的解释，不幸的是，这一结论还处于见仁见智的阶段。网友的各种分析就提供了佐证：一是“大胸都被有钱人娶了，所以才有能力败”；二是“说明青春期的营养状况确实会影响胸的大小”，“胸大的确实普遍嫁得好”；三是“胸大并不败家，集中在网上打折的时候买东西，只会旺家。”

这笔混乱账目前肯定掰扯不清，但已有事实证明，数据越大并不意味着越好。就算是谷歌，一旦他们的大数据处理和分析不当，也会得出错误的结论。2013年1月，美国又发生流感，但GFT的预测比实际数据高两倍。这并非偶然出现错误，而是在过去一再发生。2011年8月~2013年9月，GFT高估流感流行长达108周。

谷歌的大数据为何预测不准呢？发表在2014年3月14日《科学》杂志上的一篇文章指出了两个主要原因。一是大数据浮夸，二是算法变化。大数据浮夸指的是，以为大数据可以完全取代传统的数据收集方法，而非作为后者的补充。大数据浮夸的最大问题在于，绝大多数大数据与经过严谨科学试验得到的数据之间存在很大的差异。

另外，谷歌对算法会进行不断的调整和改进，搜索引擎算法的改变和用户的搜索行为会影响到预测结果，比如媒体对于流感流行的报道会增加与流感相关的词语的搜索次数，进而影响GFT的预测；相关搜索算法也会对GFT造成影响。例如，搜索“发烧”，相关搜索中会给出关键词“流感”，而搜索“咳嗽”则会给出“普通感冒”。

如果没有严谨的科学试验数据做后盾，现阶段就不能得出女性胸越大越“败家”的结论。同样，也需要得到科学试验数据后，才能解释为何在2012年的“双十一”，中国比基尼销量最高的地区是并不沿海的新疆。对大数据浮夸的两种解决之道则是：大数据并不能代替严谨的科学试验得到的数据，这两者之间需要互补，而且要使算法更符合实际情况。

# 大数据