万众期待的“2012数据库技术大会”已于2012年4月13日如期召开,本次大会已是IT168、ITPUB、IXPUB、ChinaUnix联合主办的第三届数据库技术盛会,为满足广大数据库从业者的需要已经由两天升级为三天。大会聚集了国内最顶级的数据库专家、大量国内数据库工程师、架构师等顶级人群。
现在谁没有网购经历?而淘宝的消费研究大家也都多少看到过,这些消费研究数据是怎么来的呢?淘宝网数据挖掘团队负责人张辉(必达)给我们现场解读。张辉说:“细节会影响数据分析的成果。”在淘宝的数据中,有很大的量可以供研究和分析。
▲淘宝网数据挖掘团队负责人张辉(必达)
▲淘宝的数据
淘宝网惊人的数据:每天的数据4万件是最保守的统计、28PB的总数据量、3000多的扫描数据量…这样的数据尽管很吓人,但是分布还是非常有特点的。通过消费信誉等因素让消费比较集中在某些部分,这也让淘宝面对数据量很大但是压力还是比较容易处理。
▲淘宝访问来源分布
用户行为的分析,可以整理发现很多共性,但是不是所有消费行为都具备非常明确的周期性。张辉为我们用手机话费的网上充值领域已经有非常高的规律周期性,说明网上充值业务已经被消费者认可并逐步成为习惯。当然通过淘宝的数据分析还有很多类似的情况。
▲淘宝不同的实现的系统框架
▲变量构造方法列举
我们看到,消费者的行为信息实际上为企业经营和规划会起到很关键的作用。能够通过这样的用户行为基础数据的分析建立一个变量构造模块,我们可以通过分析变量预测未来的结果库。这里核心的是变量构造模块是直接决定这项目的结果,这个结果,看似非常理论但是经过长期的数据积累和分析,这个预测性的结果将会与未来数据能够比较吻合甚至准确,结果库可以被各种应用所利用。基础数据固然非常重要,但是变量构造的算法更是展现分析人员的想法的渠道。通过当前的行为能够看出消费者的趋势和特性,能够精确的得出目标用户。淘宝数据分析与传统方式实现是不同的,是分布式实现的、将数据分层的、更关注基础算法特点的、关注消费行为属性等但我们不过于专注个人信息搜集。