淘宝网消费研究怎么做?海量数据分析

大数据1年前 (2023)发布 aixure
54 0 0
导读:万众期待的2012数据库技术大会已于2012年4月13日如期召开,本次大会已是IT168、ITPUB、IXPUB、ChinaUnix联合主办的第三届数据库技术盛会,为满足广大数据库从业者的需要已经由两天升级为三天。大会聚集了国内最顶级的数据库专家、大量国内数据库工程师、架构…

  万众期待的“2012数据库技术大会”已于2012年4月13日如期召开,本次大会已是IT168、ITPUB、IXPUB、ChinaUnix联合主办的第三届数据库技术盛会,为满足广大数据库从业者的需要已经由两天升级为三天。大会聚集了国内最顶级的数据库专家、大量国内数据库工程师、架构师等顶级人群。

  现在谁没有网购经历?而淘宝的消费研究大家也都多少看到过,这些消费研究数据是怎么来的呢?淘宝网数据挖掘团队负责人张辉(必达)给我们现场解读。张辉说:“细节会影响数据分析的成果。”在淘宝的数据中,有很大的量可以供研究和分析。

▲淘宝网数据挖掘团队负责人张辉(必达)

▲淘宝的数据

  淘宝网惊人的数据:每天的数据4万件是最保守的统计、28PB的总数据量、3000多的扫描数据量…这样的数据尽管很吓人,但是分布还是非常有特点的。通过消费信誉等因素让消费比较集中在某些部分,这也让淘宝面对数据量很大但是压力还是比较容易处理。

▲淘宝访问来源分布

  用户行为的分析,可以整理发现很多共性,但是不是所有消费行为都具备非常明确的周期性。张辉为我们用手机话费的网上充值领域已经有非常高的规律周期性,说明网上充值业务已经被消费者认可并逐步成为习惯。当然通过淘宝的数据分析还有很多类似的情况。

▲淘宝不同的实现的系统框架

▲变量构造方法列举

  我们看到,消费者的行为信息实际上为企业经营和规划会起到很关键的作用。能够通过这样的用户行为基础数据的分析建立一个变量构造模块,我们可以通过分析变量预测未来的结果库。这里核心的是变量构造模块是直接决定这项目的结果,这个结果,看似非常理论但是经过长期的数据积累和分析,这个预测性的结果将会与未来数据能够比较吻合甚至准确,结果库可以被各种应用所利用。基础数据固然非常重要,但是变量构造的算法更是展现分析人员的想法的渠道。通过当前的行为能够看出消费者的趋势和特性,能够精确的得出目标用户。淘宝数据分析与传统方式实现是不同的,是分布式实现的、将数据分层的、更关注基础算法特点的、关注消费行为属性等但我们不过于专注个人信息搜集。

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...