作为职业社交网站的鼻祖,LinkedIn本质上就是一家通过运营大数据进而产生商业价值企业。从2002年12月创立到2013年初,LinkedIn注册用户已到2亿,平均每秒增加一个新用户,86%的“财富100强企业”正在使用LinkedIn的付费解决方案,270万个公司主页在此安家落户,用户每年发起超过几十亿次搜索。据悉,在LinkedIn上一季度1.61亿美元营收中,“人才解决方案”的贡献已经超过了一半。而与Facebook和Twitter不同,LinkedIn相对更为低调,但盈利状况却非常不错。日前,CSDN云计算频道记者在2013 Teradata大数据峰会上,专访了LinkedIn商业分析部总监张溪梦(Simon Zhang),深入了解LinkedIn背后的平台技术以及通过大数据分析所带来的商业价值。
数据分析,支撑LinkedIn五大部门
随着企业对大数据分析认识的逐步深入,数据分析已经被提到企业信息构建的议事日程中。但更多企业只是将数据分析作为业务及IT部门的外延或项目管理来定位,鲜有将其作为独立部门设置,更不要说与研发、产品、市尝销售、运营等五大核心部门并列存在。LinkedIn反其道而行之,就这么做了。
LinkedIn Corp商业分析部总监张溪梦(Simon Zhang)
问:LinkedIn是如何定义商业分析部门的?
张溪梦:LinkedIn有三大块业务版块,一是人力业务,上个季度财报显示,占营收的53%;;二是市场推广广告,大约占27%;三是高级订阅服务,和LinkedIn的会员有关系,占20%。这三大业务都需要数据分析的支持。我所率领的团队现在55人(目标是60人左右),工作重点是就是对2亿注册用户通过集成数据架构、BI、数据挖掘和分析,直接支持近2700-3000位LinkedIn内部员工(目前LinkedIn大约有3500-4000个员工,这意味着满足70%员工的数据分析)的需求,这些需求覆盖到研发、产品、市场推广、销售和运营等五个主要商业职能部门。
问:为什么这么多内部员工有数据分析的需求?
张溪梦:有人将LinkedIn定义为找工作的平台,但事实上,从LinkedIn的数据来看,只有20%的人是比较活跃地在找工作,大约80%的LinkedIn用户主要的商业目的是同其他公司建立联系/关系。他们希望能够连接世界上所有的专业人士,使工作更为有效率、更富影响力、更成功。这些需求反映到LinkedIn内部,就是五大职业部门都有不同的数据分析需求,且差异很大。
问:构建在数据平台上,LinkedIn的产品如何设计?
张溪梦:对的。LinkedIn本质上就是利用数据产生价值。所有的产品设计原理就是从数据分析中获得”有关人的关系“。举例来看,LinkedIn的会员数据会不断变化,从中显然会产生更多有价值的新产品,比如2008年推出的“您可能认识的人”,以及我们现在开发的“您会感兴趣的工作、您会认识的人、您可能会喜欢看的等”,这些产品会促进业务增长,增强用户粘性。而在此基础上,最核心的业务(占到40%—50%)猎头业务,作为纯数据的业务,目的就是帮助企业找到最适合的、最优秀的人才。在LinkedIn看来,保证公司成功最核心的就是人才,从数据中分析人,帮助这些人才成功,是我们不变的理念。
问:这些新产品从数据逻辑原理上看,基本是相同的,彼此有什么区别么?
张溪梦:数据基本原理都是完全一样的,而本质都是通过数据来发现相关性,进而形成社交网络(Social Network)。之前LinkedIn更多做针对会员的基础性产品,现在数据平台已经建成,并获得利润空间,是时候做更多深度挖掘的工作了。这些产品彼此之间的交叉分析将是新的产品,如通过人与人之间的关系做不同颜色的区隔,形成多样性新分析才更具价值。
技术实用主义:开源,闭源都用
即使是极为追求开源技术的互联网巨头,也是开源技术与闭源方案都用。因为在他们看来,市场上没有好产品就自己研发,然后开源出去给更多人分享;市场上有成熟高效的产品,就立即拿来应用。因为,要实现盈利和生存,“快”是最根本的需求。
问:数据分析平台经历了哪些变迁?
张溪梦:人与人之间的关联不仅是线性增长,更多是几何增长的。比如你认识500人,他们背后各自又有500人的连接,发散下去,三级网络是500×500×500。而要对这些数据进行分析,几年以前,用的是传统数据库,计算一次要几天到一个星期;而后用了Aster Date(Aster当时尚未被Teradata收购)来换算数据流,数据量缩短不少;再到迁移到Teradata大数据分析平台,现在分析比原来基数要大数十倍的数据也仅需要几个小时,速度是原来的几十倍。
问:几天前,我们曾发表文章《Operation InVersion:拯救了LinkedIn的大修项目》提到LinkedIn去掉原来传统数据库,代之以自己开发的Voldermont存储系统和Kafka消息系统。您怎么看?
张溪梦:对,和其他互联网企业一样,LinkedIn也崇尚开源。LinkedIn是最早使用Hadoop的,无论是增加SQL层实现从Hadoop中抓取数据,还是基于Hadoop的开源安全加密方案,LinkedIn几乎都是第一家提出并落地的。工欲善其事,必先利其器。LinkedIn本身也有很多开源工具,但对我们而言,关键是要快。有些业务部门跟我说,不要说BI要2个小时,我们就需要5秒内出结果,甚至有些方案,最好一个按钮就能出来。这类服务,其他企业是根本提供不了的,所以我们都是自己开发。但是另一类,本身就有企业在专业方面做的更好,比如Teradata天睿公司在企业数据仓库(EDW)中确实是最成熟、稳定、速度也是最快的。那为什么不采用呢?在LinkedIn内部大概有25种不同的数据库和数据解决方案,其中60-70%都是内部开发的,但在数据仓库方面,通过6个月时间严格评测最后选定了Teradata。
问:怎么看待开源和闭源之间的关系?
张溪梦:在技术角度来说,开源和闭源之间是有一个平衡的。开源速度快,但不稳定需要优化;闭源稳定,但反应速度比较慢。LinkedIn在互联网里面技术方面是非常前端的,很多需求倒逼升级,甚至有些需求所需要的技术支持在之前并不存在,所以要去开发。比如,以前开发BI解决方案,需要2秒钟内得到分析报告,这在市场中根本不存在。我们团队花了2个月4个人做出来系统,而且是开源的。再举个例子,统计分析有两个知名系统,SAS和R。前者稳定,闭源,价格高昂,功能众多,一般只有大型企业才用得起,而后者是开源的,反应快,不稳定,但在专业领域中很有优势。现在即使在硅谷,也有很多企业都开始尝试R,渐渐从闭源移到开源。原因不在技术,而是在人。开源技术的拥护者都是年轻人,随着年轻人在企业地位的提升,开源技术的采用会更加普遍。这是人和技术之间交互的过程。对开源和闭源方案,我认为就像打高尔夫一样,不同的球杆有不同的作用,开源有开源的作用,闭源有闭源的好处,如何能够最好地实现商业目的这是最重要的。不一定是必须要开源,或者必须要闭源。
问:LinkedIn的开源产品大部分都回馈到社区了?
张溪梦:很多,LinkedIn开源了很多核心的源代码。比如说以前LinkedIn的数据库,中文名字叫“帅”。这个数据库非常快,比一般的快十倍左右。LinkedIn开发出来以后就直接开源了。还有LinkedIn做的DataFu基于Hadoop统计学库,其中有很多Hadoop应用,还有一些“你可能认识的人”的算法,全部开源到Hadoop系统中了。现在很多人都在用。
新模型:从金字塔到菱形
LinkedIn内部数据增长在1000倍左右,但是数据价值并非同数据量增加呈线性对应关系,有时候,甚至是因为数据量增加使得价值降低了。举个例子,数量增大,硬盘增大,存储成本必须增加,但系统速度会变慢,以前一个分析或者需要一天,现在同样的分析则需要一周。但增加的价值不足以抵消成本的增加时,压力会非常明显。所以,LinkedIn构建了一套新模型,从金字塔变成菱形,面积缩小一半,真正将大数据做小,实现团队快速运行。因为对决策团队而言,真正有价值的数据也许只有1K—几十K。用语言描述就是实现“是还是不是,做还是不做,什么时候做,做什么。”
问:从金字塔到菱形,技术上看,如何做到的?
张溪梦:LinkedIn以前的整个分析结构是一个金字塔形结构。基础是公司的业务,比如说LinkedIn会员数据是底层基矗其上是LinkedIn产品、市场推广、销售、运营等基本核心业务,再上面分别是产品追踪、数据和数据质量管理、专题分析、商业智能与报告、深度分析,最后才是商业洞察,决策。这个宝塔是一个非常慢的过程,越在底下花的时间越多,但真正有价值的是最后这几个步骤。但是,这显然与LinkedIn快哲学不同。要快,就要改变这个模式,所以我们将大金字塔做成菱形。从数学上看,一个等边三角形,把它变成了一个对等的菱形的话,面积缩小一半。也就是说,用技术把底做小,用机器和科技为人服务,人的智慧主要集中在上面这种结构,比如深入分析、决策支持。这个阶段已经被证明是高效的,我刚开始加入LinkedIn,每天从早晨8:30工作到半夜两三点,一周工作6天,一年只不过出500个报告,支持不到200人,平均每年帮助每人1-2次;但现在,我的团队每人每天就能帮助别人10次。我们的效率提升了500-1000倍,现在团队50多人,可以支持3000人的工作。而下一阶段,将再次变小,将菱形变成球形,用滚雪球的方式带来更大价值。
问:底层分析是系统/机器来做?
张溪梦:是的。数据本身没有意义,有意义的是其中的分析。现在研发、产品、市场推广、销售和运营等部门不需要找分析师,通过系统就可以直接拿到需求报告(PPT格式方案),而团队的工作是分析核心数据,做决策建议。可以这么来定位,就是历史上姜子牙、司马懿、房玄龄这些谋略和决断的支持部门。。
问:国内的技术开发者和国外的技术开发者的区别?
张溪梦:我们在能力、智慧等方面一点都不比海外的顶尖分析师差,相反,在执行上,还非常非常有效率。但唯一的一个差异,我认为是创新性。真正自主研发的创新产品,有些创新实际上就是长期积累下来的灵光一闪。我看到国内很多企业的技术很是优秀,尤其是互联网企业。但现在关键是想不想分享,怎么分享?团结的力量很大,但是封闭、保守永远会被历史淘汰。要通过新技术引领企业先前走,进而成为中国独树一帜的技术的先锋。我的团队现在平均30岁左右,是非常年轻的队伍。包含印度人、中国人、美国人、德国人,全世界各地的人都有。
兴趣+勤奋+长远规划,做喜欢的事情
学之者不如好之者,好之者不如乐之者,兴趣是最好的老师。天津肿瘤医院的外科医生到LinkedIn商业分析部总监,张溪梦一步步地发展,从睡在地上,到睡在箱子上,再到如今睡到大床上。他告诉年轻人,做自己喜欢的事情最重要。
问:从天津肿瘤医院的外科医生到LinkedIn商业分析部总监,您本身的经历就很有故事性。谈谈您对职业变化的感受吧?
张溪梦:学之者不如好之者,好之者不如乐之者,兴趣是最好的老师。作为数据科学家,我见过很多名校毕业的,他们研究物理、化学,想成为数据科学家,我对他们的建议是不要因为现在的数据科学家这个词汇非常热门,就要变成这个产业里的一员,我觉得这样的人往往最后不一定能很成功。想成功的话,需要有强烈的兴趣,非常勤奋,并有长远的目标。讲个小故事,我去美国的时候什么最火爆?护士最火爆,一年就能拿到绿卡,只要进去考个试就有绿卡了。很多人就说,你有医生的背景干脆去考护士吧。我当时就说我不去,因为我不感兴趣,这与长远目标不吻合。结果学护士现在都要等15年才能拿到绿卡,因为学的人太多了,医院都占满了。
问:对年轻的技术人员的建议?
张溪梦:我喜欢计算机、互联网、玩游戏、看杂志。到美国学了MBA,并创业(失败了),再到eBay和LinkedIn。其间开始学数据库和网络编程。一步步,从睡在地上,到睡在箱子上,再到如今睡到大床上。我的经历中得到了很多朋友的帮助,也希望将自己经历进行讲演同大家分享。美国做过相关调查,15%的人喜欢他的工作,85%不喜欢他的工作。现在,我在上海也招了很多人。因为我认为,年轻人应该做自己喜欢做的事情。