出差途中,晓红想为自己买一份意外保险,掏出手机,网络界面上,晓红简单的输入所在的城市、年龄、性别、职业、收入等信息,系统自动挑选了几只不同公司为其“定身量制”的产品,不到10分钟,晓红完成了整个购买过程。这不是某部虚幻电影里的情节,保险企业通过深层次数据挖掘的应用,不久的将来,这样的场景你我生活中随处可见。
作为中国金融业的三驾马车之一——保险业,经过数年的发展,市场竞争早已进入白热化。如何保持核心竞争力,如何增强产品的差异化,使企业立于不败之地,是保险企业时刻需要面对的问题。而保险行业,产品创新之难,早已成为行业公认的事实。无疑,信息技术成为企业提高自身竞争力的必然选择。保险行业信息化经过多年的发展,基础建设已经完善,而积累大量保单信息、客户信息、交易信息、财务信息等数据,却未得到充分的利用。近些年,越来越多的保险企业把眼光锁定数据挖掘,希望通过对数据深层次的分析及挖掘,为保险行业的趟出一条新路。
现状
数据挖掘(DM),又称数据库中的知识发现(KDD),是指从存放在数据库、数据仓库或其他信息库中的大量数据中自动地发现相关模式、提取有潜在价值的信息、挖掘知识的过程。从CRM的角度来说,数据挖掘应用就是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并能够根据已有的信息对未来发生行为作出结果预测,为企业经营决策、市场策划提供依据。
Gartner Group在最近的技术调查中,将数据挖掘和人工智能列为“未来三到五年内对行业产生深远影响的五大关键技术”之首,并且将数据挖掘和并行处理体系列为“未来五年内投资十大新兴技术”的前两位。数据挖掘的前途虽然很光明,但是,目前在保险行业的应用却不那么乐观。
新华保险信息技术部副总经理周建军表示,目前,保险行业对于数据挖掘,大部分企业尚处于浅层次的应用,应用板块包括,营销、客户分析、业务拓展、风险防御、高层决策等方面。
民生人寿保险有限公司信息技术部副总经理刘东城也表示,目前,数据挖掘在保险行业进展比较缓慢。早期的数据挖掘主要应用于保险企业的统计报表中。而统计分析的数据主要应用于企业业务发展和经营管理两方面。一方面,各个渠道的业绩如何?排名如何?这些数据都可以进行浅层次的分析,为各个销售渠道提供参考。另一方面,各种保险产品的经营情况如何?盈亏情况如何?不同产品如何分布?而这些数据的挖掘也可以为公司的管理层决策提供参考。数据大集中之后,数据挖掘的应用对于业务、产品、客户等方面都带来了很大的便利。通过大量的数据分析,可以进一步看出不同的产品更适合哪类人群的需求,不同年龄、民族、地域的客户共同的需求有哪些,针对这些差异定制不同的产品。
目前数据挖掘在英大泰和的贡献有两方面,一方面是业务上的支撑,另一方面是决策上的支撑。英大泰和人寿保险公司项目经理王国林说,业务上的支撑主要通过对客户的分析、保单的分析来实现,主要体现形式就是日常的业务报表。决策支撑,主要是给决策层的数据参考,其中包括,新产品如何开发,如何留住老客户等数据信息。英大泰和统计分析涉及面比较大,主要涉及13个保险业务应用部门,主要是营销和业务方面的应用,比如,个险、团险、银保、电子、客户、人力、财务、投资等方面。
除了业务、客户、渠道、决策等方面的应用,数据挖掘还被应用于保险业“反保险欺诈”中,阳光财产保险公司信息技术部总经理石运福认为。在数据分析过程,一些数据对象可能因与一般行为模型不一致,而视为异常而丢弃,但是,在保险欺诈、信用卡欺诈等异常行为识别上,专门针对异常数据的挖掘具有更为重要的价值,因为保险欺诈行为作为一种非正常行为,它的数据特征、模型正是隐含在这些异常数据中的。于此相比,传统数据分析就只能发现一些“保险欺诈”浅层次的特征,如重复投保、高额投保、频繁投保等,影响欺诈概率、欺诈金额等,数据挖掘在这方面正好弥补了传统数据分析的缺憾。
1989年,KDD(数据库中的知识发现),这一概念在第十一届国际联合人工智能学术会议上第一次被提出。时至今日,为何数据挖掘在保险行业的应用还停留在报表分析等浅层次的应用?保险行业的CIO对于数据挖掘的又有哪些无奈?
瓶颈
近些年,各家保险企业逐渐认识到商务智能、数据挖掘的重要性,BI也纷纷提到项目建设的日程上。但是,对于数据挖掘更深层次的应用,很多保险行业的信息主管们也表示,目前保险行业的一些现状已经成为制约数据挖掘深层次应用的瓶颈。
中国人民健康保险公司副总经理杨建表示,数据数量是制约保险行业数据深入挖掘的根本原因。商务智能、数据挖掘的基础就是数据。数据如果没有一定量的积累,数据挖掘也很难达到有效的应用。另一方面,保险公司的系统非常的繁杂,除了负责日常承保、理赔等核心业务的系统之外,往往还有专门的客服系统、CRM、网站、电子商务、财务系统、精算系统、准备金系统等等。如果要使用数据挖掘就需要先建立数据仓库,抽取个系统的数据,但是,往往很多公司各系统之间相对独立,这就出现了数据孤岛的现象,而数据也很难整合、统一到一起。除此以外,投入产出比也是保险公司建设数据挖掘的重要考量,目前,很多外企数据挖掘的配套方案都会包括咨询和实施,因此应用的方案一般都比较贵,而数据挖掘的建设回报并没有立竿见影的效果,所以,这一点也是很多保险企业的顾虑。
王国林补充道,数据挖掘最大的瓶颈在于数据的质量。保单信息、客户信息往往无法保障百分之百的真实、有效。数据分析,对于数据的要求非常高,包括客户的年龄、收入、婚姻状况、职业等属性,而数据的准确度直接影响着数据挖掘的准确度。虽然保险公司已经采取回访等措施去解决这一问题,但是面对巨大的数据量,还是需要更彻底的解决方式。
对于保险行业数据的质量问题,Informatica公司中国区高级技术顾问姜炜也提出了自己的看法,数据挖掘建立在数据真实性和完备性的基础之上。如果数据不能真实准确的反映实际发生的业务,或者数据是不完备的,这就意味着数据分析和数据挖掘的来源不可靠,分析的结果也必然不可靠。因此从顺序角度来说,数据质量管理要在数据挖掘之前做。决定数据质量的原因有很多,直接因素有:信息因素、技术因素。间接因素有:流程因素和管理因素。大多数造成数据质量问题的原因,背后通常都与管理缺失因素有关。因此数据质量管理,除了针对数据本身的检查、修改和监控,也包含对流程上的管理和改善。数据质量管理,不仅需要通过数据质量检查(清洗)工具和一定的检查规则(Rule),发现数据问题并且改正数据,还需要通过访谈获得管理上的缺陷,以制定预防措施,这些都需要依靠专家的经验。
质量检验是数据挖掘过程中的重要环节,是数据预处理工作的基础。长期以来,国内IT系统在运行过程中对于数据质量缺乏关注。数据质量较低。很多项目由于开始未经过周密的数据质量检验,导致通过数据挖掘建立的模型有偏差,甚至结果完全错误。数据质量问题已严重影响到数据挖掘技术的应用,成为数据挖掘项目成败的关键因素。一、数据质量的定义目前对数据质量还没有统一的定义,针对数据挖掘工作,一般是指合适数据挖掘使用的程度。数据挖掘的模型很多,针对不同的模型,对数据质量的要求也各不相同。二、数据质量问题产生的原因在信息创造、生产、整合的全部过程中,任何环节出现疏漏、错误,都将导致数据质量问题,影响数据挖掘的结果。
刘东城对于数据挖掘的瓶颈也做了自己的补充,除了数据量、数据质量等条件的制约。技术上,一方面,数据挖掘缺乏统一的指标,目前,对于不同的保险企业,数据挖掘基本都是在基础指标上做了扩充。另一方面,更丰富的数据模型的建立,数据仓库需要把数据进行归类,按照不同主题建立不同的数据模型,比如:被保险人的信息、投保人的信息、受益人的信息等等,每一类主题也可以在进行细化,以便数据仓库的使用,便于产品优化、决策支撑、客户分析等应用。
杨建也同意刘东城的的建议,并表示,数据挖掘标准的制定以及数据模型的开发,需要各种保险企业与服务厂商一起进行商讨,需求和供给达到最大化的平衡,另一方面,与一些专门研究数据挖掘模型、算法的高校,保险企业也可以实践与理论相融合。
对于数据挖掘在保险行业未来的发展,保险企业的信息主管都持有乐观的看法。
δ