搜索
您的当前位置:首页正文

生存分析在电信增值服务行业客户流失分析中的应用

2021-03-19 来源:易榕旅游
维普资讯 http://www.cqvip.com 第5卷 第6期 2006篮 广州大学学报(自然科学版) Journal of Guangzhou University(Natural Science Edition) V01.5 No.6 Dec.20o6 12月 文章编号:1671-4229《2006)06-0033-04 生存分析在电信增值服务行业客户 流失分析中的应用 刘绍清 2,黄章树2 (1.福州职业技术学院,福建福州350002;2.福州大学管理学院,福建福州350002) 摘要:利用生存分析对一家电信增值业务提供商的客户流失数据进行了实证研究。提出了一个预测客户流 失概率的模型.利用该模型能及时准确地掌握客户流失情况,以此可以提高企业决策的针对性,降低客户流 失率. 关键词:生存分析;数据挖掘;电信行业;客户流失 中图分类号:TN 915.0l 文献标识码:A 企业为了有效地保留客户,有必要建立有效 的客户流失模型,快速、准确了解客户的流失情 况,如每个客户流失的概率有多大,某个客户流失 的原因是什么,谁是潜在的流失客户等,并据此有 针对性地制定营销策略,采取行动让客户满意,留 住客户,将最好的客户留住更长的时间,以提升客 户存在期的价值,最终达到减少客户流失的目的. 目前,很多人提出用神经网络…、决策树¨l2 J 和Logistic回归¨ 建立客户流失模型,但是,由 析的时候,很多客户还是在用用户,还没有发生流 失,故我们不知道他们流失前使用时间的确切值, 只知道肯定大于等于某个数,由于某种原因被截 断了.如果此时使用Logistic回归等挖掘工具进行 分析,由于这些工具是针对没有截断的完全数据 进行分析的,截断值并不是真实值,所以得到的分 析结果将偏低失真_4 J. 对于这种包含生存时间不能准确观测到的对 象,既不能简单地弃之,又不能充分信任的信息,如 何充分利用呢?生存分析提供了很好的解决方法. 生存分析的方法主要有参数法和非参数法两 种.1972年COX提出了比例危险模型,简称为 COX模型,就是一种常见的非参数法.它采用分 析生存时间与多个危险因素(自变量X)的关系, 以对危险因素的作用大小有全面的了解和掌握, 于客户流失数据集本身的特殊性,这些方法使用 起来都有值得斟酌之处.鉴此,本文结合一家电 信增值服务企业的营销数据,利用生存分析方法 建立一个客户流失模型,经实践证明,这个模型 对于指导企业进行客户流失管理是有效的. 1 客户流失数据集的特点和模型选择 客户流失数据集本身存在如下的特殊性:第 客户流失分析所用的数据集包含已经流失的 用户(流失用户)和还在使用的用户(在用用户) 的数据,由于在用用户随时都可能流失,使用上述 数据挖掘工具就会碰到问题,即数据集中可能有 一并根据危险因素的不同取值对危险概率(流失概 率)进行预测.它在处理客户流失方面的优点是 明显的_4]:①既考虑危险(这里是流失)事件“发 生,不发生”的结局,也充分利用生存时间(t)的信 息;②能处理截断数据;③能够给出各危险因素对 结局的相对危险度,反映危险因素对结局的关系 大小. ,很多用户,收集分析数据时是在用用户,但结果出 来时已经发生了流失,这样就会给挖掘工具一个 错误的指导信息,挖掘工具根据这个指导信息建 2 分析过程和模型的建立 这里的分析是参照一个完整的数据挖掘过程 立的模型的可靠性就很值得怀疑;第二,截止到分 收稿日期:2006—02—22;修回日期:2006—05—23 基金项目:国家自然科学基金资助项目(70571015) 作者简介:刘绍清(1974一),男,讲师,系统分析师,硕士研究生,主要从事数据挖掘和信息系统的研究 维普资讯 http://www.cqvip.com 广州大学学报(自然科学版) 第5卷 进行的,具体分为业务问题识别、数据选择、数据 清洗和预处理、模型建立、模型解释、模型的评估 与检验、模型应用7个阶段 2.1业务问题识别 我们的目的是建立一个客户流失模型,用以 反映用户类型、用户地区等属性数据与客户流失 概率之间的关联,并给出明确的数学公式.根据此 模型企业能够预测客户流失的概率,揭示潜在的 流失客户,指出某个客户流失的主要原因,制订针 对性的营销措施来提高客户忠诚度,防止客户流 失的发生,改变以往电信增值业务提供商在成功 获得客户以后无法监控客户流失、无法有效实现 客户关怀的状况 J. 2.2数据选择 经过分析比较后,客户流失分析的目标变量 选择为客户流失概率,输入变量包括用户的地区 (福州,厦门等地区)、用户类型(联通手机、移动手 机、电信小灵通)、总发送短信条数、总接收短信条 数、使用时间. 2.3数据清洗和预处理 利用SPSS公司的数据挖掘软件Clementine 采用可视化方式进行数据清洗和预处理:清洗掉 其中有缺失值的记录;对两个分类变量(用户地区 和用户类型)进行零散化处理,得到5 676条用户 记录,并利用Clementine数据抽样控件将其分为 两部分,其中60%约3 406条记录用于建模,其余 04%约2 270条记录用于对新建模型进行检验和 修正,最后将清洗后的数据存放在数据库中. 2.4模型建立 在模型建立之前,先利用生存分析另外一种 非参数方法(Kaplan-Meier法)分析客户所在的地 区和客户类型对客户的流失概率是否有显著影响, 并删除影响比较小的变量,以提高模型的精确度。 2.4.1客户所在地区对流失概率影响的显著性 分析 因为用户大部分都是福州地区的,其他各个 地区用户数都比较少,所以,将用户按照是否福州 地区分为两类,用SPSS12.0提供的Kaplan-Meier 法进行生存分析.参加分析的总共3 046个用户 信息,其中福州地区占了1 822个,其他地区占了 l 584个.他们的平均使用天数和中位使用天数资 料如表1所示. 从表1分析结果可以看出,福州地区的用户 平均使用天数和中位使用天数明显都比非福州地 区的用户长,且长达40%(参考倍数列)以上. 衰1 不同地区用户的平均生存时间和中位生存 时间 Table 1 Means and medians for survival time 从二者的生存函数(图1)看,福州地区的用 户在使用了220天后,仍然还有40%左右的用户 没有流失,而非福州地区的用户各个时间段的生 存率比较低,而且到了115天左右,生存率急剧下 降,到180天的时候,生存率为0,即所有的用户都 流失干净. 用户使用天数 图1不同地区用户的生存函数 Fig,1 Survival functions of diferent areas 从以上两个方面分析可知:福州地区和非福 州地区的用户使用时间差异是比较明显的. 2.4.2用户类型对客户流失概率影响的显著性分析 将用户类型分为三组,用SPSS12.0提供的 Ksplan-Meier法进行生存分析,对这3 4o6个用户 的平均使用天数、中位使用天数以及生存函数进 行分析,分析结果如表2所示. 从表2分析结果可以看出,不同类型用户的 平均使用天数和中位使用天数差别比较明显,其 衰2不同类型用户的平均生存时间和中位生存时间 Tab1e 2 Means and medians for survival time 由于电信小灵通用户流失少于总用户数量的一半,所 以没有这项数据. 维普资讯 http://www.cqvip.com 第6期 刘绍清等:生存分析在电信增值服务行业客户流失分析中的应用 35 中移动用户使用天数最短,平均使用时间只有联 通的58+715 6%,只有电信的62.136 0%;中位使 用天数只有联通的38.461 5%. 从它们的生存函数(图2)来看,电信用户的 生存率普遍比其他两种类型用户高,而且高很多, 在使用了120天后,仍然还有65%左右的用户没 有流失,而联通用户只有40%左右,移动用户则只 有20%左右. 从以上两个方面分析可知:不同类型的用户 使用时间差异也是比较明显的. 1.O O.8 锝0.6 跏4 O.2 O.O 用户使用天数 图2不同类型用户的生存函数 Fig.2 Survival functions of different customers 2.4.3 COX回归分析模型建立 经过以上分析,不同地区用户、不同类型用户 的使用时间有比较大的差异,再结合总发送短信 条数、总接收短信条数、收发短信总条数、收发比、 日平均收发数等变量对流失概率进行逐步回归分 析.经过逐步的筛选,得到一个最著的COX回归 方程,详细数据信息如表3所示.从表中检验值 Sig.列可知,自变量接收总数、是否福州地区、用 户类型的检验值都小于0.01,三者对流失概率在 0.O1水平上是 著的. 表3方程中的变量 Table 3 Variables in the equation 目. p SE Wald Df Sig Exp(B) 系数标准误检验值自由度检验值风险因子 根据系数(B)列参数的估计值,可以得到客户 流失模型如下: h (t)=hn(t)X e(m。。 -0,601x ̄) 其中hi(t)为第i名用户使用到t时刻的流失概 率,h。(t)是当所有危险因素不存在时的基础流失 概率,它在各个时间点的值在基底风险率表(略) 中可以查得, , 。分别表示表3中三个变量 (接收总数、是否福州地区、用户类型). 2.5模型解释 从这个模型可以得到以下两方面的启示. (1)识别客户流失各危险因素(自变量 )作 用方向和大小 变量“接收总数” ,的系数小于0,意味着用 户接收的短信越多,总体上用户的流失概率就越 小.从它的风险因子0.999(表3)可以看出,在其 他条件不变的情况下,接收的总数每多一条,则用 户在某个特定时刻流失的概率平均将降低0.1% (=0.999—1). 变量“是否福州地区” 的系数小于0,意味 着变量的取值越大,用户流失概率就越小.在对该 变量离散化的时候,令福州地区用户的该变量取 值为1,非福州地区用户的取值为0,所以,福州地 区的用户总体上流失概率比较小.从它的风险因 子0.770(表3)可以看出,在其他条件不变的情况 下,福州地区用户的流失概率会比非福州地区用 户的平均降低23%(=0.770—1). 变量“用户类型” 。的系数小于0,意味着变 量的取值越大,用户流失的概率就越小,由于在对 该变量离散化的时候,令移动、联通、电信这三类 用户的取值分别为0、1、2,所以这三类用户流失的 概率从总体上依次变小.从它的风险因子0.549 (表3)可以看出,在其他条件不变的条件下,每种 用户比前一种用户的流失概率平均会降低45.1% (=0.549—1). (2)预测每个用户的流失概率 利用得到的客户流失模型,结合基底风险率, 在了解用户的类型、所在的地区及其目前接收的 记录数,我们就能预测每个用户当前的流失概率. 比如,一个福州地区( 1)的电信用户( 。 =3),他目前已经注册这个聊天业务5天(从基底 风险率表可查得其基底风险率h。(5)=0.294),共 收到l0条短信( =10),则我们可以估计这个客 户目前的流失概率为3.691 4%,具体运算如下. h (5)=hn(5)×e( 。。 m m∞ d): 0.294×e(一n 00 0一n 26 一o・60 ) = 3.591 4% 3 模型的评估与检验 利用这个模型预测该公司所有在用用户的流 失概率,并按照预测的流失概率大小以10%的组 距把用户分成10组,跟踪观察2个月后,将各组2 个月内流失的用户数除以刚分组时各自的用户 数,得到2个月的用户流失比率.用预测的流失概 率和跟踪计算的流失比率分别为横轴和纵轴,用 维普资讯 http://www.cqvip.com 广州大学学报(自然科学版) 直方图表示如下(图3). 第5卷 4模型的应用 匿 媛 目j兰 根据这个模型,企业在资源有限的情况下,可 用户流失概率/% 图3用户流失比例一流失概率图 Fig.3 Customer’s loss proportion—probability diagram 从图3可知,首先,一般说来,流失概率比较 大的组,在这2个月里流失比率也比较高;其次, 预测用户流失概率若小于20%,则用户在两个月 重点开发电信用户,然后开发其他类型用户,重点 开发福州地区用户,然后是其他地区的用户.企业 也可以根据这个模型预测用户的流失概率,配合 公司的营销策略和对用户的重要程度分析结果, 采取相应的措施,挽留重要的用户,为公司的营销 策略提供指导信息. 该公司经过一段时间努力后,公司用户注册 数量明显增加,而流失用户的数量则在降低,用户 的各项相关指标都有了比较明显的改善.在这家 公司取得初步成绩的基础上,我们又将该模型推 荐到另外的几家公司,都取得了一定的改善效果. 这说明,这个模型给公司带来了一定效益,具有一 定的应用价值. 内实际发生流失的可能性是比较小的,若大于 20%,则需采取措施进行挽留,否则用户在两个月 内实际发生流失的可能性就比较大. 这两个月跟踪情况说明,用这个模型预测用 户流失概率的准确度是比较高的. 参考文献: [1] 管东升.移动通信业客户流失行为预测技术的研究[J].电脑开发与应用,2005(10):55-57. GUAN Dong—sheng.Research on the technology of predicting customers loss in mobile communication industry[J].Com- puter Development&Applications,2005(10):55-57. [2]郭明.基于决策树的客户流失分析[J].广东通信技术,2004(11);37-40 GUO Ming.The analy8i8 of customers loss based on the decision tree[J].Guangdong Communicaiton Technology,2004 (11):37.40. [3] 石永华.电信业务流失建模的研究[J].广东通信技术,2003(6):15-20. SHI Yong-hua.Research on hte modeling of telecom service chum[J].Guangdong Communication Technology,2003(6): l5_20. [4] [美]ELISA T.LEE.生存数据分析的统计方法[M].陈家鼎,戴中维译.北京:中国统计出版社,1998. [U.S.]ELISA T EE.StLatisitcal methdso for survival data analysis[M].Translated by CHEN Jia—ding,DAI Zhong-wei. Beijing:China Statistics Press,1998. [5] 龙志勇.数据挖掘在电信行业客户关系管理中的应用[J].信息网络,2003(12):24-26. LONG Zhi—yong.Application of data mining in CRM fo telecom industries[J].Information Network,2003(12):24-26. Application of survival analysis in the customer churn of SP enterprise LIU Shao—qi 一,HUANG Zhang-shu2 (1.Fuzhou Institute of Technology,Fuzhou 350002,China; 2.College of Management,Fuzhou University,Fuzhou 350002,China) Abstract:In order to raise the pertinence of customer marketing decision and reduce customer chum rate by big percentage,the article carries on a positive research on the customer chum data of a SP enterprise by using the COX mode1.As a result,the model,which can make a prediction of customer’s chum probability,put forward to the purposes desired are accomplished. Key words:survival analysis;data mining;telecom;customer chum 【责任编辑:方碧真】 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top