k-means聚类算法的应用，聚类分析k-means的总结

中国论文网发表于2024-04-13 05:10:46 归属于电子论文本文已影响515人我要投稿手机版

今天中国论文网小编为大家分享毕业论文、职称论文、论文查重、论文范文、硕博论文库、论文写作格式等内容. 摘要本文重点讨论了聚类分析方法中k-means聚类算法在客户价值分析中的作用，通过对客户的现有价值和潜在价值进行分析，对客户进行细分。在此基础上，企业可结合行业的特征找出各类客户的特点，实行差异化服务策略，让更好的资源和服务提供给最有价值客户，从而达到顾客满意、企业盈利的目的。关键词聚类分析 k-means聚类算法客户价值1 引言市场分析理论认为，20%的客户带来约80%的利润，即帕累托所谓“关键的少数与次要的多数”的关于市场分布的一般规律[1]。通常情况下，只有少部分高价值的客户才能够为企业带来大部分利润。进行客户细分后，企业可以为高价值客户提供足够的技术和人力试粗с郑猿浞致闫涠云笠悼突х竦钠谕ｏ喾矗俨糠值图壑档目突в惺焙蛏踔粱岣笠荡锤豪蟆６蠖嗍突г虼τ诟呒壑涤氲图壑抵屑洌瞧笠抵匾目突海ǔ；岫云笠档牟莆褚导ú艽蟮挠跋臁ｒ环矫妫腔岽锤嗟目突х⒄够幔涣硪环矫妫且不嵬贝春芨叩脑擞缦铡６云笠道唇玻呒壑悼突峁┯胖实姆窈苤匾煌忝娴目突峁┫嘤φ挠姓攵孕缘姆褚餐匾?lt;/div> 作为数据挖掘技术中的一种重要的方法，聚类分析可以用于大量客户群细分。按不同特征将客户分群后，就可以为每一群开发独立的预测模型，并根据每一群的不同特点进行分析，从而提供差异化服务或产品。常见的聚类分析算法主要有以下三类：（1）划分法：给定一个有n个（k<n）元组或者记录的数据集，构造k个分组，每一个分组就代表一个聚类。对于给定的k，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好。使用该基本思想的算法有k-means算法、k-medoids算法和clarans算法。（2）层次法：对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。代表算法有birch算法、cure算法以及chameleon算法等。（3）基于密度的方法：基本思想就是：只要一个区域中的点的密度大过某个阀值，就把它加到与之相近的聚类中去，以克服基于距离的算法只能发现“类圆形”聚类的缺点。客户价值作为客户细分的关键变量，传统的市场营销或crm方案通常按客户过去或现在对企业的利润水平细分客户，把客户划分为高赢利客户、一般赢利客户和不赢利客户，以此为基础为不同类型的客户设计相应的产品或营销方案。在客户需求瞬息万变的今天，这种战略容易忽视对潜在客户和成长性客户之间关系的构建和管理，从而影响企业长期的发展。客户价值研究给企业的启示是，客户细分不仅要考虑客户当前的利润贡献，更要考虑客户的生命周期价值；也就是说既要考虑到客户的现有价值，也要考虑到客户的潜在价值。本文将应用k-means聚类算法对客户的现有价值和潜在价值进行客户的分类。2 k-means聚类算法思想及基本步骤 k-means聚类的核心思想如下：算法把n个向量xj（j=1,2…,n）分为c个组gi（i=1,2,…,c），并求每组的聚类中心，使得非相似性（或距离）指标的价值函数（或目标函数）达到最小。当选择欧几里德距离为组j中向量xk与相应聚类中心ci间的非相似性指标时，价值函数可定义为：下面给出数据集xi（1，2…，n）的k-means算法的基本步骤。该算法重复使用下列步骤，确定聚类中心ci和隶属矩阵u：

步骤1：初始化聚类中心ci，i=1,…,c。典型的做法是从所有数据点中任取c个点。步骤2：用式（3）确定隶属矩阵u。步骤3：根据式（1）计算价值函数。如果它小于某个确定的阀值，或它相对上次价值函数值的改变量小于某个阀值，则算法停止。步骤4：根据式（4）修正聚类中心。返回步骤2。该算法本身是迭代的，且不能确保它收敛于最优解。k-means算法的性能依赖于聚类中心的初始位置。所以，为了使它可取，要么用一些前端方法求好的初始聚类中心；要么每次用不同的初始聚类中心，将该算法运行多次。此外，上述算法仅仅是一种具有代表性的方法；还可以先初始化一个任意的隶属矩阵，然后再执行迭代过程。3 k-means聚类算法在客户价值分析中的应用3.1 算法描述本文所用的k-means算法，其聚类的数量k是在算法运行前确定的（这是很多聚类算法的典型情况），先从样本中随机捡取k个聚类中心，再根据欧氏距离把每个点分配到最接近其均值的聚类中，然后计算被分配到每个聚类的点的均值向量，并作为新的中心进行递归。具体的算法是这样的：假定数据点d=｛x1…….xn｝，任务是找到k个聚类｛c1……ck｝：伪代码如下：for k=1,…n,令r（k）为从d中随机选取的一个点；while在聚类ck中有变化发生 do形成聚类；for k=1，….，n dock=｛x属于d|d(rk,x)≤d(rj,x) 对所有j=1…..k，j≠k｝；end;计算新的聚类中心；for k=1，….，n dork =ck内点的均值向量；end；end；3.2 测试数据及运行结果分析 k-means算法在本文中主要是对客户的现有价值和潜在价值进行聚类分析，从而对客户进行分类，最后根据行业的特定规律和方法分析聚类的结果，产生最终的分析报告。该算法所使用的测试数据格式如表1所示。其中，sort为每组数据最终所归属的类别，id为每个客户的代码，sco1为客户的现有价值，sco2为客户的潜在价值。表1 算法测试数据格式字段数据类型字段大小必填字段默认值说明sort文本20是客户类别id数字整型是递增，主键sco1数字整型是0现有价值sco2数字整型是0潜在价值图1为利用k-means聚类算法分析出来的结果。其中，上面是客户分析界面，是对客户价值分析的图表显示，横坐标（x轴）为每个客户所属的类别，纵坐标y1（红色的竖条）为客户的id，y2（绿色的竖条）为客户的现有价值，y3（蓝色的竖条）为客户的潜在价值；下面是客户价值分析的列表显示，除了包含图表显示的内容以外，还显示了客户的一些基本数据，可以清楚的了解到每一类中每一个客户的详细信息。从图1可以看出，聚类的个数k值为3，希望把客户划分为三类，从下面对客户价值分析的结果可见：第0类客户现有价值和潜在价值都相对很高，而且之间的悬殊很小，基本上趋于平衡；第1类客户现有价值很高，但是客户的潜在价值偏低，而且客户的现有价值和客户的潜在之间的悬殊很大；第2类客户现有价值和潜在价值都相对很低，之间的悬殊的差距介于第0类和第1类之间。从一个企业的运营发展来看，第0类客户是最有价值的客户，这也就是创造那80%利润的20%的客户；第1类客户目前的情况下对整个企业的盈利来说还是贡献很大的，但是从这部分客户的潜在价值来看，是最容易流失的一部分客户；第2类客户可能是任何企业的客户中绝大部分的一批客户，这批客户的流动性是最大的，也是最不稳定的一批客户，他们可能是暂时的对企业的产品感兴趣，但是可能又马上转向了另一家企业的产品。图1 利用k-means聚类算法分析客户价值结果图4 结束语聚类分析发展到现在已是一个跨学科交叉的领域，它被广泛应用于经济分析、模式识别、数据分析等领域。特别在商业方面，聚类分析可以帮助市场人员发现顾客群中所存在的不同特征组群。本文主要是利用了聚类分析中的k-means聚类算法对客户的价值进行分析，通过分析客户的现有价值和潜在价值对客户进行分类，实现对客户的区分，企业进而可以结合自己的实际情况，确定能够为自己带来高利润的那部分客户，从而研究切实可行的营销方案，为企业不断地巩固老客户，同时也赢得新客户提供决策支持。参考文献：[1] 楼建强，赵禹骅. 证券公司经纪业务分析型crm需求设计的框架性分析. 金融与经济，2002（11）[2] david hand，heikki mannila，padhraic smyth 著；张银奎，廖丽，宋俊等译. 数据挖掘原理. 北京：机械工业出版社，2003[3] michael j. ，gordon 著；袁卫等译. 数据挖掘---客户关系管理的科学与艺术. 北京：中国财政经济出版社，2004[4] 朱爱群.客户关系管理与数据挖掘.北京：中国财政经济出版社，2001[5] james,d. better together marketing research and crm . marketing news2002 vol.36, no.1015-16

　　中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。

返回电子论文列表

展开剩余（

）

本文TAG：
本文地址： http://www.lunwen.net.cn/lunwen/dianzilunwen/328938.html

基于mvc的java web设计与开发，基于springmvc的项目实例上一篇

返回列表下一篇