聚类分析原理(分类与聚类的区别举例)

编辑导语:聚类分析是对样本或指标进行分类的统计方法。它可以帮助我们窥探不同人群之间的数据差异,也适用于基于量化数据的用户分类实践。本文以一个金融借贷服务流程再造

编辑导语:聚类分析是对样本或指标进行分类的统计方法。它可以帮助我们窥探不同人群之间的数据差异,也适用于基于量化数据的用户分类实践。本文以一个金融借贷服务流程再造中的用户分类为例,阐述了聚类分析在用户画像中的应用。让我们看一看。

聚类分析原理(分类与聚类的区别举例)插图聚类分析是对样本或指标进行分类的统计方法,是一种探索性的数据分析方法。

聚类分析将看似无序的对象(如桌子、人、树、情感、想法等)分组分类。),并根据个体或样本的特征进行分类,使同一类别的个体具有尽可能高的同质性,而不同类别/群体具有尽可能高的异质性,从而更好地了解研究对象。

人以群分借助聚类分析算法,我们可以窥探不同人群的数据差异(如图1)。因此,这种方法也被应用到基于定量数据的用户分类实践中。

聚类分析原理(分类与聚类的区别举例)插图(1)图1:二维聚类分析示意图(2个变量)

但由于聚类分析中使用的数据没有明确分类,聚类分析后的类别数是未知的。

也就是说,我们不知道用于聚类分析的样本的分布情况,也不知道系统会把它们划分到哪些类别,也可能事先没有任何相关的类别信息可供参考。

所以聚类分析更像是一种建立假设的方法,还需要其他统计方法来检验相关假设。在生成用户画像的过程中,建议将聚类分析作为探索分类结构和提供数据支持的手段,而不是(或不可能)完全依靠聚类分析来形成终端用户分类结论。

结合以下某金融借贷服务流程再设计中的用户分类案例,阐述聚类分析在用户画像中的应用。

01 聚类分析适用的数据类型

聚类分析使用的数据类型主要是多维的、连续的/层次的/分类的变量,要求数据量足够大,且客观可测。所以更适合已经拥有海量多维度用户客观数据的研究者。

数据来源包括:运营一段时间的产品后台数据、电商浏览购买行为数据、客户CRM数据、微信微信官方账号后台数据等。

基于这些数据,我们可以通过客观数据将用户分为几类,比如用户的实际行为数据(比如点击、转发、使用频率等。)和人口统计数据。因此,聚类分析被广泛应用于消费者行为研究、市场细分研究、电子商务运营策略研究等涉及人、市场和消费者行为的研究项目中。

在用户分类的过程中涉及到聚类分析:在用户研究中,用户分类可以基于定性或定量的数据,但最终会收敛到一个具体的、清晰的、经验性的分类模型,可以服务于未来的产品设计和运营。如图2所示:

聚类分析原理(分类与聚类的区别举例)插图(2)图2:2019年微众银行用户调查人群画像

仅仅依靠数据无法帮助我们定义和解释不同类别的样本剖面,也无法将统计结果直接应用于生产设计和经营活动。

因此,聚类分析的方法应与定性研究(如产品走查、用户访谈、内部访谈、观察、研讨会等)相结合。)和定量研究(问卷调查、访谈调查、接受测试等)。)前期和后期。在这种情况下,研究人员采用了先定性分析,再聚类,再定量分析的方法来形成和使用聚类分析的结果,如图3所示:

聚类分析原理(分类与聚类的区别举例)插图(3)图3:金融借贷服务流程的重新设计——创建用户画像的流程

再者,从机器学习的角度来看,聚类分析是一种无监督的学习。根据不同的数据选择策略和不同的聚类算法,系统会给出不同的分类模型。

至于哪个模型是符合实际研究的“最优解”,需要研究者自己决定。这意味着我们所依赖的工具在做用户分类时,需要根据数据在研究者提供的海量数据中的分布形式,逐步探索数据的分类形式。因此,最终数据分类结果的质量对研究者理解、把握和解读数据有着更高的要求。

这就要求研究者在使用数据进行聚类之前,对数据的业务内涵有相当的把握和敏感度。

02 聚类分析用于用户分类的操作流程

1)样本数据选择

根据前面的定性研究和生成的假设,选择可以用来描述和定义用户的数据维度。在这种情况下,研究者通过定性访谈、内部访谈等研究,了解到不同用户在贷款周期、贷款金额、还款表现行为、犹豫周期等方面存在较大差异。因此,研究人员可以有目的地选择可能有用的数据。您可以列出所需尺寸的数据列表,并从数据控制器中获取。

在选取数据时,也可以参考相关文献,比如业内竞品常用的数据/参数模型,建立自己对研究所需数据标签的认知。图4显示了一个银行产品的用户标签系统,在这种情况下选择样本数据时会参考该系统。

聚类分析原理(分类与聚类的区别举例)插图(4)图4:某银行理财产品的用户标签系统

2)样本数据清洗

这一步的目的是去除默认值、异常值、不合理值和非研究类值。研究人员可以根据项目的实际需要,剔除可能成为干扰项的数据。比如对收入进行标准化,剔除超出3个标准差的异常值,剔除超出研究范围的样本(比如60岁以上)。

注意保存清理逻辑,并在团队成员间共享,以便随时恢复误删的数据。

3)数据编码和标准化

它涉及到数据类型的转换和数据可读性的调整。由于聚类分析需要一定规模的连续变量和分类变量,对于一些模糊变量,团队成员要在协商后给其明确的数据类型定义,并给出相应的定义值。另外,注意这些编码逻辑的保存。商业数据中往往夹杂着许多术语和缩写,因此研究人员需要将它们转化为易读的符号并记忆下来。

如图5所示,在这种情况下,申请类型、输入渠道和还款方式是分类变量,卡B的得分描述了用户的信用程度,可以定义为等级变量或连续变量。

聚类分析原理(分类与聚类的区别举例)插图(5)图5:金融借贷服务流程的重新设计——原始数据编码的逻辑片段

此外,为了顺利运行聚类算法,需要将不一致的数据单位调整为一致的、标准的度量单位,例如,将“利率”转换为“月利率”或“年利率”。

4)变量处理和特征提取。

这一步的目的是压缩和降低冗余数据的维度。

原始变量可能有数百或数千个维度,但用于聚类分析的最终变量需要能够很好地描述用户行为。有时,研究人员需要对数据进行一些简单的处理,以获得一些更关键的变量。例如,研究人员可以从最终处理时间中减去第一次用户查询时间,以获得中间差异。这个变量(犹豫时间)可以用来描述用户在金融借贷产品中的消费风格。

此外,聚类算法要求变量之间具有很强的独立性。因此,研究人员需要尽可能整合相关性高的变量。更严格的方法可以通过关联规则分析发现和排除高度相关的特征,或者通过主成分分析降低维度。

5)选择聚类分析算法。

在SPSS统计分析软件中,常用的聚类分析算法包括两步二阶聚类、K-means聚类和层次聚类。不同聚类分析的算法逻辑不一样(这里就不赘述了),需要的变量类型也不一样,适用的样本群体也略有不同。研究人员可以根据项目的实际需要选择相应的算法。如图6所示:

聚类分析原理(分类与聚类的区别举例)插图(6)图6:根据项目的实际需要选择相应的算法

在这种情况下,研究者选择了二阶聚类算法,该算法不需要手动设置最终的分类数,有助于探索人群样本的聚类。

6)选择用于聚类的变量-测试模型的效果。

这一步是一个漫长的探索过程,需要研究者不断尝试,选择合适的变量进行聚类分析,检验模型质量和前期研究的适应性。研究人员往往需要数十次或数百次地尝试改变变量和修改参数,才能得到聚类质量高、解释能力强的分类模型。

在这个案例中,研究者选取了七个变量,包括B卡评分、还款方式、累计逾期次数、利率、使用率(用钱数占授信额度)、收入和月利息,包括连续变量和分类变量,最终得到了图7中的聚类模型。研究人员可以在“模型汇总图”中打开模型浏览器,看到聚类质量、聚类大小等图表结果(图8)。

聚类分析原理(分类与聚类的区别举例)插图(7)图7:模型概要图

聚类分析原理(分类与聚类的区别举例)插图(8)图8:集群质量和集群大小的图表

03 聚类分析结果应用

得到聚类分析的模型结果。通过模型中呈现的不同变量(包括用于聚类分析的变量和用于描述每个类别的其他变量)的数值和分布,可以描述不同类别用户的特征,每个类别的用户都会有各自突出的特征,如图9所示:

聚类分析原理(分类与聚类的区别举例)插图(9)图9:某银行理财产品的用户标签系统

通过提取不同类型用户的关键特征,结合聚类分析前获得的定性研究结果和经验,研究者和运营者讨论并定义了这五类用户的内涵和外延。如图10所示:

聚类分析原理(分类与聚类的区别举例)插图(10)图10:用户的内涵和外延

为便于业务理解和应用,进一步处理分类,将这五类用户用“风险-收益”两个独立的维度进行描述,如图11所示:

聚类分析原理(分类与聚类的区别举例)插图(11)图11:用户的进一步分类

通过这种方式,业务方可以了解各类用户对银行借贷金融业务的价值、风险、期望和需求。基于这种描述,我们可以进一步制定针对不同用户的营销和服务策略。

值得注意的是,对于与研究假设/直觉拟合度较高的模型,需要结合已知的定性研究结果和业务相关人员共同解释,使力学模型具有生态效应和业务解释力。

在得到用户分类的基本画像后,可以通过访谈、工作坊、量化问卷等方式进行补充和描述。,本文不再赘述。

作者:何龙泉,ISAR公司高级研究员。

来源:Isar中的UXD学院,微信官方账号,专注于用户研究和用户体验设计。

本文由人人是产品经理合作媒体@ Isar UXD授权发布。未经许可,禁止复制。

题目来自Unsplash,基于CC0协议。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/113930.html

发表回复

登录后才能评论