聚类分析法(聚类分析的应用场景)

文章及案例数据来源:微信微信官方账号【我看人也看我】一、聚类分析是什么所谓物以类聚,聚类分析,就是根据研究对象的特点,把它们归为不同的类别,使同一类别的个体之间

聚类分析法(聚类分析的应用场景)插图

文章及案例数据来源:微信微信官方账号【我看人也看我】

一、聚类分析是什么

所谓物以类聚,聚类分析,就是根据研究对象的特点,把它们归为不同的类别,使同一类别的个体之间差异相对较小,相似性相对较大,不同类别的个体之间差异较大,相似性较小。聚类分析是一种探索性的分析方法,不同于判别分析。聚类分析事先不知道分类标准,甚至不知道应该分成多少类。相反,它会根据样本数据的特征自动对其进行分类。

聚类分析法(聚类分析的应用场景)插图(1)

二、聚类分析的应用场景

1.市场细分和用户细分

根据用户行为、渠道、商品等对原始数据进行聚类。细分市场和用户。

2.类型分类

比如根据经济发展的相关指标,通过聚类分析对不同地区进行分类,进而进一步研究经济发展与教育投入、城乡居民收入等因素的关系。

3.数据预处理

在整体情况不清楚的情况下,基于个案对原始数据进行聚类,然后进行回归分析;或者对原始数据进行基于变量的聚类,将多个变量分成几个变量,然后进行回归分析,可以减少进入回归方程的变量数量,降低分析难度。

三、聚类分析的类型

1.q型聚类

为了对案例进行聚类,并将具有共同特征的案例归为一类,以便分析不同类型的案例,例如市场和用户细分,应用了Q型聚类。

2.r型聚类

将变量进行聚类,将具有共同特征的变量归入一类,这样就可以从众多变量中选出具有代表性的变量进行进一步的分析。比如量表的维度太多,可以通过Q型聚类减少后续分析的变量数量。

四、常用的聚类分析方法

聚类分析方法有很多种。采用不同的聚类分析方法,结果会有所不同。但是,这些结果在统计学理论上是分不出好坏的。只能根据具体问题和数据特点尝试几种方法,然后观察哪种分类结果更真实合理。

聚类分析法(聚类分析的应用场景)插图(2)

(一)系统聚类法

1.方法介绍

系统聚类分析,又称等级聚类,是应用最广泛的聚类分析方法。其基本逻辑是:先将每个案例(或变量)作为一个类别,然后根据案例(或变量)之间的距离或相似度将其划分为小类别,再继续根据类别之间的距离或相似度逐步向上分类,直至将所有案例聚合为一个大类别。系统聚类分析方法适用于样本量较小的数据,一般小于200。

聚类分析方法的具体步骤如下:

(1) n种情况(或变量)归为n类,一种情况(或变量)归为一类。

(2)计算所有类之间的距离。

(3)将最近的两个类别合并成一个新的类别。

(4)计算新类别与当前类别之间的距离。

(5)将最近的两个类别再次合并成一个新的类别。

(6)重复,直到所有的情况(或变量)都归入一个类别。

(7)根据最终的聚类图,确定病例的数量和类别。

2.分类号怎么确定?

在系统聚类分析过程中,分类号的选择相对自由,可以指定具体的分类号或分类号的范围,也可以根据结果的输出树形图来选择分类号。

3.缺乏

(1)系统聚类是从每个案例开始的,所以当样本量较大时,计算工作量会非常大,所以系统聚类只适用于样本量较小的数据。如果样本数大于200,宜采用快速聚类分析方法,因为样本越大,层次聚类分析的判别图会越分散,难以解释。

(2)在聚类分析中,每个病例一旦归入某一类,就不允许改变,但最初的分类不一定是最佳选择。

(2) K均值聚类方法

1.方法介绍

也称为K-Means聚类,它在聚类数已经确定的情况下,将其他案例快速分类到相应的类别中,适用于对大样本数据进行聚类。其基本逻辑是:根据对样本已有信息的认识,首先将数据大致分为几类,然后按照一定的原则(最小距离原则或相似性原则),对初始分类进行修正和调整,反复调整,直至分类合理。

聚类方法的具体步骤如下:

(1)选择多个聚类中心,根据离聚类中心的距离分离初始分类

(2)判断初始分类是否合理。

(3)如果合理,完成分类。

(4)不合理的,按照一定的原则修改调整分类。

2.分类号怎么确定?

快速聚类的分类号需要事先固定,分类号确定后不能更改。因此,快速聚类的分类数的确定需要根据行业的特点、对研究对象的先验了解和对研究对象的判断来确定期望的分类数。

在实际研究中,为了更合理地确定分类数,可以先对一些有代表性的样本进行系统的聚类分析,从而帮助我们决定应该划分到哪些类别。

3.缺乏

(1)分类号从最初分类开始就已经固定了,所以要求事先对样本有足够的了解。

(2)仅限于案例之间的聚类(Q型聚类),变量不能聚类;

(3)事例之间的距离是用欧氏距离的平方来度量的,所以只能对连续变量进行聚类。

(三)二阶聚类法

1.方法介绍

也称为两步聚类,其基本逻辑是:根据事例或变量之间的距离,形成相应的聚类特征树节点,构造聚类特征树,然后通过信息准则确定最优分组数,对每个节点进行分组。

二阶聚类分析法的步骤如下:

(1)预聚类

根据定义的最大类别数,对病例进行初步分类。

(2)形式聚类

然后对预聚类得到的初步分类进行聚类,最后确定聚类结果。

(3)确定分类号。

在正式聚类的过程中,系统会根据一定的统计标准自动确定最优的聚类数。

2.分类号怎么确定?

二阶聚类法不同于前两种分析方法。它不需要研究人员事先指定具体的分类号或范围,而是在分析过程中,系统会根据一定的统计标准自动选择最优的分类号。显然,与其他聚类方法相比,二阶聚类的分类结果会更加智能,也可以大大减少人为主观因素的干扰。

3.优势

(1)能够同时处理分类变量和连续变量。

(2)可以自动选择最佳分类数。

(3)适用于大样本数据。

五、聚类分析的常规步骤

1.选择聚类指标。

根据研究目的,在进行聚类分析之前,确定哪些变量作为聚类的基础。所选择的聚类指标必须能够反映和覆盖聚类的特征。如果聚类指标不完整或代表性差,将直接影响结果。

选择聚类指标的原则和方法如下:

(1)原则

A.变量与所研究的问题密切相关。

B.变量有很强的辨别能力

2)方法

A.根据经验:根据研究问题的特点,结合实际工作经验,选择对聚类效果有显著影响的变量;

B.主成分分析:对所有变量进行主成分分析,方差贡献率(>:=85%),选择主成分个数,选择起主成分作用的变量;

C.因子分析:利用因子模型剔除剩余变量。

2.将数据标准化。

通过标准化,消除变量间尺寸关系的影响,使不同变量在同一标准下进行比较。

3.选择聚类方法

根据不同的聚类对象(案例或变量),选择相应的聚类方法进行聚类。

4.确定类别的数量

5.解释分析结果

六、聚类分析的注意事项

1.所选的聚类指标可以代表研究对象。

聚类分析是基于比较研究主题的特征/性质的差异,用量化指标表示特征/性质。因此,聚类分析的关键前提是选择能够很好地代表和衡量研究主题特征的指标。

例如,如果要根据高校的科研情况对其进行分类,可以选择科研参与人数、科研经费、批准项目数等变量作为聚类指标,而不是选择与研究课题无关的学生人数、校园面积、年用水量等指标。

2.将数据标准化。

由于聚类分析主要基于个案或变量之间的距离或相似性,为保证可比性,要求数据的无量纲差异(如量级和单位的差异)可以在同一标准下进行比较。因此,在进行聚类分析之前,需要对数据进行处理,将原始数据转化为无量纲数据。常见的转换方法有:

(1)换算成同一标准的标准分:标准化处理是最常用的方法之一。

(2)将变量值除以全程(最大值减去最小值)

(3)变量值减去最小值再除以全程。

(4)变量值除以最大值

3.聚集索引之间不应该有很强的线性相关性。

聚类是用各种距离来衡量事例或变量之间的接近程度。如果所选的聚类变量指标之间存在高度的线性关系,可以相互替代,那么同类变量在计算距离时会反复发挥作用,在距离中的权重会很高,导致聚类结果偏向该变量。

[#关于作者#]

人类学硕士,用户研究工程师,数据分析师,中山大学,微信微信官方账号,主要分享SPSS统计分析,用户研究理论与方法,社会科学研究与方法等。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/59604.html

发表回复

登录后才能评论