• 微信

聚类分析 社会科学等领域

时间:21:55:24作者:admin分类:实践浏览:17评论:0

一、样本聚类

1.准备工作

(1) 研究目的

聚类分析是根据事物本身的特性研究个体分类的方法,聚类分析的原则是同一类别的个体有较大相似性,不同类别的个体差异比较大。

(2) 数据类型

1)定量:数字有比较意义,比如数字越大代表满意度越高,量表为典型定量数据。

2)定类:数字无比较意义,比如性别,1代表男,2代表女。

PS:SPSSAU会根据数据类型自动选择聚类方法。

K-modes聚类:K-prototype聚类仅定类时。

2.上传数据到SPSSAU

登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。

3.SPSSAU操作

(1)拖拽分析项

1) SPSSAU进阶方法→聚类。

2)检查

检查分析项是否都在左侧分析框中。

3)进行拖拽

(2)选择参数

聚类个数:聚类个数设置为几类主要以研究者的研究思路为标准,如果不进行设置,SPSSAU默认聚类个数为3,通常情况下,建议设置聚类数量介于3~6个之间。

标准化:聚类算法是根据距离进行判断类别,因此一般需要在聚类之前进行标准化处理,SPSSAU默认是选中进行标准化处理。

数据标准化之后,数据的相对大小意义还在(比如数字越大GDP越高),但是实际意义消失了。

保存类别:分析选择保存‘保存类别’,SPSSAU会生成新标题用于标识,也可以右上角“我的数据”处查看到分析后的“聚类类别”。

新标题类似如下:Cluster_********。

4.SPSSAU分析

(1)聚类类别基本情况汇总分析

使用聚类分析对样本进行分类,使用Kmeans聚类分析方法,从上表可以看出:最终聚类得到4类群体,此4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。

整体来看, 4类人群分布较为均匀,整体说明聚类效果较好。

(2)聚类类别汇总图分析

可以直观的看到各个类别所占百分比,4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。

(3)聚类类别方差分析差异对比

使用方差分析去探索各个类别的差异特征,从上表可知:聚类类别群体对于所有研究项均呈现出显著性(p<0.05),意味着聚类分析得到的4类群体,他们在研究项上的特征具有明显的差异性,具体差异性可通过平均值进行对比,并且最终结合实际情况,对聚类类别进行命名处理。

(4)聚类项重要性对比

从上述结果看,所有研究项均呈现出显著性,说明不同类别之间的特征有明显的区别,聚类的效果较好。

(5)聚类中心

5.其它说明

(1)聚类中心是什么?

聚类中心是聚类类别的中心点情况,比如某类别时年龄对应的聚类中心为20,意味着该类别群体年龄基本在20岁左右。

初始聚类中心基本无意义,它是聚类算法随机选择的聚类点,如果需要查看聚类中心情况,需要关注于最终聚类中心。

实际分析时聚类中心的意义相对较小,其仅为聚类算法的计算值而已。

(2)k-prototype聚类是什么?

如果说聚类项中包括定类项,那么SPSSAU默认会进行K-prototype聚类算法(而不是kmeans算法)。

定类数据不能通过数字大小直接分析距离,因而需要使用K-prototype聚类算法。

(3)聚类分析时SSE是什么意思?

在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值,该值可用于测量各点与中心点的距离情况,理论上是希望越小越好,而且如果同样的数据,聚类类别越多则SSE值会越小(但聚类类别过多则不便于分析)。

SSE指标可用于辅助判断聚类类别个数,建议在不同聚类类别数量情况下记录下SSE值,然后分析SSE值的减少幅度情况,如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大,那么此时选择4个聚类类别较好。

二、分层聚类

1.准备工作

(1)研究目的

从分析角度上看,聚类分析可分为两种,一种是按样本(或个案)聚类,此类聚类的代表是K-means聚类方法;另外一种是按变量(或标题)聚类,此类聚类的代表是分层聚类。

(2)数据类型

2.上传数据到SPSSAU

登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。

3.SPSSAU操作

(1)拖拽分析项

1) SPSSAU进阶方法→分层聚类。

2)检查

检查分析项是否都在左侧分析框中。

3)进行拖拽

(2)确定参数

SPSSAU会默认聚类为3类并且呈现表格结果,如果希望更多的类别个数,可自行进行设置。

4.SPSSAU分析

(1)聚类项描述分析

上表格展示总共8个分析项(即8个裁判数据)的基本情况,包括均值,最大或者最小值,中位数等,以便对于基础数据有个概括性了解。

整体上看,8个裁判的打分基本平均在8分以上。

(2)聚类类别分布表分析

总共聚类为3个类别,以及具体分析项的对应关系情况。

在上表格中展示出来,上表格可以看出:裁判8单独作为一类;裁判5,3,7这三个聚为一类;以及裁判1,6,2,4作为一类。

(PS:聚类类别与分析项上的对应关系可以在上表格中得到,同时也可以查看聚类树状图得出更多信息。

至于聚类类别分别应该叫做什么名字,这个需要结合对应有关系情况,自己单独进行命名。

(3)聚类树状图分析

上图为聚类树状图的展示,聚类树状图是将聚类的具体过程用图示法手法进行展示;最上面一行的数字仅仅是一个刻度单位,代表相对距离大小;一个结点表示一次聚焦过程。

树状图的解读上,建议单独画一条垂直线,然后对应查看分成几个类别,以及每个类别与分析项的对应关系。

比如上图中,红色垂直线最终会拆分成3个类别;第1个类别对应裁判8;第2个类别对应裁判5,3,7;第3个类别对应裁判1,6,2,4。

如果是聚为四类;从上图可看出,明显的已经不再合适。

原因在于垂直线不好区分成四类。

也即说明有2个类别本应该在一起更合适(上图中的裁判1与6/2/4);但是如果分成4类,此时裁判1会单独成一类。

所以画垂直线无法区分出类别。

因而综合分析来看,最终聚类为3个类别最为适合。

当然在分析时也可以考虑分成2个类别,此时只需要对应将垂直线移动即可。

5.其它说明

(1)针对分层聚类,需要注意以下几点:

(2)什么时候做因子分析后再做聚类分析?

如果题项较多,可先做因子分析,得到每个维度(因子)的数据,再进行聚类。

三、总结

聚类分析广泛的应用于自然科学。

在分析时可以比较多次聚类结果,综合选择更适合的方案。

猜你喜欢