聚类分析社会科学等领域

时间：21:55:24作者：admin分类：实践浏览：17评论：0

一、样本聚类

1.准备工作

（1）研究目的

聚类分析是根据事物本身的特性研究个体分类的方法，聚类分析的原则是同一类别的个体有较大相似性，不同类别的个体差异比较大。

（2）数据类型

1）定量：数字有比较意义，比如数字越大代表满意度越高，量表为典型定量数据。

2）定类：数字无比较意义，比如性别，1代表男，2代表女。

PS：SPSSAU会根据数据类型自动选择聚类方法。

K-modes聚类：K-prototype聚类仅定类时。

2.上传数据到SPSSAU

登录账号后进入SPSSAU页面，点击右上角“上传数据”，将处理好的数据进行“点击上传文件”上传即可。

3.SPSSAU操作

（1）拖拽分析项

1） SPSSAU进阶方法→聚类。

2）检查

检查分析项是否都在左侧分析框中。

3）进行拖拽

（2）选择参数

聚类个数：聚类个数设置为几类主要以研究者的研究思路为标准，如果不进行设置，SPSSAU默认聚类个数为3，通常情况下，建议设置聚类数量介于3~6个之间。

标准化：聚类算法是根据距离进行判断类别，因此一般需要在聚类之前进行标准化处理，SPSSAU默认是选中进行标准化处理。

数据标准化之后，数据的相对大小意义还在（比如数字越大GDP越高），但是实际意义消失了。

保存类别：分析选择保存‘保存类别’，SPSSAU会生成新标题用于标识，也可以右上角“我的数据”处查看到分析后的“聚类类别”。

新标题类似如下：Cluster_********。

4.SPSSAU分析

（1）聚类类别基本情况汇总分析

使用聚类分析对样本进行分类，使用Kmeans聚类分析方法，从上表可以看出：最终聚类得到4类群体，此4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。

整体来看， 4类人群分布较为均匀，整体说明聚类效果较好。

（2）聚类类别汇总图分析

可以直观的看到各个类别所占百分比，4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。

（3）聚类类别方差分析差异对比

使用方差分析去探索各个类别的差异特征，从上表可知：聚类类别群体对于所有研究项均呈现出显著性(p<0.05),意味着聚类分析得到的4类群体，他们在研究项上的特征具有明显的差异性，具体差异性可通过平均值进行对比，并且最终结合实际情况，对聚类类别进行命名处理。

（4）聚类项重要性对比

从上述结果看，所有研究项均呈现出显著性，说明不同类别之间的特征有明显的区别，聚类的效果较好。

（5）聚类中心

5.其它说明

（1）聚类中心是什么？

聚类中心是聚类类别的中心点情况，比如某类别时年龄对应的聚类中心为20，意味着该类别群体年龄基本在20岁左右。

初始聚类中心基本无意义，它是聚类算法随机选择的聚类点，如果需要查看聚类中心情况，需要关注于最终聚类中心。

实际分析时聚类中心的意义相对较小，其仅为聚类算法的计算值而已。

（2）k-prototype聚类是什么？

如果说聚类项中包括定类项，那么SPSSAU默认会进行K-prototype聚类算法（而不是kmeans算法）。

定类数据不能通过数字大小直接分析距离，因而需要使用K-prototype聚类算法。

（3）聚类分析时SSE是什么意思？

在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值，该值可用于测量各点与中心点的距离情况，理论上是希望越小越好，而且如果同样的数据，聚类类别越多则SSE值会越小（但聚类类别过多则不便于分析）。

SSE指标可用于辅助判断聚类类别个数，建议在不同聚类类别数量情况下记录下SSE值，然后分析SSE值的减少幅度情况，如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大，那么此时选择4个聚类类别较好。

二、分层聚类

1.准备工作

（1）研究目的

从分析角度上看，聚类分析可分为两种，一种是按样本（或个案）聚类，此类聚类的代表是K-means聚类方法；另外一种是按变量（或标题）聚类，此类聚类的代表是分层聚类。

（2）数据类型

2.上传数据到SPSSAU

登录账号后进入SPSSAU页面，点击右上角“上传数据”，将处理好的数据进行“点击上传文件”上传即可。

3.SPSSAU操作

（1）拖拽分析项

1） SPSSAU进阶方法→分层聚类。

2）检查

检查分析项是否都在左侧分析框中。

3）进行拖拽

（2）确定参数

SPSSAU会默认聚类为3类并且呈现表格结果，如果希望更多的类别个数，可自行进行设置。

4.SPSSAU分析

（1）聚类项描述分析

上表格展示总共8个分析项（即8个裁判数据）的基本情况，包括均值，最大或者最小值，中位数等，以便对于基础数据有个概括性了解。

整体上看，8个裁判的打分基本平均在8分以上。

（2）聚类类别分布表分析

总共聚类为3个类别，以及具体分析项的对应关系情况。

在上表格中展示出来，上表格可以看出：裁判8单独作为一类；裁判5，3，7这三个聚为一类；以及裁判1，6，2，4作为一类。

（PS：聚类类别与分析项上的对应关系可以在上表格中得到，同时也可以查看聚类树状图得出更多信息。

至于聚类类别分别应该叫做什么名字，这个需要结合对应有关系情况，自己单独进行命名。

）

（3）聚类树状图分析

上图为聚类树状图的展示，聚类树状图是将聚类的具体过程用图示法手法进行展示；最上面一行的数字仅仅是一个刻度单位，代表相对距离大小；一个结点表示一次聚焦过程。

树状图的解读上，建议单独画一条垂直线，然后对应查看分成几个类别，以及每个类别与分析项的对应关系。

比如上图中，红色垂直线最终会拆分成3个类别；第1个类别对应裁判8；第2个类别对应裁判5，3，7；第3个类别对应裁判1，6，2，4。

如果是聚为四类；从上图可看出，明显的已经不再合适。

原因在于垂直线不好区分成四类。

也即说明有2个类别本应该在一起更合适（上图中的裁判1与6/2/4）；但是如果分成4类，此时裁判1会单独成一类。

所以画垂直线无法区分出类别。

因而综合分析来看，最终聚类为3个类别最为适合。

当然在分析时也可以考虑分成2个类别，此时只需要对应将垂直线移动即可。

5.其它说明

（1）针对分层聚类，需要注意以下几点：

（2）什么时候做因子分析后再做聚类分析？

如果题项较多，可先做因子分析，得到每个维度（因子）的数据，再进行聚类。

三、总结

聚类分析广泛的应用于自然科学。

在分析时可以比较多次聚类结果，综合选择更适合的方案。

继续浏览有关分析类别数据的文章

聚类分析社会科学等领域

相关文章

猜你喜欢

天猫双11交易数据天猫双11销售额

制造业pmi 直接进行可续计算

安付宝使用范围金属接线盒和电缆头

一个百亿美元市场萌芽比如识别道路

komanic 并连续在2013年

聚类分析 社会科学等领域

相关文章

猜你喜欢

天猫双11交易数据 天猫双11销售额

制造业pmi 直接进行可续计算

安付宝使用范围 金属接线盒和电缆头

一个百亿美元市场萌芽 比如识别道路

komanic 并连续在2013年

聚类分析社会科学等领域

天猫双11交易数据天猫双11销售额

安付宝使用范围金属接线盒和电缆头

一个百亿美元市场萌芽比如识别道路