聚类分析及判别分析案例

来源：微智科技网

一、案例背景

随着现代人力资源管理理论的迅速开展，绩效考评技术水平也在不断提高。绩效的多因性、性，要求对绩效实施多标准大样本科学有效的评价。对企业来说，对上千人进展多达50~60个标准的考核是很常见的现象。但是，目前多标准大样本大型企业绩效考评问题仍然困扰着许多人力资源管理从业人员。为此，有必要将当今国际上最流行的视窗统计软件SPSS应用于绩效考评之中。

在分析企业员工绩效水平时，由于员工绩效水平的指标很多，各指标之间还有一定的关联性，缺乏有效的方法进展比拟。目前较理想的方法是非参数统计方法。本文将列举某企业的具体情况确定适当的考核标准，采用主成分分析以及聚类分析方法，比拟出各员工绩效水平，从而为企业绩效管理提供一定的科学依据。

最后采用判别分析建立判别函数，同时与原分类进展比拟。

聚类分析

二、绩效考评的模型建立

1、为了分析某企业绩效水平，按照综合性、可比性、实用性和易操作性的选取指标原那么，本文选择了影响某企业绩效水平的成果、行为、态度等6个经济指标(见表1)。

表 1——变量和考评指标名称表

变量指标名称 X1 工作产量 X2 工作质量 X3 工作出勤 X4 工作损耗 X5 工作态度 X6 工作能力 2、对某企业，搜集整理了28名员工2021年第1季度的数据资料。构建1个28×6维的矩阵(见表2)。

表 2——某企业职工绩效考评结果职工代号 X1 X2 X3 X4 X5 X6 1 2 3 4 5 7 页脚下载后可删除，如有侵权请告知删除！

6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 3 6.23 3、应用SPSS数据统计分析系统首先对变量进展及主成分分析，找到样本的主成分及各变量在成分中的得分。去结果中的表3、表4、表5备用。表 3 解释的总方差成初始特征值a 提取平方和载入份方差方差合计的 % 累积 % 合计的 % 累积 % 原始 1 2 3 .650 4 .211 3.520 5 .080 6 .034 .572 重新标度 1 页脚下载后可删除，如有侵权请告知删除！

2 3 .650 4 .211 5 .080 6 .034 .572 提取方法：主成份分析。 a. 分析协方差矩阵时，初始特征值在整个原始解和重标刻度解中均一样。表 4 成份矩阵原始重新标度成份 2 .618 .633 1 .7 .9 .882 .697 .732 .729 2 .618 .633 a 1 Zscore(X1) Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) 提取方法 :主成份。成份 .7 .9 .882 .697 .732 .729 a. 已提取了 2 个成份。表 5

成份得分系数矩阵a

成份

1 2

Zscore(X1) .227 Zscore(X2) .228 Zscore(X3) .224 Zscore(X4) .177 Zscore(X5) .186 .572 Zscore(X6) .185 .587 提取方法 :主成份。构成得分。

a. 系数已被标准化。

4、从表3中可得到前两个成分的特征值大于1，分别为3.944和1.08，所以选取两个主成分。根据累计奉献率超过80％的一般选取原那么，主成分1和主成分2的累计奉献率已到

页脚下载后可删除，如有侵权请告知删除！

达了83．74％的水平，说明原来6个变量反映的信息可由两个主成分反映83．74％。

从表4可看出，第一主成分根本支持了X1、X2、X3、X5和X6。而第二主成分根本支持了，该成分因子得分还有对未来员工绩效预报作用。第一主成分与工作质量、工作产量以及工作出勤高度正相关。因此第一主成分可以反映影响该企业绩效的工作成绩因素。第二主成分与工作能力以及工作态度高度正相关，因此第二主成份可以反映影响该企业员工绩效的能力与态度因素。

三、绩效水平的类型划分及区域差异分析

因为本案例要研究职工工作绩效成绩的得分，根据两个主成分的表示重点不同，我们可以看到第一主成份反映的是绩效成绩的得分。所以计算每个样本在第一主成份方向的得分。

可以对数据标准化，并用每个样本乘以第一成分得分矩阵，即得各样本在第一主成份的综合得分。

例如1号样本在第一主成份方向的综合得分为：

2.24478*0.227 + 2.06671*0.228 + *0.224 + *0.177 + *0.1865 + *0.185=

其他各样本均按此方法算出综合得分，并按各样本在在第一主成分方向的综合得分的降序顺序排列数据，得到的就是各个员工工作绩效成绩得分。如表6 表6 各样本在第一主成份的综合职工代号 X1 X2 X3 X4 X5 X6 得分 1 2 2.28639 8 7 6 3 0.41218 9 5 10 16 4 15 14 18 11 17 13 21 4 页脚下载后可删除，如有侵权请告知删除！

22 348 25 28 19 12 -0.07784 23 27 20 24 26 四、聚类分析

为了把各个员工工作绩效成绩分类，更好的描述成绩区间，我们要采用聚类分析对员工进展分类。〔方案分为4类：优秀、良好、及格、不及格〕

分类的步骤为： 1、“分析——分类——系统分类〞，把标准化后的变量输入变量框中，在“分群框〞中选择“个案〞，在“输出框〞中选择“统计量〞、“图〞。

2、“统计量〞中选择“合并进程表〞、“单一方案〞〔聚类数为4〕。 3、“绘制〞中选择“树状图〞、“所有聚类〞、“垂直〞。

4、“方法〞中选择“组间连接〞、“平方欧式距离〞。“标准化〞选择“无〞〔因为采用的是已经标准化后的数据〕。

5、“保存〞中选择“单一方案〞聚类数为4。 6、点击“确定〞。得到以下列图表。表 7

聚类表

阶群集组合首次出现阶群集

群集 1 群集 2 系数群集 1 群集 2 下一阶

1 10 16 .099 0 0 3 2 13 21 .423 0 0 5 3 6 10 .528 0 1 4 4 6 7 .565 3 0 7 5 4 13 .0 0 2 13 6 11 18 .682 0 0 8 7 5 6 0 4 12 8 11 22 6 0 22 9 27 28 0 0 18 10 15 17 0 0 13 11 19 20 0 0 23 页脚下载后可删除，如有侵权请告知删除！

12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

5 4 3 5 3 24 23 1 3 23 3 12 12 3 3 1 8 15 14 9 4 26 27 2 5 25 11 19 23 12 24 3 2.022 23 7 5 0 12 14 0 0 0 16 18 20 0 23 22 25 19 0 10 0 0 13 0 9 0 15 0 8 11 21 24 17 26 15 16 16 20 20 26 21 27 22 24 25 24 25 26 27 0 页脚下载后可删除，如有侵权请告知删除！

图 1

页脚下载后可删除，如有侵权请告知删除！

图 2 从表7、图1和图2中我们可以看到聚类的过程

页脚下载后可删除，如有侵权请告知删除！

（1） 5、6、7、10、16聚为一类，4、13、21聚为一类，11、18聚为一类；

（2） 5、6、7、8、9、10、16聚为一类，3、4、13、14、15、17、21聚为一类，11、

18、22聚为一类，23、27、28聚为一类，19、20聚为一类，24、26聚为一类，1、2聚为一类；

（3） 3、4、5、6、7、8、9、10、11、13、14、15、16、17、18、21、22聚为一类，23、25、27、28聚为一类，12、19、20聚为一类；（4） 12、19、20、23、25、27、28聚为一类。

〔注：黑色倾斜字体为最终类别〕

从表8中我们可以更为详细的看出各个样本的分类情况。表 8

群集成员案例 4 群集 1 1 2 1 3 2 4 2 5 2 6 2 7 2 8 2 9 2 10 2 11 2 12 3 13 2 14 2 15 2 16 2 17 2 18 2 19 3 20 3 21 2 22 2 23 3 24 4 25 3 26 4 27 3 页脚下载后可删除，如有侵权请告知删除！

群集成员案例 4 群集 1 1 2 1 3 2 4 2 5 2 6 2 7 2 8 2 9 2 10 2 11 2 12 3 13 2 14 2 15 2 16 2 17 2 18 2 19 3 20 3 21 2 22 2 23 3 24 4 25 3 26 4 27 3 28 3

五、聚类分析结论

根据图2和表8，我们可以把表6进展一定的处理：把同一类别的样本在主成分方向的得分〔工作绩效成绩得分〕用同一种颜色标记，如表中第一类别为红色，第二类别为粉色，第三类别为绿色，第四类别为蓝色。

并且在改良的表6’中可以看到第一类别的样本的工作绩效成绩得分最高，其次是第二类别、第三类别，得分最低的是第四类别，因此，根据我们可以把最终的分类结果和方

页脚下载后可删除，如有侵权请告知删除！

案分类结合起来，即：

（1） “优秀〞为第一类，包括职工 1、2；

（2） “良好〞为第二类，包括职工3、4、5、6、7、8、9、10、11、13、14、15、

16、17、18、21、22；

（3） “及格〞为第三类，包括职工12、19、20、23、25、27、28；（4） “不及格〞为第四类，包括职工24、26。各样本在第一职工代号 X1 X2 X3 X4 X5 X6 主成份的得分 1 944 2 8 7 6 3 7365 9 5 10 16 0.55684 15 14 18 11 1 17 13 21 4 -0.08563 22 25 28 19 0.00077 12 23 27 20 029 24 26

页脚下载后可删除，如有侵权请告知删除！

判别分析

六、步骤：

1、“分析——分类——判别分析〞，把“分类〞选入“分组变量〞，定义范围：最小值〔1〕，最大值〔4〕，把X1、X2、X3、X4、X5和X6输入“自变量框〞，选择“使用逐步式方法〞；

2、“统计量〞中选择“均值〞、“单变量ANOVA〞、“Fisher〞、“未标准化〞、“组内相关〞；

3、“方法〞默认设置； 4、“分类〞中选择“根据组大小计算〞、“摘要表〞、“不考虑该个案时的分类〞、“在组内〞、“合并图、分组、区域图〞；

5、“保存〞中选择“预测组成员〞、“判别得分〞； 6、点击确定。

得到以下各表和图。

七、样本、变量分析

表 1

组统计量

Average Linkage (Between Groups)

均值

X1 X2 X3 X4 X5 X6 X1 X2 X3 X4 X5 X6 X1 X2 X3

有效的 N〔列表状态〕未加权

标准差的已加权的

2 .55861 2 .71418 2 .82024 2 .08485 2 .00707 2 .150 .34812 .26111 .29944 .85730 .32294 .85238 17 17 17 17 17 17 7 7 7 0 2

dimension0

页脚下载后可删除，如有侵权请告知删除！

X4 X5 X6 X1 X2 X3 X4 X5 X6 .74212 .47418 .67175 .24042 .19799 .67175 .70711 .15556 7 7 7 2 2 2 2 2 2 28 28 28 28 28 28 合计 X1

X2 X3 X4 X5 X6

.68829 .92588 .77203 1、从表1中可以看到各个类别中变量及总变量的均值、方差和标准差等。表 2

X1 X2 X3 X4 X5 X6

2、从表2中的WILKS λ检验中可以看到P(Xi)<0.05，原假设不成立，六个变量均明显显著，其中 i=1、2、3、4、5、6.

组均值的均等性的检验

Wilks 的 Lambda F df1 df2 Sig.

.218 3 24 .000 .229 3 24 .000 .251 3 24 .000 .526 3 24 .001 .212 3 24 .000 .174 3 24 .000 八、分析——步骤统计

表 3

输入的/删除的变量a,b,c,d

页脚下载后可删除，如有侵权请告知删除！

Wilks 的 Lambda 准确 F 输入的统计量 df1 df2 df3 统计量 df1 df2 Sig. 1 X6 .174 1 3 3 .000 2 X1 .032 2 3 6 .000 在每个步骤中，输入了最小化整体 Wilk 的 Lambda 的变量。 a. 步骤的最大数目是 12。 b. 要输入的最小偏 F 是。 c. 要删除的最大偏 F 是。 d. F 级、容差或 VIN 缺乏以进展进一步计算。

从表3中可以看出软件最终选取X1、X6最为判别函数的自变量，P〔X1〕、P(X2)均为零，显著性很强。二者可以很好的表达不同组别的特性。

步骤九、典型判别式函数摘要

表 4 特征值正那么相特征值方差的 % 累积 % 关性 a1 .969 a2 .869 .682 a. 分析中使用了前 2 个典型判别式函数。

1、表4是特征值表，从表显示出典型分析最终形成两个判别函数，判别函数F1的特征值为15.633，判别函数F2的特征值为0.869，可见判别函数F1的判别能力大于F2。方差百分比的算法为：

94.7%=15.633/(15.633+0.869) 5.3%=0.869/(15.633+0.869)

函数F1能够解释绝大局部方差。典型相关系数现实第一队典型变量的相关系数是0.969，第二对典型变量的相关系数是0.682。

表 5 Wilks 的 Lambda 函数检验 Wilks 的 Lambda 卡方 df Sig. 函数页脚下载后可删除，如有侵权请告知删除！

dimension0

1 到 2 2 .032 .535 6 2 .000 .001 2、表5是判别函数显著性检验。原假设都是所列判别函数不显著。可见在0.05的显著性水平下，用F1、F2两个判别函数判别，Sig.=0.000，判别效果显著；单用F2判别，Sig=0.001,判别效果显著。

表 6 标准化的典型判别式函数系数函数 1 2 X1 .616 X6

3、表6是标准化典型判别函数的系数，写成函数：

F1=1.035*X1+1.088*X6 F2=0.616*X1-0.516*X2

表 7

典型判别式函数系数

函数

1 2

X1 .846 X6 (常量)

非标准化系数

4、表7为非标准化的典型判别函数系数，写成函数为： F1=-34.983+1.422*X1+3.182*X6 F=6.878+0.846*X1-1.509*X6 表 8

组质心处的函数

页脚下载后可删除，如有侵权请告知删除！

Average 函数 Linkage (Between Groups) 1 2 1 .454 dimensi2 on0 3 4 在组均值处评估的非标准化典型判别式函数

5、表8为四个类别质心对应两个判别函数的值。

根据非标准化的判别函数和根底数据中各个样本的X1、X6的数值，分别计算各个样本在两个判别函数的值，最终得到表9左半局部。表9的右半局部是电脑给出的，二者差异微小，可能是软件计算和人工计算的差异。这两组数据也是各个样本在两个判别函数上的判别得分。

表 9 算出 2 电脑给出页脚下载后可删除，如有侵权请告知删除！

6、用计算机给出的判别得分作图。以判别函数F1作为横坐标，判别函数F2作为纵坐标，最终得到了区域图，从区域图中可以清楚的看到四个类别的分类区间。利用各个样本的判别得分可以检验样本是否在相应的区间。

对于新样本也可以利用非标准化典型判别函数计算出相应的判别得分，在图中找出对应的点，看其在哪个区域内，相对应的就是哪个类别。图2为各个点在其类别区域内的显示情况。

图 1——区域图

〔假定前两个函数以外的所有函数为 0〕典那么判别

函数 2

-16.0 -12.0 -8.0 -4.0 .0

+---------+---------+---------+---------+---------+---------+---------+---------+ 16.0 + 42 21 + I 42 21 I I 42 21 I I 42 21 I I 42 21 I I 42 21 I 12.0 + + + +42 + + 21 + + + I 42 21 I I 42 21 I I 42 21 I I 42 21 I I 42 21 I 8.0 + + + +42 + + 21 + + + I 42 21 I I 42 21 I I 42 21 I I 42 21 I I 42 21 I 4.0 + + + 4332 + + 21 + + + I 43 32 21 I I 43 32 21 I I 43 32 21 I I * 43 32 21 I I 43 32 * 21 I

页脚下载后可删除，如有侵权请告知删除！

.0 + + + 43 + 32 + + 21 + * + + I 43 32 21 I I 43 * 32 21 I I 43 32 21 I I 43 32 21 I I 43 32 21 I -4.0 + + + 43 + + 32 + 21 + + + I 43 32 21 I I 43 32 21 I I 43 32 21 I I 43 32 21 I I 43 32 21 I -8.0 + + 43+ + + 32+21 + + + I 43 3221 I I 43 321 I I 43 31 I I 43 31 I I 43 31 I -12.0 + + 43 + + + +31 + + + I 43 31 I I 43 31 I I 43 31 I I 43 31 I I 43 31 I -16.0 + 43 31 + +---------+---------+---------+---------+---------+---------+---------+---------+ -16.0 -12.0 -8.0 -4.0 .0 4.0 8.0 典那么判别函数 1

区域图中使用的符号

符号组标签

---- -- -------------- 1 1 2 2 3 3 4 4

* 表示一个组质心

图 2——单独组图表

页脚下载后可删除，如有侵权请告知删除！

十、分类统计量

表 10

分类处理摘要

已处理的

已排除的缺失或越界组代码

至少一个缺失判别变量

用于输出中表 11

组的先验概率

Average Linkage 用于分析的案例 (Between

Groups) 先验未加权的已加权的 1 .071 2 dimensio

2 .607 17 n0

3 .250 7 28 0 0 28 页脚下载后可删除，如有侵权请告知删除！

4 合计

表 12 .071 2 28 X1 X6 (常量) Fisher 的线性判别式函数

分类函数系数 Average Linkage (Between Groups) 1 2 3 4 1、表13为Fisher的线性判别式函数系数，根据系数可建立Fisher判别函数,四个类别的函数如下：

CF1=-979.149+55.954*X1+149.550*X6 CF2=-668.684+45.742*X1+124.187*X6 CF3=-571.776+39.5*X1+116.667*X6 CF4=-347.036+31.778*X1+.987*X6

2、通过分类函数，把各个样本中的X1、X6的值带到分类函数中，每个样本都得到四个判别函数值，形成表13。比拟四个值，哪个值大，就把样本判别为哪一类。〔红色为每行最大值〕

表 13 职工原本分类判别分类 1 1 1 2 1 1 3 2 2 4 2 2 5 2 2 6 2 2 7 2 2 8 2 2 9 2 2 CF1 CF2 9 CF3 CF4

页脚下载后可删除，如有侵权请告知删除！

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 表 14 2 2 3 2 2 2 2 2 2 3 3 2 2 3 4 3 4 3 3 2 2 2 2 2 2 2 2 2 3 3 2 2 3 4 3 4 3 3 55 37 分类结果b,c Average Linkage (Between Groups) 计数 1 dimensio2 n2 3 预测组成员 1 2 0 0 0 .0 .0 .0 2 0 0 0 2 0 17 1 0 .0 .0 0 17 1 0 3 0 0 6 0 .0 .0 .0 0 0 6 0 4 初始合计 0 2 0 17 0 7 2 .0 .0 .0 0 0 0 2 2 2 17 7 2 4 % 1 dimensio2 n2 3 4 穿插验证计数 1 a dimensio2 n2 3 4 页脚下载后可删除，如有侵权请告知删除！

1 .0 .0 .0 .0 .0 .0 dimensio2 n2 3 .0 .0 4 .0 .0 .0 a. 仅对分析中的案例进展穿插验证。在穿插验证中，每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。 b. 已对初始分组案例中的 96.4% 个进展了正确分类。 c. 已对穿插验证分组案例中的 96.4% 个进展了正确分类。

3、表10为分类结果和对函数进展穿插检验的结果。穿插验证中，只有一组样本分类错误，原来定位第二组，通过判别函数判别到第三组。判别函数对初始分组案例中的96.4%进展了正确分类，对已穿插验证分组案例中的96.4个进展了正确分类，说明判别分析的符合非常高，判别函数的建立有很强的依据性。

% 十一、判别分析结论：

对聚类分析的结果进展了判别，采用两种判别函数。第一种为典型判别函数： F1=-34.983+1.422*X1+3.182*X6 F=6.878+0.846*X1-1.509*X6 第二中为Fisher线性判别函数：

49+55.954*X1+149.550*X6

CF2=-668.684+45.742*X1+124.187*X6 CF3=-571.776+39.5*X1+116.667*X6 CF4=-347.036+31.778*X1+.987*X6 根本正确。

判别函数对样本的96.4%进展了正确分类，说明判别分析符合率较高，判别函数建立

页脚下载后可删除，如有侵权请告知删除！

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文