在统计分析中,聚类分析应用广泛,借助R语言开放的代码环境,可高效完成相关操作。本文仅介绍具体实现步骤,关于最长距离法、最短距离法等系统聚类的理论原理将不作详细说明。
1、 启动R软件后,输入样本数据1、2、3、7、8、9、15,构建向量并设定维度为7行1列,随后计算欧氏距离矩阵。具体操作为:定义向量x包含上述数值,设置其维度结构,并调用dist函数生成对应的距离矩阵d。
2、 x为生成向量,dim指明向量维度,dist用于计算并生成距离矩阵。
3、 进行系统聚类分析。
4、 输入代码
5、 hclust为系统聚类分析所用的函数,single、complete、median和average分别对应最短距离法、最长距离法、中间距离法及类平均法四种聚类计算方式。
6、 使用plot函数绘制最短距离法生成的聚类图,展示数据点的聚类结构与分布特征。
7、 绘制 hc1 的图形
8、 为便于比较各类聚类方法的效果,可将不同方法的结果图绘制在同一张图中。
9、 输入代码
10、 par为图形参数函数,mfrow用于设定子图布局,mfrow=c(2,2)表示将图形以行优先方式排列成2行2列的四宫格形式。
11、 图形所示。
12、 从图中可见,前三个数值聚为一类,中间三个数值聚为另一类,第七个数值单独成一类,共形成三类。若需自动确定分类数量,可使用函数rect.hclust实现。
13、 绘制聚类图并将其划分为两个类别。
14、 由图可见,数据组已被自动划分为两类,分类结果已在图中明确标注,任务完成。
评论
更多评论