通过R代码在图表中标识异常值,有助于提升数据分析效果,通常需根据实际需求选择合适的标注方式。
1、 选取东方财富网2015年12月至2017年7月的月度新增信贷数据,该数据构成时间序列,通过代码进行输入或读取操作。
2、 创建时间序列数据
3、 通过绘制箱线图可发现两个异常值,经定位确认分别为第2个和第14个数据点。
4、 代码:
5、 通过箱线图定位异常数据点位置
6、 绘制时间序列a的散点图,将箱线图中b位置的异常值在图上标出。
7、 在散点图上标记异常数据点
8、 可采用K-means聚类方法将数据划分为三类,计算每类数据点与聚类中心的距离,依据距离远近识别出各簇中的异常点,从而实现聚类后的异常检测。
9、 代码如下所示
10、 标记聚类中的异常点
11、 将数据a运用K均值聚类算法划分为3个类别,结果保存在kmeans.result中。
12、 K均值聚类结果中的各类中心点坐标
13、 K均值聚类结果中各数据点所属的类别标签。
14、 确定各点的中心位置并逐一列出
15、 计算各点到中心点的距离
16、 计算每个类别中离中心最远的两个点
17、 绘制聚类后的散点图,不同类别用不同颜色区分,可见分类结果已将箱线图之外的异常点单独划为一类。
18、 标出中心位置及偏离中心的异常点。
19、 标注各类别中心位置
20、 标记各类型距中心最远的两个点
评论
更多评论