中关村在线

软件

R软件识别异常数据点方法

通过R代码在图表中标识异常值,有助于提升数据分析效果,通常需根据实际需求选择合适的标注方式。

1、 选取东方财富网2015年12月至2017年7月的月度新增信贷数据,该数据构成时间序列,通过代码进行输入或读取操作。

2、 创建时间序列数据

3、 通过绘制箱线图可发现两个异常值,经定位确认分别为第2个和第14个数据点。

4、 代码:

5、 通过箱线图定位异常数据点位置

6、 绘制时间序列a的散点图,将箱线图中b位置的异常值在图上标出。

7、 在散点图上标记异常数据点

8、 可采用K-means聚类方法将数据划分为三类,计算每类数据点与聚类中心的距离,依据距离远近识别出各簇中的异常点,从而实现聚类后的异常检测。

9、 代码如下所示

10、 标记聚类中的异常点

11、 将数据a运用K均值聚类算法划分为3个类别,结果保存在kmeans.result中。

12、 K均值聚类结果中的各类中心点坐标

13、 K均值聚类结果中各数据点所属的类别标签。

14、 确定各点的中心位置并逐一列出

15、 计算各点到中心点的距离

16、 计算每个类别中离中心最远的两个点

17、 绘制聚类后的散点图,不同类别用不同颜色区分,可见分类结果已将箱线图之外的异常点单独划为一类。

18、 标出中心位置及偏离中心的异常点。

19、 标注各类别中心位置

20、 标记各类型距中心最远的两个点

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具