采集的数据中可能存在异常值,需加以识别与处理。本文将介绍异常数据的分析方法及剔除步骤,帮助提升数据质量。
1、 此处仅举一例说明。
2、 人为在aa数据中添加若干异常值。
3、 查看aa的直方图分布情况。
4、 数据表现尚可,但仍有其他优化处理方法。
5、 依据科学方法,通过计算数据的标准偏差,将超过三倍标准偏差的数值视为异常值并予以剔除。
6、 采用该方法分析,新录入的数据绝大部分为异常值。
7、 查看结果
8、 观察直方图,分布情况明显改善。
9、 别只关注图形,注意观察坐标轴信息。
10、 数据越多,异常情况越突出。
11、 剔除少数数据后,均值和标准差明显改善,标准差大幅降低,整体数据更趋合理,可信度显著提升。
评论
更多评论