
1. 描述分析法:通过标准差和三倍标准差原则,识别与平均值偏差超过三个标准差的值。
2. 最大和最小值判断法:基于专业知识和个人经验评估数据范围,识别异常值。
3. Z-score标准化处理法:衡量数据点与平均值的距离,若数据与平均值相差三个标准差,则其Z-score为3,符合3sigma原则。
4. 箱线图:利用五条线展示数据分布,其中白点表示异常值,通过IQR(四分位距)判断值是否异常。
5. ARIMA预测模型:适用于时间序列数据,通过历史实际数据与预测数据比较得到残差,识别异常值。
6. 散点图:在处理单个变量时,直观展示两组数据的位置关系,帮助识别离群值。
7. 聚类分析:使组内相似、组间差异,识别异常数据点。
8. K-means聚类方法:通过计算分析对象到多个聚类中心的距离,将数据分为类群,并识别距离聚类中心过远的点为异常值。
9. DBSCAN:一种基于密度的聚类方法,将数据点分为簇,不属于任何簇的数据被视宴袜为异常值。
10. KNN模型:通过寻找最近的已知类别样本对未知样本进行预测,判断样本点与最近k个样本的平均距离,超过阈值则视为异常点。
11. SVM的one-class-SVM方法:利用超球体或超平面,识晌闹激别数据周围的边界,判断异常值。
12. 异常值处理方法包括:设置阈值、填补法、插值法、使用平均值、中位数弯谨、众数、随机数、数字0以及自定义函数等。
13. 针对少量异常值:可将其设为null值,或处理为缺失值。
14. SPSSAU提供填补法和插值法:填补法包括平均值、中位数、众数、随机数、数字0及自定义函数。插值法有两种,线性插值和该点线性趋势插值,适用于处理缺失数据。