我有一组数据值,想把里面的异常值找出来去掉。
其实就是很简单,判断最小的那个数是不是在其他数字的分布范围内,是不是可以从数据组中去掉。由于对统计完全没有概念,希望知道的人帮忙检验一下。
以下是数据:
44.1
45.1
41.3
42.9
42.5
43.2
30.1
42.1
42.0
42.2
41.4
43.9
41.0
43.3
41.8
45.1
44.0
42.1
44.5
42.4
40.3
40.2
43.5
39.0
45.3
44.0
44.0
43.3
42.8
43.8
希望可以把结果和使用的方法告诉我一下,非常感谢。
可以选择以下方法。用线性回归的办法求得某一点到直线最远,去除这一点即可。异常值也称离群值,具体地说,判断标准依据实际情况,根据业务知识及实际需要而定。
要是一般地说,可以用公式计算:
upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5。
lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5。
扩展资料:
计算统计量:
μ=(X1+X2+…+Xn)/n。
s=(∑(Xi-μ)/(n-1))½(i=1,2…n)。
Gn=(X(n)-μ)/s。
式中μ——样本平均值;
s——样本标准差;
Gn——格拉布斯检验统计量。
确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n)。当Gn>G1-α(n),则判断Xn为异常值,否则无异常值。给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值,应剔除。
参考资料来源:百度百科-异常值