如何用统计方法去除一组数中的异常值?

我有一组数据值,想把里面的异常值找出来去掉。
其实就是很简单,判断最小的那个数是不是在其他数字的分布范围内,是不是可以从数据组中去掉。由于对统计完全没有概念,希望知道的人帮忙检验一下。

以下是数据:
44.1
45.1
41.3
42.9
42.5
43.2
30.1
42.1
42.0
42.2
41.4
43.9
41.0
43.3
41.8
45.1
44.0
42.1
44.5
42.4
40.3
40.2
43.5
39.0
45.3
44.0
44.0
43.3
42.8
43.8

希望可以把结果和使用的方法告诉我一下,非常感谢。

可以选择以下方法。用线性回归的办法求得某一点到直线最远,去除这一点即可。异常值也称离群值,具体地说,判断标准依据实际情况,根据业务知识及实际需要而定。

要是一般地说,可以用公式计算:

upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5。

lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5。


扩展资料:

计算统计量:

μ=(X1+X2+…+Xn)/n。

s=(∑(Xi-μ)/(n-1))½(i=1,2…n)。

Gn=(X(n)-μ)/s。

式中μ——样本平均值;

s——样本标准差;

Gn——格拉布斯检验统计量。

确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n)。当Gn>G1-α(n),则判断Xn为异常值,否则无异常值。给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值,应剔除。

参考资料来源:百度百科-异常值

温馨提示:答案为网友推荐,仅供参考
第1个回答  2015-06-03

可以用线性回归的办法求得某一点到直线最远,去除这一点即可。

 

PS:线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

本回答被网友采纳
第2个回答  2019-08-21
GB/T 4883《数据的统计处理和解释 正态样本离群值的判断和处理》就是你需要的东西。
第3个回答  推荐于2017-09-13

可以选择以下方法。

用线性回归的办法求得某一点到直线最远,去除这一点即可。

 

PS:线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

相似回答