您好,欢迎来到微智科技网。
搜索
您的当前位置:首页离群值的识别

离群值的识别

来源:微智科技网
离群值的识别

离群值的识别可以通过以下几种方法进行:

1. 频数分布表或直方图:如果连续几个组段的频数均较小,之后出现特别大

或者特别小的数据,即可能为离群值。

2. 箱式图:如果观测值距箱式图底线(P25)或顶线(P75)的距离为箱体高

度(IQR)1.5倍或以上,则可视为离群值。与箱体距离超过3倍箱体高度,则可视该观测值为极端离群值或极端值;与箱体距离在1~1.5倍箱体高度的观测值可称为可疑离群值。

3. 均数和标准差:当数据呈近似正态分布且样本量较大时(如n>50),若观

测值在均数±3倍标准差之外则可视为离群值。

4. 结合其他变量信息判断:比如,根据儿童的身高,可初步判断其体重是否

过高或者过低。根据身高所建立的体重核查规则比单纯只考虑体重的核查更为有效。

对于离群值的处理,如果原始数据存在逻辑错误且无法找到该观察对象进行核实,只能将该观测值删除。对于离群值的判断和识别需要将专业知识和统计学方法结合起来,谨慎处理。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务