离群值的识别
离群值的识别可以通过以下几种方法进行:
1. 频数分布表或直方图:如果连续几个组段的频数均较小,之后出现特别大
或者特别小的数据,即可能为离群值。
2. 箱式图:如果观测值距箱式图底线(P25)或顶线(P75)的距离为箱体高
度(IQR)1.5倍或以上,则可视为离群值。与箱体距离超过3倍箱体高度,则可视该观测值为极端离群值或极端值;与箱体距离在1~1.5倍箱体高度的观测值可称为可疑离群值。
3. 均数和标准差:当数据呈近似正态分布且样本量较大时(如n>50),若观
测值在均数±3倍标准差之外则可视为离群值。
4. 结合其他变量信息判断:比如,根据儿童的身高,可初步判断其体重是否
过高或者过低。根据身高所建立的体重核查规则比单纯只考虑体重的核查更为有效。
对于离群值的处理,如果原始数据存在逻辑错误且无法找到该观察对象进行核实,只能将该观测值删除。对于离群值的判断和识别需要将专业知识和统计学方法结合起来,谨慎处理。