(1) 选取样本数据:某小区A在一个月内有n个宽带类装机任务,n=10,每个任务计算得出任务施工时长如下:58、45、68、60、74、100、65、55、77、62。
(2) 按序排列数据:将样本数据按从小到大的顺序进行排列,得到45、55、58、60、62、65、68、74、77、100。异常值应定位在前、末端数据。
(3) 平均值x与标准方差s计算:s:x-=66.4;标准差s=14.99。
(4) 偏离值计算:计算平均值与最小值、最大值的差。平均值与最小值之差为66.4-45=21.5;最大值与平均值之差为100-66.4=33.6。
(5) 圈定首个可疑数据:最大值与平均值之差33.6大于平均值与最小值之差21.5,因此可认定最大值100是可疑值。
(6) 计算残差与标准差Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序,本样本数据为10号,xi-x-为残差值,即:可疑数据与平均值之差,值为33.6;因此G10 = (33.6)/14.99=2.241。将计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。临界值GP(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n (与自由度f有关)。
(7) 定检出水平α:由于平均处理时长本身存在诸多因素影响,要求不严格,故可以将α设置得大一些,假定为α=0.10,即P=0.90;通常定α=0.05,P=0.95。
(8) 匹配格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交的临界值G95(10)=2.176。
(9) 比较计算值Gi和临界值G95(10):Gi=2.241,G95(10)=2.176,Gi>G95(10)。
(10) 异常值判定:因为Gi>G95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除。
(11) 重复计算:将剩余的9个数据再按以上步骤计算,如果计算的Gi>G95(9),仍为异常值则剔除,继续对剩余的8个数据计算;如果Gi<G95(9),不是异常值,则不剔除,计算结束