研究中,使用 MATLAB根据瞬时流量的数据 构建了384个 ARMA 模型.限于篇幅,主要讨论4个季节中的00∶00、06∶00、12∶00和18∶00,共 16个 具 有 代 表 性 的 模 型.所 有 模 型 中 除 少 数 MAPE值接近20% 以外,大部分都在 10% 左右. 以秋季 06∶00 的 ARMA 模型(见图1)为例,其 MAPE值为8.73%,显示出良好的拟合性能.
图2显示了未经数据反馈矫正的4个季节中12∶00的数据识别图像,对比图2可知,4个季节 分别对应着4种不同的模型,其走势各有特点.其 中,春季模型(见图2a)的数据序列走势平稳且全部 落在置信区间内,表明管网处于正常的状态;夏季 模型(见图2b)的数据序列仍然处于平稳走势,少 量的数据突然增大而脱离置信区间,因此被识别为 异常值;秋季模型(见图2c)则处于频繁的小幅振荡走势,由于模型预测的滞后性,模型置信区间的走 势与观测值数据序列的走势相反,这导致该模型无 法准确识别数据异常与否;冬季模型(见图2d)的数 据序列走势不稳定,而且突然增大的数据连续出现.对比图1与图2c可以发现,即使在同一季节, 不同时段的模型走势也是不同的.综上所述,不同 时段不同季节的 ARMA 模型走势均有所不同,表 明了对数据按时段和季节进行切分的合理性.
研究中,对所有模型的数据识别性能进行了评 估.表1中汇总了部分模型 ORR值的情况.
所有模型不管是否进行了数据反馈矫正,在识 别非连续异常值时的 ORR 值均为100%,但此时 依然有数据反馈矫正的必要性.含有3个非连续异 常值的人工模拟序列在春季00∶00模型中的识别 结果如图3所示,其中第358、380和395点为已知
异常点.尽管经过数据反馈矫正与未经数据反馈矫 正的 ORR值均为100%,但是未经数据反馈矫正的 序列中,每当出现一次异常值后,后续的正常数据会 低于或十分接近于置信区间下限(如图3b中灰色点 所示).这些数据会被错误地识别为异常值,从而降 低该数据识别方法的可信度.因此,当异常数据在监测数据中偶然出现时,应进行数据反馈矫正. 如表1所示,在识别连续异常值时,经数据反 馈矫正的模型识别效果明显好于未经数据反馈矫正的模型.含有8个连续异常值的人工模拟序列在夏 季6∶00模型中的识别结果如图4 所示,其中第 421到第428个点为已知异常点.经过数据反馈矫正的异常值检出率达到100%,而不经数据反馈矫 正的 ORR值仅为62.5%,第426、427和428点未能成功识别.此外,连续出现的异常值改变了置信 区间的走势,这使得后续的一些正常数据低于置信区间下限(如图4b中灰色点所示),从而也被错误 地识别为异常值.因此,当异常值连续出现在监测数据中时,进行数据反馈矫正是十分必要的.