Les instruments de surveillance des PM2,5 du State Key Laboratory of Atmospheric Boundary Layer Physics and Atmospheric Chemistry (LAPC), Institut de physique atmosphérique, Académie chinoise des sciences. Crédit :TANG Xiao
Les données de surveillance de la qualité de l'air ambiant constituent la source la plus importante de sensibilisation du public à la qualité de l'air, et sont largement utilisés dans de nombreux domaines de recherche, telles que l'amélioration de la prévision de la qualité de l'air et l'analyse des épisodes de brume. Cependant, il y a des valeurs aberrantes parmi ces données de surveillance, en raison de dysfonctionnements de l'instrument, l'influence des environnements difficiles, et la limitation des méthodes de mesure.
En pratique, une inspection manuelle est souvent appliquée pour identifier ces valeurs aberrantes. Cependant, à mesure que la quantité de données augmente rapidement, cette méthode devient de plus en plus lourde.
Pour régler le problème, Dr Wu Huangjian et professeur agrégé Tang Xiao de l'Institut de physique atmosphérique, Académie chinoise des sciences, proposer une méthode de détection des valeurs aberrantes entièrement automatique basée sur la probabilité des résidus. La méthode adopte des méthodes de régression multiple, et les résidus de régression sont utilisés pour discriminer les valeurs aberrantes. Sur la base des écarts types des résidus, les probabilités des résidus peuvent être calculées, et les observations avec de petites probabilités sont marquées comme des valeurs aberrantes et supprimées par un programme informatique. Leurs conclusions sont publiées dans Avancées des sciences de l'atmosphère .
"En introduisant les probabilités de résidus, plusieurs règles peuvent être utilisées pour identifier les valeurs aberrantes sur le même cadre, " dit le Dr Wu. " Par exemple, en supposant que les résidus de régression spatiale et de régression temporelle obéissent à une distribution normale bivariée, les cohérences spatiales et temporelles peuvent être évaluées simultanément pour une meilleure identification des valeurs aberrantes".
La méthode peut signaler des données potentiellement erronées dans les observations horaires de 1436 stations du Centre national de surveillance de l'environnement de Chine (CNEMC) en une minute. En effet, il a été utilisé dans le système de prévision de la qualité de l'air du CNEMC, et va être intégré dans le système de gestion des données. L'espoir est que les valeurs aberrantes dans les données de qualité de l'air en temps réel du système seront supprimées dans un proche avenir.
La méthode est publiée dans Avancées des sciences de l'atmosphère .