Les chercheurs ont démontré l'utilité de leur modèle de copule factorielle en l'appliquant à l'analyse des températures moyennes quotidiennes dans toute la Suisse. Alistair Scott. Crédit :Alamy stock image
Un modèle statistique qui tient compte des dépendances communes dans les données spatiales donne des résultats plus réalistes pour les études de température, niveaux de vent et de pollution.
Un modèle statistique de données spatiales, telles que les températures à différents endroits, qui représente plus précisément la relation géographique entre les variables mesurées a été développé par les chercheurs de l'Université des sciences et technologies du roi Abdallah (KAUST) d'Arabie saoudite.
Des modèles statistiques robustes et réalistes sont essentiels à presque tous les domaines de la recherche scientifique et de l'ingénierie. Choisir le mauvais modèle statistique pour un ensemble de données donné peut conduire à une mauvaise interprétation potentiellement catastrophique des résultats, tandis qu'un modèle qui tient compte de la relation mécaniste entre les variables peut conduire à de nouvelles idées et découvertes.
"Les statistiques spatiales impliquent la modélisation de variables mesurées à différents emplacements spatiaux, " a déclaré Marc Genton, Professeur de mathématiques appliquées et de sciences informatiques à la KAUST. « De nombreux modèles existants, appelées copules, ne peut pas saisir correctement la dépendance spatiale entre les variables, comme lorsque la dépendance entre les variables s'affaiblit avec l'augmentation de la distance, comme c'est le cas avec la température."
Genton, avec ses collègues Dr Pavel Krupskii et Professeur Raphaël Huser, conçu une copule qui peut gérer différents types de dépendances entre les variables. Leur modèle offre également une interprétation plus simple des données par rapport à d'autres modèles :cette interprétation, mettre tout simplement, dit qu'il existe un facteur commun non observé qui affecte toutes les variables simultanément.
"Par exemple, les données de température dans une petite région géographique peuvent être soumises à des conditions météorologiques courantes, qui peut être considéré comme un facteur commun, " expliqua Genton. " Pour représenter de telles situations, nous avons utilisé un modèle gaussien standard et ajouté un facteur aléatoire commun qui affecte toutes les variables simultanément, ce qui est une hypothèse plausible dans de nombreuses applications spatiales."
Un modèle gaussien est l'un des modèles statistiques les plus fondamentaux et les plus polyvalents. Il est utilisé pour décrire une distribution aléatoire de valeurs autour d'une valeur moyenne similaire à la courbe en cloche classique dans laquelle la plupart des valeurs mesurées se situent près de la moyenne avec deux queues de chaque côté. Ces queues représentent la rareté croissante des valeurs significativement supérieures ou inférieures à la moyenne. Le modèle gaussien est particulièrement puissant dans la copule factorielle de Genton car il permet l'intégration naturelle d'une dépendance de facteur commun entre les variables.
Les chercheurs ont démontré l'utilité de leur modèle de copule factorielle en l'appliquant à l'analyse des températures moyennes quotidiennes dans toute la Suisse. Leur modèle a bien fonctionné par rapport à d'autres approches statistiques et a donné une représentation plus robuste de la dépendance sous-jacente entre les emplacements géographiques.
Avoir hâte de, Genton a expliqué, "Notre copule peut être utilisée pour modéliser n'importe quelle variable mesurée à plusieurs reprises dans le temps à différents emplacements spatiaux, telles que la température quotidienne ou horaire ou les données de vent à différentes stations météorologiques, ou pour modéliser les niveaux de pollution mesurés à l'aide de ballons météo ou de satellites.