Les distributions gaussiennes sont simples et faciles à comprendre, mais pour certaines données telles que les précipitations et la vitesse du vent, ils peuvent entraîner des queues physiquement impossibles à des valeurs négatives. Crédit :Marek Uliasz / Alamy Banque D'Images
L'étude de l'inadéquation entre les données environnementales spatiales et une analyse statistique couramment utilisée suggère que des statistiques plus simples sont suffisantes dans de nombreux cas.
Les scientifiques de l'environnement et leurs collègues statisticiens sont confrontés à un dilemme commun :des tests statistiques plus simples caractérisent-ils correctement un ensemble de données ? Et cela vaut-il la peine de dériver et d'appliquer des méthodes statistiques qui sont peut-être mieux assorties mais plus difficiles à interpréter ? Dans la plupart des cas, le chemin de la moindre résistance l'emporte, mais le choix d'une base statistique simple peut jeter un léger doute sur la validité des résultats d'études statistiquement dérivés.
Le chercheur de KAUST Marc Genton et son doctorant Yuan Yan ont développé un cadre pour tester exactement à quel point une inadéquation entre les données et l'analyse statistique peut être imprécise, et les résultats sont surprenants.
"Les chercheurs ont tendance à ajuster les données spatiales avec un modèle gaussien simple - la courbe en cloche symétrique classique autour de la valeur moyenne - même si les données peuvent avoir une distribution asymétrique avec des caractéristiques qui divergent de la gaussienne, " dit Yan. "Nous avons étudié l'effet de la 'non-gaussianité' des données sur l'estimation et la prédiction statistiques sous la mauvaise hypothèse gaussienne."
Les distributions gaussiennes sont généralement intuitives, avec une valeur moyenne et des écarts types par rapport à la moyenne qui impliquent une distribution étroite ou large des données. Ils sont largement appliqués et compris, à la fois du point de vue du praticien et pour les utilisateurs non techniques. Mais, dans de nombreuses situations, notamment pour les données environnementales, la distribution des données est faussée. Vitesse du vent et précipitations, par exemple, ne peut pas être inférieur à zéro, pourtant, une distribution gaussienne avec une petite valeur moyenne mais une distribution étendue à des valeurs plus élevées peut avoir une queue à l'extrémité inférieure qui s'étend jusqu'à des valeurs négatives - certainement fausse, mais de combien ?
L'un des concepts les plus importants dans les analyses statistiques spatiales est de savoir dans quelle mesure les données s'influencent mutuellement lorsqu'une certaine distance les sépare, qui est donnée par ce qu'on appelle la fonction de covariance. Genton et Yan ont entrepris d'étudier systématiquement l'effet de l'application d'un modèle gaussien pour estimer la fonction de covariance pour les données non gaussiennes.
"Nous avons développé un schéma de simulation sur mesure pour générer des données spatiales non gaussiennes avec une structure de covariance donnée, " dit Genton. " Nous avons montré à travers notre étude de simulation que lorsque les données spatiales sont non gaussiennes, l'estimateur de vraisemblance gaussien des paramètres de covariance fonctionne toujours mieux qu'un autre estimateur des moindres carrés pondérés pour les données qui ne sont pas fortement asymétriques. »
Le résultat suggère que le modèle gaussien simple est en fait généralement adéquat pour l'estimation des paramètres pour les données spatiales dans de nombreux cas, offrant un certain confort aux scientifiques de l'espace sur leur choix d'approche statistique.