Crédit :CC0 Domaine public
Modélisation prédictive de très grands jeux de données, telles que les mesures environnementales, sur une vaste zone peut être un exercice très intensif en calcul. Ces demandes de calcul peuvent être considérablement réduites en appliquant diverses approximations, mais à quel prix pour la précision ? Les chercheurs de KAUST ont maintenant développé des outils statistiques qui aident à éliminer les conjectures de ce processus d'approximation.
« En statistiques spatiales, il est extrêmement long d'adapter un modèle de processus standard à de grands ensembles de données en utilisant les méthodes basées sur la vraisemblance les plus précises, " dit Yiping Hong, qui a dirigé la recherche. "Les méthodes d'approximation peuvent réduire considérablement le temps de calcul et les ressources informatiques."
Plutôt que de modéliser explicitement la relation entre chaque paire d'observations à l'aide d'un modèle de processus standard, les méthodes d'approximation tentent d'adopter une structure de modélisation alternative pour décrire les relations dans les données. Cette approche est moins précise mais plus conviviale en termes de calcul. La méthode d'estimation de tuile bas rang (TLR) développée par KAUST, par exemple, applique une approximation par bloc pour réduire le temps de calcul.
"Ainsi, il faut déterminer certains paramètres de réglage, tels que le nombre de blocs à diviser et la précision de l'approximation des blocs, " dit Hong. " Pour cela, nous avons développé trois critères pour évaluer la perte d'efficacité de prédiction, ou la perte d'informations, lorsque le modèle est approximé."
Faute de mesures informatives pour évaluer l'impact du rapprochement, Hong, avec le informaticien Sameh Abdulah et les statisticiens Marc Genton et Ying Sun, développé le leur. Les trois mesures—la perte moyenne d'efficacité, l'erreur de spécification moyenne et une moyenne quadratique de l'erreur de spécification moyenne - ensemble donnent un aperçu de l'"ajustement" des paramètres d'approximation à l'ensemble de données, y compris la variabilité des prédictions, et pas seulement l'évaluation point par point donnée par le critère de prédiction conventionnel.
"Nous pouvons utiliser nos critères pour comparer les performances de prédiction de la méthode TLR avec différents paramètres de réglage, qui nous permet de proposer les meilleurs paramètres à utiliser, " dit Hong.
L'équipe a appliqué la méthode à un ensemble de données réel de mesures d'humidité du sol à haute résolution dans le bassin du Mississippi. En ajustant les paramètres de réglage à l'aide des nouvelles mesures, l'approximation TLR a fourni des estimations très proches des estimations exactes du maximum de vraisemblance, avec un temps de calcul nettement plus court.
"Nos critères, qui ont été développés pour choisir le paramètre de réglage pour TLR, peut également être utilisé pour régler d'autres méthodes d'approximation, " dit Hong. " Nous prévoyons maintenant de comparer les performances d'autres méthodes d'approximation développées pour de grands ensembles de données spatiales, qui fournira des conseils précieux pour l'analyse de données réelles. »