La figure montre une application de la nouvelle méthode pour identifier la différence des surfaces cornéennes moyennes avec divers degrés de la maladie du kératocône qui provoque une déformation de la cornée. Les symboles entre parenthèses après les titres des groupes indiquent la signification statistique de la différence entre le groupe associé et le groupe normal, où "***" signifie une différence hautement significative et "." suggère une différence non significative. L'ensemble de données cornéen est un exemple de données de grande dimension. Le groupe normal a 43 surfaces cornéennes tandis que le suspect unilatéral, carte suspecte, et les groupes cliniques de kératocône en ont 14, 21 et 72 surfaces cornéennes respectivement. Chaque surface cornéenne en a 6, 912 mesures. Les tests MANOVA traditionnels ne sont pas adaptés à ce problème. Crédit :Université nationale de Singapour
MANOVA (analyse multivariée de la variance) est une méthode statistique couramment utilisée dans l'analyse des données pour déterminer s'il existe une différence dans les moyennes des différents groupes de données. Cependant, l'approche classique n'est pas adaptée à l'analyse de données de grande dimension. Les données de grande dimension rendent souvent les méthodes MANOVA traditionnelles invalides puisque dans une MANOVA traditionnelle, la dimension est supposée fixe et doit être beaucoup plus petite que le nombre d'observations. Dans un décor MANOVA de grande dimension, Ce n'est plus vrai. Prof ZHANG Jin-Ting du Département des statistiques et probabilités appliquées, NUS et son doctorat. les étudiants ont développé une nouvelle méthode MANOVA de grande dimension qui peut être utilisée pour comparer efficacement les moyennes de plusieurs groupes de données impliquant des données de grande dimension.
La nouvelle méthode assouplit de nombreuses conditions et restrictions mathématiques imposées dans la littérature. L'une d'elles est l'hypothèse d'homoscédasticité. Cette hypothèse est une condition mathématique qui exige que les données de différents groupes aient les mêmes modèles de variation. Leur nouvelle méthode résout également les problèmes de calcul impliqués dans la mise en œuvre pratique de MANOVA pour les données de grande dimension. Pour ce faire, il utilise des calculs matriciels de haut niveau efficaces sur le plan informatique.
Bien qu'il soit largement applicable et fonctionne bien pour de nombreux ensembles de données de la vie réelle, la méthode proposée peut être moins efficace dans certaines situations parce que les informations de variation et de corrélation des variables ne sont pas pleinement utilisées. Lors de l'analyse des données de surface cornéenne (voir la figure ci-dessous), la matrice de covariance associée qui contient les informations de variation et de corrélation à partir des données est calculée. Si le nombre de surfaces cornéennes est supérieur au nombre de mesures d'une surface cornéenne, la matrice de covariance calculée est inversible, ce qui signifie que la statistique du test peut être obtenue en utilisant le test MANOVA traditionnel. Dans un cadre de grande dimension, cela n'est pas possible car le nombre de surfaces cornéennes (150 =43+14+21+72 échantillons) est bien inférieur au nombre de mesures (6, 912 cotes). Cependant, les informations de variation et de corrélation sont encore partiellement utilisées pour estimer les paramètres de la statistique de test. Le professeur Zhang et son équipe de recherche étudient cela pour développer de meilleures méthodes statistiques capables de gérer de telles situations.