Structure de dépendance complète. Crédit :Björn Böttcher
En décembre, l'éditeur académique De Gruyter a lancé sa nouvelle revue Statistiques ouvertes avec un article d'ouverture par le mathématicien TU Dresden Dr. Björn Böttcher. L'article présente l'extension de la mesure statistique de la multivariance de distance développée par Böttcher et ses collègues de la TU Dresden.
La multivariance de distance est une mesure de dépendance multivariée qui peut détecter des dépendances entre un nombre arbitraire de vecteurs aléatoires dont chacun peut avoir une dimension distincte. Dans son nouvel article, Böttcher présente maintenant le concept comme une théorie unificatrice qui combine plusieurs mesures de dépendance classiques. Les connexions entre deux ou plusieurs variables de grande dimension peuvent être capturées et même des dépendances non linéaires complexes ainsi que des dépendances d'ordre supérieur peuvent être détectées. Pour de nombreuses disciplines scientifiques, cette méthode ouvre de nouvelles approches pour détecter et évaluer les dépendances.
Le nombre de jours d'école manqués peut-il être lié à l'âge, sexe ou origine des élèves ? Dans une enquête auprès de 146 élèves, les chercheurs en sciences sociales ont analysé diverses variables d'influence sur les jours d'école manqués et en ont examiné les dépendances afin d'en déduire un modèle de prédiction. Cette question classique a déjà été largement discutée et analysée avec diverses approches statistiques.
La mesure statistique de la multivariance à distance présente une nouvelle approche de cette question :le Dr Björn Böttcher de l'Institute of Mathematical Stochastique a pu utiliser la multivariance à distance pour déterminer le contexte culturel et une dépendance d'ordre supérieur, y compris l'âge et le sexe comme facteurs jours d'école. Il a ainsi pu proposer un modèle minimal. "Il s'agit d'un exemple élémentaire d'application de la méthode développée. Je ne peux pas juger s'il s'agit également d'une conclusion fondée en ce qui concerne la question étudiée. Travailler avec des données réelles et en particulier l'interprétation spécifique au sujet des résultats nécessite toujours une expertise dans le sujet respectif, " dit le Dr Böttcher, et fournit de nombreux autres exemples illustratifs de l'application de sa méthode :« Dans le papier, Je fais référence à plus de 350 ensembles de données disponibles gratuitement dans toutes les disciplines scientifiques dans lesquelles des dépendances d'ordre supérieur statistiquement significatives se produisent. De nouveau, si ces dépendances sont significatives en termes d'enquêtes sous-jacentes nécessite des investigations supplémentaires ainsi que l'expertise dans les domaines respectifs, " et il ajoute, "bien sûr, les demandes de coopération sont toujours les bienvenues."
L'analyse statistique considère généralement les dépendances entre les variables individuelles. Surtout avec de nombreuses variables, il est souhaitable de supprimer les variables indépendantes avant d'étudier des types spécifiques de dépendance. Le Dr Björn Böttcher présente une méthode à cet effet appelée "détection de structure de dépendance, " qui peut également être utilisé pour détecter les dépendances d'ordre supérieur. Les variables sont dites "dépendantes d'ordre supérieur" si elles sont indépendantes deux à deux, mais plus de deux variables s'influencent encore conjointement. Les dépendances de ce type n'ont pas fait l'objet d'applications jusqu'à présent.
Certains scientifiques soupçonnent que des dépendances d'ordre supérieur se produisent en génétique en particulier :l'idée de base ici est que plusieurs gènes déterminent ensemble une propriété, mais ces gènes ne montrent ni individuellement aucune dépendance entre eux ni individuellement avec la propriété — ainsi, en effet, ils seraient dépendants d'ordre supérieur. Le cadre de la multivariance à distance et la méthode de détection de structure de dépendance sont maintenant des outils prometteurs pour de telles investigations.
Les implémentations des nouvelles méthodes sont fournies pour des applications directes dans le package "multivariance" pour l'environnement de calcul statistique libre R.