Par Kevin Beck, mis à jour le 30 août 2022
Imaginez que vous vouliez savoir comment le poids de votre chiot de race pure âgé de 12 semaines se compare à celui d'autres chiens du même âge, du même sexe et de la même race dans le monde. Si vous avez accès à une base de données complète, vous pouvez comparer le poids de votre chiot à la moyenne de la population et voir son classement. Mais que se passe-t-il si vous ne disposez que d'une poignée de points de données et souhaitez néanmoins évaluer le lien entre une valeur particulière et la population dans son ensemble ?
Dans de tels cas, deux outils statistiques entrent en jeu :le z‑score et le t‑score . Les deux vous aident à comprendre comment une observation spécifique se compare à une valeur « typique », mais ils sont utilisés dans des circonstances différentes.
La moyenne (la moyenne) d'un ensemble de données est la somme de toutes les valeurs divisée par le nombre d'observations, n . Pour une population, la moyenne est notée μ , et l'écart type par σ . Dans une distribution normale standard, environ 68 % des observations se situent à ±1σ de la moyenne et environ 95 % à ±2σ.
L'ampleur de l'écart type par rapport à la moyenne indique la répartition des données :un σ plus grand produit une courbe en cloche plus large, tandis qu'un σ plus petit entraîne une courbe plus étroite.
Un z‑score mesure le nombre d'écarts types d'une seule observation, x , est issu de la moyenne de la population :Z =(x – μ) / σ . Un z-score de 0 signifie que l’observation est égale à la moyenne ; +1,00 et –1,00 indiquent respectivement un écart type au-dessus ou en dessous de la moyenne.
Un t‑score est similaire mais utilise la moyenne de l'échantillon (𝑥̄ ) et l'écart type de l'échantillon (s ), et intègre la taille de l'échantillon :t =(𝑥̄ – μ) / (s / √n) . Le dénominateur représente l'erreur type de la moyenne.
Si votre échantillon contient moins de 30 observations, un score T est préférable à un score Z. À mesure que la taille de l'échantillon augmente, la distribution t converge vers la distribution normale, rendant la différence négligeable pour les grands n . Le choix de l'intervalle de confiance (généralement 90 % ou 95 % pour les tests bilatéraux) détermine la valeur critique à laquelle vous comparez votre score T.
Supposons qu'une classe de 25 étudiants universitaires obtienne une moyenne de 64 % à un test surprise sur Harry Potter. La moyenne de la population est de 60 % et l'écart type de l'échantillon est de 15 %. Pour calculer le t‑score :
t = (64 – 60) / (15 / √25) = 4 / (15 / 5) = 4 / 3 ≈ 1.33
Les degrés de liberté sont df = n – 1 = 24 . En recherchant un niveau de confiance de 90 % dans un tableau de distribution t (ou en utilisant une calculatrice en ligne), la valeur critique pour 24df est d'environ 1,711. Puisque 1,33 < 1,711, la moyenne de la classe n'est pas significativement supérieure à la moyenne de la population au niveau de confiance de 90 %.
Ajuster l'intervalle de confiance (par exemple, à 80 % ou 70 %) modifierait la valeur critique et pourrait modifier la conclusion.
Pour des tableaux et des calculateurs plus détaillés, consultez des sources réputées telles que l'Entrée Wikipédia sur la distribution t ou un logiciel statistique comme R ou la bibliothèque SciPy de Python.