Plus la taille de l'échantillon est grande, plus la prédiction est précise et plus la marge d'erreur est petite. Crédit:Fadethree via Wikimedia Commons
Au cours de la dernière année, les statistiques ont été exceptionnellement importantes dans l'actualité. Quelle est la précision du test COVID-19 que vous ou d'autres utilisez ? Comment les chercheurs connaissent-ils l'efficacité de nouvelles thérapies pour les patients COVID-19 ? Comment les chaînes de télévision peuvent-elles prédire les résultats des élections bien avant que tous les bulletins de vote aient été comptés ?
Chacune de ces questions implique une certaine incertitude, mais il est toujours possible de faire des prédictions précises tant que cette incertitude est comprise. Un outil que les statisticiens utilisent pour quantifier l'incertitude s'appelle la marge d'erreur.
Données limitées
je suis statisticien, et une partie de mon travail consiste à faire des déductions et des prédictions. Avec un temps et un argent illimités, Je pourrais simplement tester ou sonder l'ensemble du groupe de personnes qui m'intéresse pour évaluer la question en tête et trouver la réponse exacte. Par exemple, pour connaître le taux d'infection au COVID-19 aux États-Unis, Je pourrais simplement tester toute la population américaine. Cependant, dans le monde réel, vous ne pouvez jamais accéder à 100% d'une population.
Au lieu, les statisticiens échantillonnent une petite partie de la population et construisent un modèle pour faire une prédiction. En utilisant la théorie statistique, le résultat de l'échantillon est extrapolé pour représenter l'ensemble de la population.
Idéalement, un bon échantillon doit être représentatif de la population totale, y compris le sexe, diversité raciale, diversité socio-économique, modes de vie et autres mesures démographiques. Plus l'échantillon est grand, plus il ressemblerait à la vraie population, et avec un plus grand échantillon, plus les statisticiens sont confiants dans leurs prédictions. Mais il y aura toujours une certaine incertitude.
Quantification de l'incertitude
Prenez le développement de médicaments, par exemple. Il est toujours vrai de prédire qu'un nouveau médicament sera quelque part entre 0% et 100% efficace pour tout le monde sur Terre. Mais ce n'est pas une prédiction très utile. C'est le travail d'un statisticien de réduire cette fourchette à quelque chose de plus utile. Les statisticiens appellent généralement cette plage un intervalle de confiance, et c'est la gamme de prédictions dans laquelle les statisticiens sont très confiants que le vrai nombre sera trouvé.
Si un médicament a été testé sur 10 personnes et que sept d'entre elles l'ont trouvé efficace, l'efficacité estimée du médicament est de 70 %. Mais puisque l'objectif est de prédire l'efficacité dans l'ensemble de la population, les statisticiens doivent tenir compte de l'incertitude de tester seulement 10 personnes.
Les intervalles de confiance sont calculés à l'aide d'une formule mathématique qui englobe la taille de l'échantillon, l'éventail des réponses et les lois de probabilité. Dans cet exemple, l'intervalle de confiance serait compris entre 42 % et 98 % – une fourchette de 56 points de pourcentage. Après avoir testé seulement 10 personnes, on pourrait dire avec une grande certitude que le médicament est efficace pour entre 42% et 98% des personnes dans l'ensemble de la population.
Si vous divisez l'intervalle de confiance par deux, vous obtenez la marge d'erreur - dans ce cas, 28%. Plus la marge d'erreur est grande, moins la prédiction est précise. Plus la marge d'erreur est faible, plus la prédiction est précise. Une marge d'erreur de près de 30% est encore assez large.
Cependant, imaginez que les chercheurs ont testé ce nouveau médicament sur 1, 000 personnes au lieu de 10 et elle a été efficace chez 700 d'entre elles. L'efficacité estimée du médicament va toujours être d'environ 70%, pourtant cette prédiction est beaucoup plus précise. L'intervalle de confiance pour le plus grand échantillon sera compris entre 67 % et 73 % avec une marge d'erreur de 3 %. Vous pourriez dire que ce médicament devrait être efficace à 70 %, plus ou moins 3%, pour l'ensemble de la population.
Les statisticiens aimeraient pouvoir prédire avec une précision de 100 % le succès ou l'échec d'un nouveau médicament ou les résultats exacts d'une élection. Cependant, ce n'est pas possible. Il y a toujours une certaine incertitude, et la marge d'erreur est ce qui quantifie cette incertitude; il doit être pris en compte lors de l'examen des résultats. En particulier, la marge d'erreur définit la plage de prédictions dans laquelle les statisticiens sont très confiants que le vrai nombre sera trouvé. Une marge d'erreur acceptable est une question de jugement basé sur le degré d'exactitude requis dans les conclusions à tirer.
Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.