Il est difficile de sous-estimer l'importance des données d'enquête :elles nous disent qui nous sommes et, entre les mains des décideurs, ce qu'il faut faire.
Il était évident depuis longtemps pour Brady West, un expert en méthodologie d'enquête à l'Université du Michigan, Ann Arbor, que les avantages des données d'enquête coexistaient avec un manque de formation sur la façon de les interpréter correctement, surtout lorsqu'il s'agissait d'analyses secondaires – des chercheurs réanalysant des données d'enquête qui avaient été recueillies par une étude précédente.
"Dans mon travail de conseil auprès d'organisations et d'entreprises, les gens entraient et disaient, 'Bien, voici mon estimation de la fréquence à laquelle quelque chose se produit dans une population, ' comme le taux d'une maladie ou les préférences pour un parti politique. Et ils voudraient savoir comment interpréter cela. je répondrais, « Avez-vous pris en compte la pondération dans les données d'enquête que vous utilisez ou, avez-vous pris en compte le plan d'échantillonnage ? » Et je dirais, probablement 90 pour cent du temps, ils me regardaient et n'avaient aucune idée de ce dont je parlais. Ils n'avaient jamais appris les principes fondamentaux du travail avec les données d'enquête dans leurs cours standard d'introduction aux statistiques. »
En tant que méthodologiste d'enquête, West s'est demandé si son expérience était révélatrice d'un problème systémique. Il n'y avait pas grand-chose dans la littérature académique pour répondre à la question, donc lui et ses collègues, Joseph Sakshaug et Guy Aurélien, échantillonné 250 articles, rapports et présentations—tous disponibles en ligne, tous effectuant des analyses secondaires des données d'enquête - pour voir si ces erreurs analytiques étaient, En effet, commun.
"C'était assez choquant, " dit West. " Seulement environ la moitié de ces analyses prétendaient tenir compte de la pondération, l'impact des plans d'échantillonnage sur les estimations de la variance était largement mal compris et il n'y avait aucun signe d'amélioration de ces problèmes au fil du temps. ces problèmes étaient tout aussi répandus dans la littérature évaluée par les pairs de leur échantillon que dans les rapports techniques et les présentations de conférence. "C'est ce qui m'a le plus choqué, " dit West. " Le processus d'examen par les pairs n'a pas détecté ces erreurs. "
Un exemple alarmant de ce qui peut arriver lorsque vous calculez une estimation mais ignorez la pondération de l'enquête peut être trouvé dans l'Enquête nationale 2010 auprès des diplômés universitaires (NSCG). « Il s'agit d'une vaste enquête nationale auprès des diplômés universitaires, et ils disent littéralement dans leur documentation qu'ils suréchantillonnent les personnes ayant des diplômes en sciences et en génie, " dit West. " Si vous tenez compte de la pondération, qui corrige ce suréchantillonnage, environ 30 pour cent des gens obtiennent des diplômes en sciences et en ingénierie; si vous oubliez la pondération, vous extrapolez le suréchantillon à l'ensemble de la population, et tout à coup, 55% des gens ont des diplômes en sciences et en ingénierie."
Ironiquement, un meilleur échantillonnage des populations sous-étudiées peut exacerber le problème. « Il y a beaucoup d'intérêt pour les populations sous-représentées, comme les hispaniques, " dit West. " Alors, de nombreuses enquêtes nationales suréchantillonnent ces groupes et d'autres pour créer un échantillon suffisamment grand pour que les chercheurs puissent l'étudier de manière adéquate. Mais lorsque Average Joe Researcher récupère toutes les données, pas seulement les données de la sous-population qui les intéresse, mais tout le monde, blancs, Afro-américains, et les Hispaniques, puis ils essaient d'analyser toutes ces données collectivement, c'est à ce moment-là que le suréchantillonnage peut avoir un effet horrible sur l'image globale si cette caractéristique du plan d'échantillonnage n'est pas correctement prise en compte dans l'estimation. »
Il existe de nombreux outils logiciels faciles à utiliser qui peuvent facilement prendre en compte les complexités d'échantillonnage et de pondération associées aux données d'enquête, mais le fait qu'ils ne soient pas utilisés témoigne du problème sous-jacent.
"Ce problème vient du fait que les personnes qui publient ces articles ne sont tout simplement pas informées de tout cela dans leur formation, ", dit West. "Nous connaissons l'importance de la pondération des enquêtes depuis près d'un siècle, mais d'une manière ou d'une autre, la façon de traiter les données d'enquête pondérées n'a pas pénétré les cours de statistiques que les chercheurs suivent au niveau du premier cycle ou des cycles supérieurs. Nous dépensons une fortune pour faire des enquêtes nationales et qui sait combien une mauvaise interprétation de ces données nous coûte. »
Pour résoudre ce problème, West aide à concevoir un MOOC (cours en ligne ouvert et massif) à l'Université du Michigan introduisant des statistiques avec le logiciel Python. La pondération et les analyses d'enquête correctes seront enseignées dans le tout premier cours de cette spécialisation. « Nous nous efforçons vraiment de nous assurer qu'avant de vous lancer dans des analyses de données d'enquête, vous avez une très bonne compréhension de la façon dont les données ont été collectées et d'où elles viennent. »