Les statistiques ont Guinness à remercier pour le test t de Student. Crédit :Flickr/Scott Thompson, CC PAR
En ce jour de la St Patrick, les fêtards du monde entier fouleront les rues à la recherche de l'une des boissons nationales irlandaises :une pinte de Guinness. Mais à part cette stout savoureuse, l'un des outils scientifiques les plus fondamentaux et les plus couramment utilisés a également ses origines à la brasserie Guinness.
Vers la fin du XIXe siècle, Guinness intensifiait ses opérations, et était intéressé à appliquer une approche scientifique à tous les aspects de la production de Guinness :de la croissance de l'orge jusqu'au goût de la Guinness.
Avant d'adopter une démarche scientifique, les brasseurs de Guinness se sont appuyés sur des méthodes subjectives, comme l'apparence et l'odeur du houblon, pour évaluer la qualité des produits.
La science dans le brassage
Une fois les brasseurs scientifiques recrutés, une approche plus objective a été adoptée. Le premier brasseur scientifique, Affaire Thomas Bennett, a été embauché en 1893 et il croyait que la quantité de résines molles dans le houblon était liée à la qualité de la Guinness. Il a donc tenu à estimer la quantité de résine molle dans certaines cultures de houblon.
Le défi auquel Case était confronté était qu'il, comme tout scientifique, ne pouvait pas tout mesurer à la fois. Il ne lui était pas possible d'évaluer la quantité de résine molle dans chacune des innombrables fleurs de houblon (ajoutées par milliers dans d'énormes cuves de la future Guinness) dont il avait la charge.
Au lieu, il a prélevé un échantillon de houblon (11 mesures de 50 grammes chacune) et a calculé la teneur moyenne en résine molle. Son espoir était que la teneur moyenne en résine molle de son petit échantillon puisse être utilisée pour estimer la teneur en résine molle de l'ensemble de la récolte (ce que les statisticiens appelleraient « la population ») de houblon.
En comparaison, un collègue a pris 14 autres mesures de 50 grammes chacune à partir du même lot de houblon. Case a trouvé une petite différence dans la quantité moyenne de résines molles entre ces échantillons.
Il était perplexe. Ces différences de teneur en houblon étaient-elles dues à des différences réelles sur l'ensemble de la récolte de houblon, ou étaient-elles dues à une erreur aléatoire introduite en utilisant des échantillons de petite taille ?
Questions de taille
À l'époque, les statistiques s'appuyaient sur ce qu'on appelle la "théorie des grands échantillons", qui, sans surprise, nécessite de gros échantillons (150 ou plus) pour fonctionner. L'appliquer à des problèmes impliquant de petits échantillons (comme ceux rencontrés par Case à Guinness) était difficile.
C'était le problème que William Sealy Gosset, un récent diplômé de chimie et de mathématiques à l'Université d'Oxford, tenait à aborder. Gosset a commencé à travailler comme apprenti brasseur à l'usine Guinness de Dublin en 1899.
En 1906, Gosset, aujourd'hui statisticien autodidacte, est allé étudier avec Karl Pearson, une figure de proue des statistiques, à l'University College de Londres.
Gosset tenait à adapter les méthodes de Pearson pour les grands échantillons pour traiter les petits échantillons qu'ils utilisaient à Guinness. Là, il a développé ses idées et les a préparées pour la publication.
Cependant, jusqu'à la fin des années 30, Guinness n'autoriserait pas les employés à publier sous leur propre nom de peur que d'autres brasseurs ne découvrent leurs approches scientifiques de la bière. Par conséquent, Gosset a publié son article le plus important, L'erreur probable d'une moyenne, sous le pseudonyme « Student » dans la revue Biometrika en 1908.
Ce fut l'origine du test t de Student, une méthode statistique fondamentale qui est largement utilisée à ce jour.
Test t de l'élève
Le problème rencontré par Case était que l'utilisation de petits échantillons de houblon introduit une nouvelle source d'incertitude dans l'analyse, le laissant moins capable de faire la distinction entre le réel, différences réelles entre deux lots de houblon et différences dues à cette incertitude.
Le génie de Gosset a été d'imaginer un moyen de rendre compte de cela :la distribution t. Cela définit mathématiquement la relation entre la taille de l'échantillon et le degré d'incertitude que cela impose.
Essentiellement, lors de la réalisation d'expériences, la distribution t (et le fameux test t qui en dépend) permet aux brasseurs de bière et aux scientifiques de rendre compte de la taille de l'échantillon qu'ils ont utilisé dans leur travail, puis définir à quel point ils sont confiants dans leurs conclusions.
S'en tenir à l'affaire des brasseurs, vous auriez des informations à partir des deux échantillons, tels que la teneur moyenne en résine molle du houblon et l'étalement de chaque mesure autour de la moyenne de chaque échantillon.
Sans entrer trop dans les détails, le test t aide à déterminer s'il existe des preuves d'une différence entre les deux moyennes en fonction de la taille de l'échantillon (c'est-à-dire le nombre de mesures prises sur une culture de houblon particulière). Dans le cas des brasseurs, ils recherchaient une différence nulle entre leurs deux échantillons.
Un héritage durable
La méthode de Gosset n'a pas attiré l'attention de la communauté statistique jusqu'à ce qu'une autre figure statistique de premier plan, Ronald Aylmer Fisher, embrassé avec enthousiasme la méthode et fourni une preuve mathématique.
Depuis cette époque, le test t a été utilisé pour résoudre un large éventail de problèmes scientifiques, de l'évaluation de la fonction cérébrale chez les patients victimes d'AVC, à la mesure de la teneur en carbone et en azote des bactéries océaniques côtières, comment le comportement des mineurs de charbon peut ou non conduire à des accidents (la consommation de Guinness par ces mineurs était, peut-être sans surprise, pas l'objet de l'étude).
En réalité, Le test t de Student a été utilisé dans pratiquement tous les domaines scientifiques :biologie, la physique, psychologie, biométrie, économie et médecine.
C'est un aliment de base des statistiques de premier cycle enseignées dans ces disciplines, mais peu sont peut-être au courant du rôle de Gosset dans la création du test t et de ses bonnes raisons de le faire.
Gosset est resté à Guinness toute sa vie en tant que chef brasseur expérimental, puis chef du département des statistiques qu'il a formé à Guinness, avant sa promotion à Head Brewer pour la nouvelle brasserie Guinness à Londres en 1935. Il a publié plusieurs articles sous le titre "Student", mais sa véritable identité n'a été révélée publiquement qu'à sa mort en 1937.
Donc, si vous buvez une Guinness ce jour de la St Patrick, levez un verre au personnage méconnu qui a joué un rôle central dans la bière, statistiques et en effet, science moderne :William Sealy Gosset.
Cet article a été initialement publié sur The Conversation. Lire l'article original.