La statisticienne de l'Université Rice, Genevera Allen, discutera de la recherche visant à améliorer la précision et la reproductibilité des découvertes scientifiques faites par l'apprentissage automatique lors d'un point de presse et d'une session générale lors de la réunion annuelle 2019 de l'AAAS. Crédit :Tommy LaVergne/Rice University
La statisticienne de l'Université Rice, Genevera Allen, affirme que les scientifiques doivent continuer à remettre en question l'exactitude et la reproductibilité des découvertes scientifiques faites par les techniques d'apprentissage automatique jusqu'à ce que les chercheurs développent de nouveaux systèmes informatiques capables de se critiquer.
Allen, professeur agrégé de statistiques, l'informatique et le génie électrique et informatique à Rice et de pédiatrie-neurologie au Baylor College of Medicine, abordera le sujet lors d'un point de presse et d'une session générale aujourd'hui lors de la réunion annuelle 2019 de l'American Association for the Advancement of Science (AAAS).
"La question est, « Pouvons-nous vraiment faire confiance aux découvertes qui sont actuellement réalisées à l'aide de techniques d'apprentissage automatique appliquées à de grands ensembles de données ? », a déclaré Allen. « La réponse dans de nombreuses situations est probablement :« Non sans vérifier, " mais des travaux sont en cours sur des systèmes d'apprentissage automatique de nouvelle génération qui évalueront l'incertitude et la reproductibilité de leurs prédictions."
L'apprentissage automatique (ML) est une branche de la statistique et de l'informatique qui s'intéresse à la création de systèmes de calcul qui apprennent à partir de données plutôt que de suivre des instructions explicites. Allen a déclaré que beaucoup d'attention dans le domaine du ML s'est concentrée sur le développement de modèles prédictifs qui permettent au ML de faire des prédictions sur les données futures en fonction de sa compréhension des données qu'il a étudiées.
"Beaucoup de ces techniques sont conçues pour toujours faire une prédiction, " dit-elle. " Ils ne reviennent jamais avec 'Je ne sais pas, ' ou 'Je n'ai rien découvert, ' parce qu'ils ne sont pas faits pour ça."
Elle a déclaré que les découvertes fondées sur des données non corroborées provenant d'études de ML récemment publiées sur les données sur le cancer sont un bon exemple.
« En médecine de précision, il est important de trouver des groupes de patients qui ont des profils génomiquement similaires afin que vous puissiez développer des thérapies médicamenteuses qui ciblent le génome spécifique de leur maladie, " a déclaré Allen. " Les gens ont appliqué l'apprentissage automatique aux données génomiques de cohortes cliniques pour trouver des groupes, ou des grappes, des patients ayant des profils génomiques similaires.
"Mais il y a des cas où les découvertes ne sont pas reproductibles ; les clusters découverts dans une étude sont complètement différents des clusters trouvés dans une autre, " dit-elle. " Pourquoi ? Parce que la plupart des techniques d'apprentissage automatique d'aujourd'hui disent toujours :« J'ai trouvé un groupe. Parfois, ce serait bien plus utile s'ils disaient, « Je pense que certains d'entre eux sont vraiment regroupés, mais je ne suis pas sûr de ces autres.'"
Allen discutera de l'incertitude et de la reproductibilité des techniques de ML pour les découvertes basées sur les données lors d'un point de presse à 10 heures aujourd'hui, et elle discutera d'études de cas et de recherches visant à lutter contre l'incertitude et la reproductibilité à 15 h 30. séance générale, « Apprentissage automatique et statistiques :applications en génomique et en vision par ordinateur. » Les deux sessions se déroulent au Marriott Wardman Park Hotel.