Crédit :CC0 Domaine public
Alors que c'est peut-être l'ère des supercalculateurs et du « big data, " sans méthodes intelligentes pour extraire toutes ces données, ce ne sont que des détritus numériques. Aujourd'hui, des chercheurs du Lawrence Berkeley National Laboratory (Berkeley Lab) du département de l'Énergie et de l'UC Berkeley ont mis au point une nouvelle méthode d'apprentissage automatique qui permet aux scientifiques de tirer des enseignements de systèmes d'une complexité auparavant insoluble en un temps record.
Dans un article publié récemment dans le Actes de l'Académie nationale des sciences ( PNAS ), les chercheurs décrivent une technique appelée "forêts aléatoires itératives, " qui, selon eux, pourraient avoir un effet transformateur sur n'importe quel domaine de la science ou de l'ingénierie avec des systèmes complexes, dont la biologie, médecine de précision, la science des matériaux, sciences de l'environnement, et fabrication, pour n'en nommer que quelques-uns.
"Prenez une cellule humaine, par exemple. Il y a 10 170 interactions moléculaires possibles dans une seule cellule. Cela crée des défis informatiques considérables dans la recherche de relations, " dit Ben Brown, chef du département de biologie des écosystèmes moléculaires du Berkeley Lab. "Notre méthode permet l'identification d'interactions d'ordre élevé au même coût de calcul que les effets principaux - même lorsque ces interactions sont locales avec de faibles effets marginaux."
Brown et Bin Yu de l'UC Berkeley sont les principaux auteurs principaux de « Iterative Random Forests to Discover Predictive and Stable High-Order Interactions ». Les co-premiers auteurs sont Sumanta Basu (anciennement post-doctorant conjoint de Brown et Yu et maintenant professeur assistant à l'Université Cornell) et Karl Kumbier (doctorant de Yu au département de statistique de l'UC Berkeley). L'article est l'aboutissement de trois années de travail qui, selon les auteurs, transformeront la façon dont la science est faite. "Avec notre méthode, nous pouvons obtenir des informations radicalement plus riches que nous n'avons jamais pu obtenir d'une machine d'apprentissage, ", a déclaré Brown.
Les besoins du machine learning en science sont différents de ceux de l'industrie, où l'apprentissage automatique a été utilisé pour des choses comme jouer aux échecs, fabriquer des voitures autonomes, et prédire le marché boursier.
"L'apprentissage automatique développé par l'industrie est génial si vous voulez faire du trading à haute fréquence sur le marché boursier, " Brown a dit. " Vous ne vous souciez pas pourquoi vous êtes en mesure de prédire que le stock va monter ou descendre. Vous voulez juste savoir que vous pouvez faire des prédictions."
Mais en sciences, les questions entourant les raisons pour lesquelles un processus se comporte de certaines manières sont essentielles. Comprendre « pourquoi » permet aux scientifiques de modéliser ou même de concevoir des processus pour améliorer ou atteindre le résultat souhaité. Par conséquent, L'apprentissage automatique pour la science doit regarder à l'intérieur de la boîte noire et comprendre pourquoi et comment les ordinateurs sont parvenus aux conclusions auxquelles ils sont parvenus. Un objectif à long terme est d'utiliser ce type d'informations pour modéliser ou concevoir des systèmes afin d'obtenir les résultats souhaités.
Dans les systèmes très complexes - qu'il s'agisse d'une seule cellule, le corps humain, ou même un écosystème entier - il existe un grand nombre de variables interagissant de manière non linéaire. Cela rend difficile, voire impossible, la construction d'un modèle qui puisse déterminer la cause et l'effet. "Malheureusement, en biologie, vous tombez sur des interactions d'ordre 30, 40, 60 tout le temps, " a déclaré Brown. " C'est complètement insoluble avec les approches traditionnelles de l'apprentissage statistique. "
La méthode développée par l'équipe dirigée par Brown et Yu, Forêts aléatoires itératives (iRF), s'appuie sur un algorithme appelé forêts aléatoires, un outil de modélisation prédictive populaire et efficace, traduire les états internes de l'apprenant de la boîte noire en une forme interprétable par l'homme. Leur approche permet aux chercheurs de rechercher des interactions complexes en découplant l'ordre, ou la taille, des interactions du coût de calcul de l'identification.
"Il n'y a pas de différence dans le coût de calcul de la détection d'une interaction d'ordre 30 par rapport à une interaction d'ordre deux, " a déclaré Brown. "Et c'est un changement radical."
Dans l'article du PNAS, les scientifiques ont démontré leur méthode sur deux problèmes de génomique, le rôle des activateurs de gènes dans l'embryon de la mouche des fruits et l'épissage alternatif dans une lignée cellulaire d'origine humaine. Dans les deux cas, l'utilisation de l'iRF a confirmé les résultats précédents tout en découvrant également des interactions d'ordre supérieur non identifiées auparavant pour une étude de suivi.
Brown a déclaré qu'ils utilisaient maintenant leur méthode pour concevoir des systèmes laser à commande de phase et optimiser les systèmes d'agriculture durable.
"Nous pensons qu'il s'agit d'un paradigme différent pour faire de la science, " dit Yu, professeur dans les départements de statistique et de génie électrique et informatique de l'UC Berkeley. "Nous faisons de la prédiction, mais nous introduisons la stabilité en plus de la prédiction dans iRF pour apprendre de manière plus fiable la structure sous-jacente dans les prédicteurs."
« Cela nous permet d'apprendre à concevoir des systèmes pour une optimisation axée sur les objectifs et des simulations et des expériences de suivi plus ciblées, " ajouta Brown.
Dans un commentaire du PNAS sur la technique, Danielle Denisko et Michael Hoffman de l'Université de Toronto ont écrit :« iRF est très prometteur en tant que moyen nouveau et efficace de détecter les interactions dans une variété de contextes, et son utilisation nous aidera à nous assurer qu'aucune branche ou feuille n'est jamais laissée de côté."