• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Avec peu de formation, les algorithmes d'apprentissage automatique peuvent découvrir des connaissances scientifiques cachées

    Les chercheurs du Berkeley Lab ont découvert que l'exploration de texte dans les résumés de la science des matériaux pouvait produire de nouveaux matériaux thermoélectriques. Crédit :Berkeley Lab

    Sûr, les ordinateurs peuvent être utilisés pour jouer aux échecs de niveau grand maître (chess_computer), mais peuvent-ils faire des découvertes scientifiques ? Des chercheurs du Lawrence Berkeley National Laboratory (Berkeley Lab) du département américain de l'Énergie ont montré qu'un algorithme sans formation en science des matériaux peut numériser le texte de millions d'articles et découvrir de nouvelles connaissances scientifiques.

    Une équipe dirigée par Anubhav Jain, un scientifique de la division Stockage d'énergie et ressources distribuées du Berkeley Lab, a collecté 3,3 millions de résumés d'articles publiés sur la science des matériaux et les a intégrés à un algorithme appelé Word2vec. En analysant les relations entre les mots, l'algorithme a pu prédire les découvertes de nouveaux matériaux thermoélectriques des années à l'avance et suggérer des matériaux encore inconnus comme candidats pour les matériaux thermoélectriques.

    "Sans rien lui dire sur la science des matériaux, il a appris des concepts comme le tableau périodique et la structure cristalline des métaux, " a déclaré Jain. "Cela a fait allusion au potentiel de la technique. Mais probablement la chose la plus intéressante que nous ayons découverte est, vous pouvez utiliser cet algorithme pour combler les lacunes dans la recherche sur les matériaux, des choses que les gens devraient étudier mais qu'ils n'ont pas encore étudiées."

    Les résultats ont été publiés le 3 juillet dans la revue La nature . L'auteur principal de l'étude, "Les imbrications de mots non supervisées capturent les connaissances latentes de la littérature sur la science des matériaux, " est Vahe Tshitoyan, un boursier postdoctoral de Berkeley Lab qui travaille maintenant chez Google. Avec Jain, Les scientifiques de Berkeley Lab, Kristin Persson et Gerbrand Ceder, ont aidé à diriger l'étude.

    "L'article établit que l'exploration de textes de la littérature scientifique peut révéler des connaissances cachées, et que l'extraction purement textuelle peut établir des connaissances scientifiques de base, " dit Ceder, qui a également un rendez-vous au Département de science et d'ingénierie des matériaux de l'UC Berkeley.

    Tshitoyan a déclaré que le projet était motivé par la difficulté à donner un sens à la quantité écrasante d'études publiées. "Dans chaque domaine de recherche, il y a 100 ans de littérature de recherche passée, et chaque semaine des dizaines d'autres études sortent, " dit-il. " Un chercheur ne peut accéder qu'à une fraction de cela. Nous pensions, L'apprentissage automatique peut-il faire quelque chose pour utiliser toutes ces connaissances collectives de manière non supervisée, sans avoir besoin des conseils de chercheurs humains ? »

    'Roi—reine + homme =?'

    L'équipe a collecté les 3,3 millions de résumés d'articles publiés dans plus de 1, 000 revues entre 1922 et 2018. Word2vec a pris chacune des quelque 500, 000 mots distincts dans ces résumés et transformés chacun en un vecteur à 200 dimensions, ou un tableau de 200 nombres.

    "Ce qui est important n'est pas chaque nombre, mais en utilisant les nombres pour voir comment les mots sont liés les uns aux autres, " dit Jaïn, qui dirige un groupe travaillant sur la découverte et la conception de nouveaux matériaux pour des applications énergétiques en utilisant un mélange de théorie, calcul, et l'exploration de données. "Par exemple, vous pouvez soustraire des vecteurs en utilisant les mathématiques vectorielles standard. D'autres chercheurs ont montré que si vous entraînez l'algorithme sur des sources de texte non scientifiques et prenez le vecteur résultant de" roi moins reine, " vous obtenez le même résultat que " homme moins femme ". Il découvre la relation sans que vous lui disiez quoi que ce soit. »

    De la même manière, lorsqu'il est formé sur un texte de science des matériaux, l'algorithme a pu apprendre la signification de termes et de concepts scientifiques tels que la structure cristalline des métaux en se basant simplement sur la position des mots dans les résumés et leur cooccurrence avec d'autres mots. Par exemple, tout comme il pourrait résoudre l'équation "roi-reine + homme, " il pourrait comprendre que pour l'équation " ferromagnétique - NiFe + IrMn ", la réponse serait " antiferromagnétique ".

    Le tableau périodique de Mendeleev est à droite. la représentation des éléments par Word2vec, projeté sur deux dimensions, est sur le côté gauche. Crédit :Berkeley Lab

    Word2vec a même pu apprendre les relations entre les éléments du tableau périodique lorsque le vecteur de chaque élément chimique a été projeté sur deux dimensions.

    Prédire les découvertes des années à l'avance

    Donc si Word2vec est si intelligent, pourrait-il prédire de nouveaux matériaux thermoélectriques ? Un bon matériau thermoélectrique peut convertir efficacement la chaleur en électricité et est composé de matériaux sûrs, abondante et facile à produire.

    L'équipe du Berkeley Lab a sélectionné les meilleurs candidats thermoélectriques suggérés par l'algorithme, qui a classé chaque composé par la similitude de son mot vecteur avec celui du mot « thermoélectrique ». Ensuite, ils ont effectué des calculs pour vérifier les prédictions de l'algorithme.

    Parmi les 10 meilleures prédictions, ils ont trouvé que tous avaient des facteurs de puissance calculés légèrement supérieurs à la moyenne des thermoélectriques connus; les trois premiers candidats avaient des facteurs de puissance supérieurs au 95e centile des thermoélectriques connus.

    Ensuite, ils ont testé si l'algorithme pouvait effectuer des expériences "dans le passé" en ne lui donnant que des résumés jusqu'à, dire, l'an 2000. Encore une fois, des meilleures prédictions, un nombre important est apparu dans des études ultérieures, quatre fois plus que si les matériaux avaient été choisis au hasard. Par exemple, trois des cinq principales prédictions formées à l'aide de données jusqu'à l'année 2008 ont depuis été découvertes et les deux autres contiennent des éléments rares ou toxiques.

    Les résultats étaient surprenants. "Honnêtement, je ne m'attendais pas à ce que l'algorithme soit aussi prédictif des résultats futurs, " dit Jain. " J'avais pensé que peut-être l'algorithme pourrait être descriptif de ce que les gens avaient fait auparavant, mais pas proposer ces différentes connexions. J'ai été assez surpris quand j'ai vu non seulement les prédictions mais aussi le raisonnement derrière les prédictions, des choses comme la structure demi-Heusler, qui est une structure cristalline très chaude pour les thermoélectriques de nos jours."

    Il a ajouté :« Cette étude montre que si cet algorithme était en place plus tôt, certains matériaux pourraient avoir été découverts des années à l'avance. » Parallèlement à l'étude, les chercheurs publient les 50 meilleurs matériaux thermoélectriques prédits par l'algorithme. rechercher, dire, un meilleur matériau isolant topologique.

    Suivant, Jain a déclaré que l'équipe travaille sur une solution plus intelligente, moteur de recherche plus puissant, permettant aux chercheurs de rechercher des résumés d'une manière plus utile.

    L'étude a été financée par le Toyota Research Institute. Les autres co-auteurs de l'étude sont les chercheurs du Berkeley Lab, John Dagdelen, Leigh Weston, Alexandre Dunn, et Ziqin Rong, et Olga Koonova, chercheuse à l'UC Berkeley.


    © Science https://fr.scienceaq.com