L’intelligence artificielle est en train de devenir un outil essentiel dans la recherche chimique, offrant de nouvelles méthodes pour relever les défis complexes avec lesquels les approches traditionnelles sont confrontées. Un sous-type d'intelligence artificielle qui est de plus en plus utilisé en chimie est l'apprentissage automatique, qui utilise des algorithmes et des modèles statistiques pour prendre des décisions basées sur des données et effectuer des tâches pour lesquelles il n'a pas été explicitement programmé.
Cependant, pour faire des prédictions fiables, l’apprentissage automatique nécessite également de grandes quantités de données, qui ne sont pas toujours disponibles dans la recherche chimique. Les petits ensembles de données chimiques ne fournissent tout simplement pas suffisamment d'informations sur lesquelles ces algorithmes peuvent s'entraîner, ce qui limite leur efficacité.
Les scientifiques de l'équipe de Berend Smit à l'EPFL ont trouvé une solution dans de grands modèles de langage tels que GPT-3. Ces modèles sont pré-entraînés sur d’énormes quantités de textes et sont connus pour leurs vastes capacités de compréhension et de génération de textes de type humain. GPT-3 constitue la base de ChatGPT, une intelligence artificielle plus populaire.
L'étude, publiée dans Nature Machine Intelligence , dévoile une nouvelle approche qui simplifie considérablement l'analyse chimique grâce à l'intelligence artificielle. Contrairement au scepticisme initial, la méthode ne pose pas directement de questions chimiques sur le GPT-3.
"GPT-3 n'a pas vu la majeure partie de la littérature chimique, donc si nous posons à ChatGPT une question chimique, les réponses sont généralement limitées à ce que l'on peut trouver sur Wikipédia", explique Kevin Jablonka, chercheur principal de l'étude.
"Au lieu de cela, nous affinons GPT-3 avec un petit ensemble de données converti en questions et réponses, créant ainsi un nouveau modèle capable de fournir des informations chimiques précises."
Ce processus consiste à fournir à GPT-3 une liste organisée de questions et réponses. "Par exemple, pour les alliages à haute entropie, il est important de savoir si un alliage se présente en une seule phase ou s'il comporte plusieurs phases", explique Smit. « La liste organisée de questions et réponses est du type :Q =« Le (nom de l'alliage à haute entropie) est-il monophasé ? » A='Oui/Non.'"
Il poursuit :« Dans la littérature, nous avons trouvé de nombreux alliages dont la réponse est connue, et nous avons utilisé ces données pour affiner le GPT-3. Ce que nous obtenons est un modèle d'IA raffiné qui est formé uniquement pour répondre à cette question. avec un oui ou un non."
Lors des tests, le modèle, formé avec relativement peu de questions-réponses, a répondu correctement à plus de 95 % de problèmes chimiques très divers, dépassant souvent la précision des modèles d'apprentissage automatique de pointe. "Le fait est que c'est aussi simple que de faire une recherche documentaire, ce qui fonctionne pour de nombreux problèmes chimiques", explique Smit.
L’un des aspects les plus frappants de cette étude est sa simplicité et sa rapidité. Les modèles d’apprentissage automatique traditionnels nécessitent des mois pour se développer et exigent des connaissances approfondies. En revanche, l'approche développée par Jablonka prend cinq minutes et ne nécessite aucune connaissance.
Les implications de l’étude sont profondes. Il présente une méthode aussi simple qu’une recherche documentaire, applicable à divers problèmes chimiques. La capacité de formuler des questions telles que « Le rendement d'un [produit chimique] fabriqué avec cette (recette) est-il élevé ? » et recevoir des réponses précises peut révolutionner la manière dont la recherche chimique est planifiée et réalisée.
Dans l'article, les auteurs déclarent :« À côté d'une recherche documentaire, l'interrogation d'un modèle fondateur (par exemple, GPT-3,4) pourrait devenir un moyen courant de démarrer un projet en exploitant les connaissances collectives codées dans ces modèles fondateurs. » Ou, comme le dit succinctement Smit, "Cela va changer notre façon de faire de la chimie."
Plus d'informations : Kevin Maik Jablonka, GPT est-il tout ce dont vous avez besoin pour la découverte de faibles données en chimie ?, Nature Machine Intelligence (2024). DOI :10.1038/s42256-023-00788-1
Informations sur le journal : Intelligence machine naturelle
Fourni par l'Ecole Polytechnique Fédérale de Lausanne