Le développement d’une nouvelle théorie est généralement associé aux grands de la physique. Vous pourriez penser à Isaac Newton ou à Albert Einstein, par exemple. De nombreux prix Nobel ont déjà été décernés pour de nouvelles théories.
Des chercheurs du Forschungszentrum Jülich ont programmé une intelligence artificielle qui a également réussi cet exploit. Leur IA est capable de reconnaître des modèles dans des ensembles de données complexes et de les formuler dans une théorie physique. Les résultats sont publiés dans la revue Physical Review X .
Dans l'interview suivante, le professeur Moritz Helias de l'Institut de simulation avancée (IAS-6) du Forschungszentrum Jülich explique en quoi consiste la « physique de l'IA » et dans quelle mesure elle diffère des approches conventionnelles.
On commence généralement par des observations du système avant de tenter de proposer comment les différents composants du système interagissent les uns avec les autres afin d'expliquer le comportement observé. De nouvelles prédictions en sont ensuite dérivées et mises à l'épreuve.
Un exemple bien connu est la loi de la gravitation d’Isaac Newton. Il décrit non seulement la force gravitationnelle sur Terre, mais il peut également être utilisé pour prédire avec assez de précision les mouvements des planètes, des lunes et des comètes, ainsi que les orbites des satellites modernes.
Cependant, la manière dont ces hypothèses sont formulées diffère toujours. Vous pouvez commencer par des principes généraux et des équations de base de la physique et en déduire des hypothèses, ou vous pouvez choisir une approche phénoménologique, en vous limitant à décrire les observations aussi précisément que possible sans en expliquer les causes. La difficulté réside dans la sélection d'une bonne approche parmi les nombreuses approches possibles, en l'adaptant si nécessaire et en la simplifiant.
En général, il s'agit d'une approche connue sous le nom de « physique pour l'apprentissage automatique ». Dans notre groupe de travail, nous utilisons des méthodes physiques pour analyser et comprendre le fonctionnement complexe d'une IA.
La nouvelle idée cruciale développée par Claudia Merger de notre groupe de recherche était d'utiliser d'abord un réseau neuronal qui apprend à cartographier avec précision le comportement complexe observé dans un système plus simple. En d’autres termes, l’IA vise à simplifier toutes les interactions complexes que l’on observe entre les composants du système. Nous utilisons ensuite le système simplifié et créons une cartographie inverse avec l'IA entraînée. En revenant du système simplifié au système complexe, nous développons ensuite la nouvelle théorie.
Au retour, les interactions complexes se construisent morceau par morceau à partir des interactions simplifiées. Au final, l’approche n’est donc pas si différente de celle d’un physicien, à la différence que la manière dont s’assemblent les interactions se lit désormais à partir des paramètres de l’IA. Cette perspective sur le monde – l'expliquant à partir des interactions entre ses différentes parties qui suivent certaines lois – est la base de la physique, d'où le terme « physique de l'IA ».
Nous avons utilisé par exemple un ensemble de données d'images en noir et blanc avec des numéros manuscrits, qui sont souvent utilisés dans la recherche lorsque l'on travaille avec des réseaux de neurones. Dans le cadre de sa thèse de doctorat, Claudia Merger a étudié comment les petites sous-structures des images, comme les bords des nombres, sont constituées d'interactions entre pixels. On trouve des groupes de pixels qui ont tendance à être plus clairs ensemble et contribuent ainsi à la forme du bord du nombre.
L’utilisation de l’IA est une astuce qui rend les calculs possibles en premier lieu. Vous accédez très rapidement à un très grand nombre d’interactions possibles. Sans utiliser cette astuce, vous ne pourriez examiner que de très petits systèmes. Néanmoins, l'effort de calcul impliqué reste élevé, ce qui est dû au fait qu'il existe de nombreuses interactions possibles, même dans les systèmes comportant de nombreux composants.
Cependant, nous pouvons paramétrer efficacement ces interactions, de sorte que nous pouvons désormais visualiser des systèmes comportant environ 1 000 composants en interaction, c'est-à-dire des zones d'image comportant jusqu'à 1 000 pixels. À l'avenir, des systèmes beaucoup plus grands devraient également être possibles grâce à une optimisation plus poussée.
De nombreuses IA visent à apprendre une théorie des données utilisées pour entraîner l’IA. Cependant, les théories apprises par les IA ne peuvent généralement pas être interprétées. Au lieu de cela, ils sont implicitement cachés dans les paramètres de l’IA entraînée. En revanche, notre approche extrait la théorie apprise et la formule dans le langage des interactions entre les composants du système, qui sous-tend la physique.
Elle appartient donc au domaine de l’IA explicable, plus précisément à la « physique de l’IA », puisque nous utilisons le langage de la physique pour expliquer ce que l’IA a appris. Nous pouvons utiliser le langage des interactions pour établir un pont entre le fonctionnement interne complexe de l'IA et les théories que les humains peuvent comprendre.
Plus d'informations : Claudia Merger et al, Apprendre les théories interactives à partir des données, Physical Review X (2023). DOI : 10.1103/PhysRevX.13.041033
Fourni par le Forschungszentrum Juelich