• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • De nouvelles mathématiques pourraient amener l'apprentissage automatique au niveau supérieur

    La nouvelle approche permet à l'intelligence artificielle d'apprendre à reconnaître les images transformées beaucoup plus rapidement. Crédit :Diogo Matias

    Une équipe de mathématiciens italiens, dont un neuroscientifique du Centre Champalimaud pour l'inconnu (CCU), à Lisbonne, Le Portugal, a montré que les machines de vision artificielle peuvent apprendre à reconnaître plus rapidement des images complexes en utilisant une théorie mathématique développée il y a 25 ans par l'un des co-auteurs de cette nouvelle étude. Leurs résultats ont été publiés dans la revue Nature Machine Intelligence .

    Au cours des dernières décennies, les performances de la vision industrielle se sont considérablement améliorées. Les systèmes artificiels peuvent désormais apprendre à reconnaître pratiquement n'importe quel visage humain ou à identifier tout poisson individuel se déplaçant dans un aquarium.

    De telles machines sont, En réalité, modèles électroniques de réseaux de neurones biologiques, et leur but est de simuler le fonctionnement du cerveau, qui excelle dans ces tâches visuelles sans aucun effort conscient de notre part.

    Mais comment ces réseaux de neurones artificiels apprennent-ils réellement ? Dans le cas de la reconnaissance faciale, par exemple, ils le font en acquérant une expérience sur ce à quoi ressemblent les visages humains sous la forme d'une série de portraits. Plus précisement, après avoir été numérisé en une matrice de valeurs de pixels, chaque image est « croquée » à l'intérieur du réseau de neurones, qui extrait alors général, caractéristiques significatives de l'ensemble des exemples de visages (tels que les yeux, bouche, nez, etc).

    Ce deep learning permet à la machine de cracher un autre ensemble de valeurs, ce qui lui permettra à son tour d'identifier un visage qu'il n'a jamais vu auparavant dans une banque de données de visages (un peu comme une base de données d'empreintes digitales), et donc prédire à qui appartient ce visage avec une grande précision.

    L'histoire de Clever Hans

    Mais avant que le réseau de neurones puisse bien fonctionner, il est généralement nécessaire de le présenter avec des milliers de faces (c'est-à-dire des matrices de nombres). De plus, bien que ces machines aient de plus en plus de succès dans la reconnaissance de formes, le fait est que personne ne sait vraiment ce qui se passe à l'intérieur d'eux pendant qu'ils apprennent des tâches. Ce sont essentiellement des boîtes noires.

    Cela signifie qu'il n'est pas possible de déterminer quelles caractéristiques ou combien de caractéristiques la machine extrait réellement des données initiales, et même pas combien de ces caractéristiques sont vraiment significatives pour la reconnaissance faciale.

    "Pour illustrer cela, considérer le paradigme du cheval sage, " dit le premier auteur de l'étude Mattia Bergomi, qui travaille dans le laboratoire de neurosciences des systèmes du CCU. L'histoire, dès les premières années du 20e siècle, concerne un cheval en Allemagne appelé Clever Hans que son maître prétendait avoir appris à faire de l'arithmétique et à annoncer le résultat des additions, soustractions, etc. en frappant un de ses sabots avant sur le sol le bon nombre de fois. Beaucoup de gens étaient convaincus qu'il savait compter; le cheval a même été signalé par le New York Times . Mais alors, en 1907, un psychologue allemand a montré que le cheval était, En réalité, capter des indices inconscients dans le langage corporel de son maître qui lui disaient quand arrêter de taper.

    « C'est la même chose avec l'apprentissage automatique ; il n'y a aucun contrôle sur son fonctionnement, ou ce qu'il a appris pendant la formation, " explique Bergomi. La machine, n'ayant aucune connaissance a priori des visages, fait en quelque sorte son truc et ça marche.

    Cela a conduit les chercheurs à se demander s'il pourrait y avoir un moyen d'injecter des connaissances du monde réel sur les visages ou d'autres objets dans le réseau de neurones avant l'entraînement afin de l'amener à explorer un espace plus limité de fonctionnalités possibles au lieu de les considérer toutes. y compris ceux qui sont impossibles dans le monde réel. "Nous voulions contrôler l'espace des fonctionnalités apprises, " dit Bergomi. " C'est similaire à la différence entre un joueur d'échecs médiocre et un expert :le premier voit tous les coups possibles, tandis que ce dernier ne voit que les bons, " il ajoute.

    Une autre façon de le dire, il dit, est de dire que "notre étude répond à la simple question suivante :lorsque nous entraînons un réseau de neurones profonds pour distinguer les panneaux de signalisation, comment pouvons-nous dire au réseau que son travail sera beaucoup plus facile s'il n'a à se soucier que de formes géométriques simples telles que des cercles et des triangles ? »

    Les scientifiques ont estimé que cette approche réduirait considérablement le temps de formation - et surtout, donnez-leur un indice sur ce que la machine pourrait faire pour obtenir ses résultats. « Permettre aux humains de piloter le processus d'apprentissage des machines d'apprentissage est fondamental pour évoluer vers une intelligence artificielle plus intelligible et réduire le coût fulgurant en temps et en ressources dont les réseaux de neurones actuels ont besoin pour être formés, " il dit.

    Qu'y a-t-il dans une forme ?

    Une théorie mathématique abstraite appelée analyse de données topologiques (TDA) était la clé. Les premiers pas dans le développement de TDA ont été faits en 1992 par le mathématicien italien Patrizio Frosini, co-auteur de la nouvelle étude, actuellement à l'Université de Bologne. "La topologie est l'une des formes les plus pures des mathématiques, " dit Bergomi. " Et jusqu'à récemment, les gens pensaient que la topologie ne s'appliquerait à rien de concret pendant longtemps, jusqu'à ce que TDA devienne célèbre ces dernières années."

    La topologie est une sorte de géométrie étendue qui, au lieu de mesurer des lignes et des angles dans des formes rigides (comme des triangles, carrés, cônes, etc.), cherche à classer des objets très complexes selon leur forme. Pour un topologue, par exemple, un donut et un mug sont le même objet :l'un peut se déformer en l'autre par étirement ou compression.

    Maintenant, la chose est, les réseaux de neurones actuels ne sont pas bons en topologie. Par exemple, ils ne reconnaissent pas les objets pivotés. Pour eux, le même objet sera complètement différent à chaque rotation. C'est précisément pourquoi la seule solution est de faire en sorte que ces réseaux « mémorisent » chaque configuration séparément, par milliers. Et c'est précisément ce que les auteurs prévoyaient d'éviter en utilisant TDA.

    Considérez la TDA comme un outil mathématique permettant de trouver une structure interne significative (caractéristiques topologiques), dans n'importe quel objet complexe qui peut être représenté comme un énorme ensemble de nombres. Ceci est accompli en regardant les données à travers certaines « lentilles bien choisies, " ou des filtres. Les données elles-mêmes peuvent concerner des visages, les transactions financières ou les taux de survie au cancer. La TDA permet d'apprendre à un réseau de neurones à reconnaître les visages sans avoir à lui présenter chacune des différentes orientations que les visages pourraient prendre dans l'espace. La machine reconnaîtra maintenant tous les visages comme étant un visage, même dans différentes positions de rotation.

    Dans leur étude, les scientifiques ont testé les avantages de la combinaison de l'apprentissage automatique et de la TDA en apprenant à un réseau de neurones à reconnaître les chiffres écrits à la main. Les résultats parlent d'eux-mêmes.

    Comme ces réseaux sont de mauvais topologues et que l'écriture manuscrite peut être très ambiguë, deux chiffres manuscrits différents peuvent s'avérer indiscernables pour les machines actuelles - et inversement, ils peuvent identifier deux instances du même chiffre écrit à la main comme différentes. La tâche consiste à présenter le réseau, qui ne connaît rien aux chiffres dans le monde réel, avec des milliers d'images de chacun des 10 chiffres écrits avec toutes sortes d'inclinaisons, calligraphies, etc.

    Injecter des connaissances sur les chiffres, l'équipe a construit un ensemble de fonctionnalités a priori qu'ils considéraient significatives, en d'autres termes, un ensemble de « lentilles » à travers lesquelles le réseau verrait les chiffres – et obligeait la machine à choisir parmi ces lentilles pour regarder les images. Le nombre d'images (c'est-à-dire le temps) nécessaire au réseau de neurones amélioré par TDA pour apprendre à distinguer les cinq des sept, pourtant mal écrit, tout en conservant son pouvoir prédictif, est tombé à moins de 50.

    "Ce que nous décrivons mathématiquement dans notre étude, c'est comment faire respecter certaines symétries, et cela fournit une stratégie pour créer des agents d'apprentissage automatique capables d'apprendre des caractéristiques saillantes à partir de quelques exemples en tirant parti des connaissances injectées sous forme de contraintes, " dit Bergomi.

    Cela signifie-t-il que le fonctionnement interne des machines d'apprentissage qui imitent le cerveau deviendra plus transparent à l'avenir, permettant de nouvelles connaissances sur le fonctionnement interne du cerveau lui-même ? Dans tous les cas, c'est l'un des objectifs de Bergomi. "L'intelligibilité de l'intelligence artificielle est nécessaire pour son interaction et son intégration avec l'intelligence biologique, " dit-il. Il travaille actuellement, en collaboration avec son collègue Pietro Vertechi, sur le développement d'un nouveau type d'architecture de réseau neuronal qui permettra aux humains d'injecter rapidement des connaissances de haut niveau dans ces réseaux pour contrôler et accélérer leur formation.


    © Science https://fr.scienceaq.com