• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Entraîner les ordinateurs à reconnaître les événements dynamiques

    Aude Oliva (à droite), chercheur principal au Laboratoire d'informatique et d'intelligence artificielle et Dan Gutfreund (à gauche), chercheur principal au MIT-IBM Watson AI Laboratory et membre du personnel d'IBM Research, sont les principaux chercheurs de l'ensemble de données Moments in Time, l'un des projets liés aux algorithmes d'IA financés par le MIT-IBM Watson AI Laboratory. Crédit :John Mottern/Feature Photo Service pour IBM

    Une personne qui regarde des vidéos qui montrent des choses qui s'ouvrent :une porte, un livre, rideaux, une fleur épanouie, un chien qui bâille - comprend facilement que le même type d'action est représenté dans chaque clip.

    « Les modèles informatiques échouent lamentablement à identifier ces choses. Comment les humains le font-ils si facilement ? » demande Dan Gutfreund, chercheur principal au MIT-IBM Watson AI Laboratory et membre du personnel d'IBM Research. « Nous traitons l'information telle qu'elle se produit dans l'espace et dans le temps. Comment pouvons-nous apprendre aux modèles informatiques à le faire ? »

    Telles sont les grandes questions derrière l'un des nouveaux projets en cours au MIT-IBM Watson AI Laboratory, une collaboration pour la recherche sur les frontières de l'intelligence artificielle. Lancé l'automne dernier, le laboratoire connecte les chercheurs du MIT et d'IBM pour travailler sur des algorithmes d'IA, l'application de l'IA aux industries, la physique de l'IA, et les moyens d'utiliser l'IA pour faire progresser la prospérité partagée.

    L'ensemble de données Moments in Time est l'un des projets liés aux algorithmes d'IA financés par le laboratoire. Il associe Gutfreund à Aude Oliva, chercheur principal au Laboratoire d'informatique et d'intelligence artificielle du MIT, en tant que chercheurs principaux du projet. Moments in Time repose sur une collection d'un million de vidéos annotées d'événements dynamiques se déroulant en trois secondes. Gutfreund et Oliva, qui est également le directeur exécutif du MIT au MIT-IBM Watson AI Lab, utilisent ces clips pour aborder l'une des prochaines grandes étapes de l'IA :apprendre aux machines à reconnaître les actions.

    Apprendre des scènes dynamiques

    L'objectif est de fournir des algorithmes d'apprentissage profond avec une large couverture d'un écosystème de moments visuels et auditifs qui peuvent permettre aux modèles d'apprendre des informations qui ne sont pas nécessairement enseignées de manière supervisée et de généraliser à de nouvelles situations et tâches, disent les chercheurs.

    "En grandissant, nous regardons autour de nous, nous voyons des personnes et des objets se déplacer, nous entendons les sons émis par les personnes et les objets. Nous avons beaucoup d'expériences visuelles et auditives. Un système d'IA doit apprendre de la même manière et se nourrir de vidéos et d'informations dynamiques, " dit Oliva.

    Pour chaque catégorie d'action dans l'ensemble de données, comme la cuisine, fonctionnement, ou ouverture, il y en a plus de 2, 000 vidéos. Les courts clips permettent aux modèles informatiques de mieux comprendre la diversité de sens autour d'actions et d'événements spécifiques.

    "Cet ensemble de données peut constituer un nouveau défi pour développer des modèles d'IA qui s'adaptent au niveau de complexité et de raisonnement abstrait qu'un humain traite quotidiennement, " Oliva ajoute, décrivant les facteurs impliqués. Les événements peuvent inclure des personnes, objets, animaux, et naturel. Ils peuvent être symétriques dans le temps, par exemple, l'ouverture signifie la fermeture dans l'ordre inverse. Et ils peuvent être transitoires ou soutenus.

    Oliva et Gutfreund, avec des chercheurs supplémentaires du MIT et d'IBM, se sont réunis chaque semaine pendant plus d'un an pour traiter des problèmes techniques, comme comment choisir les catégories d'action pour les annotations, où trouver les vidéos, et comment mettre en place un large éventail pour que le système d'IA apprenne sans parti pris. L'équipe a également développé des modèles d'apprentissage automatique, qui ont ensuite été utilisés pour dimensionner la collecte de données. "Nous nous sommes très bien alignés car nous avons le même enthousiasme et le même objectif, " dit Oliva.

    Augmenter l'intelligence humaine

    L'un des objectifs clés du laboratoire est le développement de systèmes d'IA qui vont au-delà des tâches spécialisées pour s'attaquer à des problèmes plus complexes et bénéficier d'un apprentissage solide et continu. « Nous recherchons de nouveaux algorithmes qui non seulement exploitent les mégadonnées lorsqu'elles sont disponibles, mais aussi apprendre à partir de données limitées pour augmenter l'intelligence humaine, " dit Sophie V. Vandebroek, directeur des opérations d'IBM Research, sur la collaboration.

    En plus de jumeler les forces techniques et scientifiques uniques de chaque organisation, IBM apporte également aux chercheurs du MIT un afflux de ressources, signalé par son investissement de 240 millions de dollars dans les efforts d'IA au cours des 10 prochaines années, dédié au MIT-IBM Watson AI Lab. Et l'alignement de l'intérêt du MIT-IBM pour l'IA s'avère bénéfique, selon Oliva.

    "IBM est venu au MIT avec l'intérêt de développer de nouvelles idées pour un système d'intelligence artificielle basé sur la vision. J'ai proposé un projet dans lequel nous construisons des ensembles de données pour alimenter le modèle sur le monde. Cela n'avait jamais été fait auparavant à ce niveau. C'était une nouvelle entreprise. Nous avons maintenant atteint le cap du million de vidéos pour la formation à l'IA visuelle, et les gens peuvent aller sur notre site Web, télécharger le jeu de données et nos modèles informatiques de deep learning, qui ont appris à reconnaître les actions."

    Jusqu'à présent, les résultats qualitatifs ont montré que les modèles peuvent bien reconnaître les moments où l'action est bien cadrée et rapprochée, mais ils ont des ratés lorsque la catégorie est fine ou qu'il y a du fouillis de fond, entre autres. Oliva dit que les chercheurs du MIT et d'IBM ont soumis un article décrivant les performances des modèles de réseaux neuronaux formés sur l'ensemble de données, elle-même approfondie par des points de vue partagés. "Les chercheurs d'IBM nous ont donné des idées pour ajouter des catégories d'action pour avoir plus de richesse dans des domaines comme les soins de santé et le sport. Ils ont élargi notre vision. Ils nous ont donné des idées sur la façon dont l'IA peut avoir un impact du point de vue des affaires et des besoins du monde, " elle dit.

    Cette première version de l'ensemble de données Moments in Time est l'un des plus grands ensembles de données vidéo annotées par l'homme capturant de courts événements visuels et audibles, qui sont tous étiquetés avec une étiquette d'action ou d'activité parmi 339 classes différentes qui incluent un large éventail de verbes courants. Les chercheurs ont l'intention de produire plus d'ensembles de données avec une variété de niveaux d'abstraction pour servir de tremplin vers le développement d'algorithmes d'apprentissage qui peuvent établir des analogies entre les choses, imaginer et synthétiser de nouveaux événements, et interpréter des scénarios.

    En d'autres termes, ils ne font que commencer, dit Gutfreund. « Nous nous attendons à ce que l'ensemble de données Moments in Time permette aux modèles de comprendre en détail les actions et la dynamique des vidéos. »

    Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.




    © Science https://fr.scienceaq.com