Une nouvelle technique d'entraînement des modèles de reconnaissance vidéo est jusqu'à trois fois plus rapide que les méthodes de pointe actuelles tout en améliorant les performances d'exécution sur les appareils mobiles. Le travail a été récemment souligné par Dario Gil (ci-dessus), directeur d'IBM Research, à la semaine de recherche en IA du MIT-IBM Watson AI Lab à Cambridge, Massachusetts. Photo :Chanson Han
Une branche de l'apprentissage automatique appelée apprentissage en profondeur a aidé les ordinateurs à surpasser les humains dans des tâches visuelles bien définies comme la lecture d'analyses médicales, mais à mesure que la technologie s'étend à l'interprétation de vidéos et d'événements du monde réel, les modèles sont de plus en plus grands et de plus en plus intensifs en calcul.
D'une estimation, L'apprentissage d'un modèle de reconnaissance vidéo peut nécessiter jusqu'à 50 fois plus de données et huit fois plus de puissance de traitement que l'apprentissage d'un modèle de classification d'images. C'est un problème car la demande de puissance de traitement pour former des modèles d'apprentissage en profondeur continue d'augmenter de façon exponentielle et les inquiétudes concernant l'empreinte carbone massive de l'IA augmentent. Exécution de grands modèles de reconnaissance vidéo sur des appareils mobiles à faible consommation, où se dirigent de nombreuses applications d'IA, reste également un défi.
Chanson Han, professeur adjoint au Département de génie électrique et informatique (EECS) du MIT, s'attaque au problème en concevant des modèles d'apprentissage en profondeur plus efficaces. Dans un article à la Conférence internationale sur la vision par ordinateur, Han, Ji Lin, étudiant diplômé du MIT et Chuang Gan, chercheur au MIT-IBM Watson AI Lab, décrire une méthode pour réduire les modèles de reconnaissance vidéo afin d'accélérer la formation et d'améliorer les performances d'exécution sur les smartphones et autres appareils mobiles. Leur méthode permet de réduire le modèle à un sixième de la taille en réduisant les 150 millions de paramètres d'un modèle de pointe à 25 millions de paramètres.
"Notre objectif est de rendre l'IA accessible à toute personne disposant d'un appareil basse consommation, " dit Han. " Pour ce faire, nous devons concevoir des modèles d'IA efficaces qui consomment moins d'énergie et peuvent fonctionner sans problème sur les appareils périphériques, où une grande partie de l'IA se déplace."
La baisse du coût des caméras et des logiciels de montage vidéo et l'essor des nouvelles plateformes de streaming vidéo ont inondé Internet de nouveaux contenus. Chaque heure, 30, 000 heures de nouvelle vidéo sont téléchargées sur YouTube uniquement. Des outils pour cataloguer ce contenu plus efficacement aideraient les téléspectateurs et les annonceurs à localiser les vidéos plus rapidement, disent les chercheurs. De tels outils aideraient également des institutions comme les hôpitaux et les maisons de retraite à exécuter des applications d'IA localement, plutôt que dans le cloud, pour garder les données sensibles privées et sécurisées.
Les modèles d'image et de reconnaissance vidéo sous-jacents sont les réseaux de neurones, qui sont vaguement modelés sur la façon dont le cerveau traite l'information. Qu'il s'agisse d'une photo numérique ou d'une séquence d'images vidéo, les réseaux neuronaux recherchent des motifs dans les pixels et construisent une représentation de plus en plus abstraite de ce qu'ils voient. Avec suffisamment d'exemples, les réseaux neuronaux « apprennent » à reconnaître les gens, objets, et comment ils se rapportent.
Les meilleurs modèles de reconnaissance vidéo utilisent actuellement des convolutions tridimensionnelles pour coder le passage du temps dans une séquence d'images, qui crée plus gros, modèles à plus forte intensité de calcul. Pour réduire les calculs nécessaires, Han et ses collègues ont conçu une opération qu'ils appellent un module de décalage temporel qui déplace les cartes de caractéristiques d'une image vidéo sélectionnée vers ses images voisines. En mêlant les représentations spatiales du passé, présent, et futur, le modèle a l'impression que le temps passe sans le représenter explicitement.
Le résultat :un modèle qui a surpassé ses pairs en matière de reconnaissance des actions dans l'ensemble de données vidéo Something-Something, gagner la première place dans la version 1 et la version 2, dans les classements publics récents. Une version en ligne du module de décalage est également suffisamment agile pour lire les mouvements en temps réel. Dans une démo récente, Lin, un doctorat étudiant à l'EECS, a montré comment un ordinateur monocarte connecté à une caméra vidéo pouvait instantanément classer les gestes de la main en fonction de la quantité d'énergie nécessaire pour alimenter un éclairage de vélo.
Normalement, il faudrait environ deux jours pour former un modèle aussi puissant sur une machine avec un seul processeur graphique. Mais les chercheurs ont réussi à emprunter du temps sur le superordinateur Summit du département américain de l'Énergie, actuellement classé le plus rapide sur Terre. Avec la puissance de feu supplémentaire de Summit, les chercheurs ont montré qu'avec 1, 536 processeurs graphiques, le modèle a pu être entraîné en seulement 14 minutes, proche de sa limite théorique. C'est jusqu'à trois fois plus rapide que les modèles 3D de pointe, ils disent.
Dario Gil, directeur d'IBM Research, a souligné le travail dans ses récentes remarques d'ouverture lors de la Semaine de la recherche sur l'IA organisée par le MIT-IBM Watson AI Lab.
« Les exigences de calcul pour les grands travaux de formation à l'IA doublent tous les 3,5 mois, ", a-t-il déclaré plus tard. "Notre capacité à continuer à repousser les limites de la technologie dépendra de stratégies comme celle-ci qui associent des algorithmes hyper-efficaces à des machines puissantes."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.