Un modèle inventé par le MIT démontre une compréhension de certaines « physiques intuitives » de base en enregistrant la « surprise » lorsque les objets dans les simulations se déplacent de manière inattendue, comme rouler derrière un mur et ne pas réapparaître de l'autre côté. Crédit :Christine Daniloff, MIT
Les humains ont une compréhension précoce des lois de la réalité physique. Nourrissons, par exemple, avoir des attentes sur la façon dont les objets doivent se déplacer et interagir les uns avec les autres, et montrera de la surprise quand ils feront quelque chose d'inattendu, comme disparaître dans un tour de passe-passe magique.
Maintenant, les chercheurs du MIT ont conçu un modèle qui démontre une compréhension de certaines «physiques intuitives» de base sur la façon dont les objets devraient se comporter. Le modèle pourrait être utilisé pour aider à construire une intelligence artificielle plus intelligente et, à son tour, fournir des informations pour aider les scientifiques à comprendre la cognition infantile.
Le modèle, appelé ADEPT, observe les objets se déplaçant autour d'une scène et fait des prédictions sur la façon dont les objets devraient se comporter, sur la base de leur physique sous-jacente. Lors du suivi des objets, le modèle émet un signal à chaque image vidéo qui correspond à un niveau de "surprise" - plus le signal est gros, plus la surprise est grande. Si un objet ne correspond pas du tout aux prédictions du modèle — par, dire, disparaître ou se téléporter à travers une scène - ses niveaux de surprise augmenteront.
En réponse à des vidéos montrant des objets se déplaçant de manière physiquement plausible et invraisemblable, le modèle a enregistré des niveaux de surprise correspondant aux niveaux rapportés par les humains qui avaient regardé les mêmes vidéos.
"Au moment où les nourrissons ont 3 mois, ils ont une certaine idée que les objets ne clignotent pas dans et hors de l'existence, et ne peuvent pas se déplacer ou se téléporter, " dit le premier auteur Kevin A. Smith, chercheur au Département des sciences du cerveau et des sciences cognitives (BCS) et membre du Center for Brains, Esprits, et machines (CBMM). "Nous voulions capturer et formaliser ces connaissances pour intégrer la cognition infantile dans des agents d'intelligence artificielle. Nous nous rapprochons maintenant de l'humain dans la façon dont les modèles peuvent distinguer des scènes de base invraisemblables ou plausibles."
Les co-premiers auteurs Lingjie Mei, un premier cycle au Département de génie électrique et informatique, et le chercheur scientifique de BCS Shunyu Yao; Jiajun Wu Ph.D. '19 ; l'enquêteur du CBMM Elizabeth Spelke; Josué B. Tenenbaum, professeur de sciences cognitives computationnelles, et chercheur en CBMM, BCS, et le Laboratoire d'informatique et d'intelligence artificielle (CSAIL); et l'enquêteur du CBMM Tomer D. Ullman Ph.D. '15.
Des réalités dépareillées
ADEPT s'appuie sur deux modules :un module "graphique inversé" qui capture des représentations d'objets à partir d'images brutes, et un "moteur physique" qui prédit les représentations futures des objets à partir d'une distribution de possibilités.
Les graphiques inverses extraient essentiellement des informations sur des objets, tels que la forme, pose, et la vitesse—à partir des entrées de pixels. Ce module capture des images vidéo sous forme d'images et utilise des graphiques inversés pour extraire ces informations des objets de la scène. Mais il ne s'enlise pas dans les détails. ADEPT ne nécessite qu'une certaine géométrie approximative de chaque forme pour fonctionner. En partie, cela aide le modèle à généraliser les prédictions à de nouveaux objets, pas seulement ceux sur lesquels il est formé.
"Peu importe qu'un objet soit un rectangle ou un cercle, ou si c'est un camion ou un canard. ADEPT voit juste qu'il y a un objet avec une certaine position, se déplacer d'une certaine manière, faire des pronostics, " Smith dit. " De même, Les jeunes nourrissons ne semblent pas non plus se soucier beaucoup de certaines propriétés comme la forme lorsqu'ils font des prédictions physiques."
Ces descriptions grossières d'objets sont introduites dans un moteur physique - un logiciel qui simule le comportement des systèmes physiques, tels que les corps rigides ou fluidiques, et est couramment utilisé pour les films, jeux vidéo, et infographie. Le moteur physique des chercheurs « pousse les objets dans le temps, " dit Ullman. Cela crée une gamme de prédictions, ou une « distribution de croyances, " pour ce qui arrivera à ces objets dans la prochaine image.
Prochain, le modèle observe l'image suivante réelle. Encore une fois, il capture les représentations d'objets, qu'il s'aligne ensuite sur l'une des représentations d'objets prédites à partir de sa distribution de croyances. Si l'objet obéissait aux lois de la physique, il n'y aura pas beaucoup de décalage entre les deux représentations. D'autre part, si l'objet a fait quelque chose d'invraisemblable - disons, il a disparu de derrière un mur - il y aura un décalage majeur.
ADEPT rééchantillonne ensuite à partir de sa distribution de croyances et note une très faible probabilité que l'objet ait simplement disparu. S'il y a une probabilité suffisamment faible, le modèle enregistre une grande "surprise" comme un pic de signal. Essentiellement, la surprise est inversement proportionnelle à la probabilité qu'un événement se produise. Si la probabilité est très faible, le pic de signal est très élevé.
"Si un objet passe derrière un mur, votre moteur physique maintient la conviction que l'objet est toujours derrière le mur. Si le mur tombe, et il n'y a rien, il y a un décalage, " dit Ullman. " Alors, le modèle dit, 'Il y a un objet dans ma prédiction, mais je ne vois rien. La seule explication est qu'il a disparu, donc c'est surprenant.'"
Violation des attentes
En psychologie du développement, les chercheurs exécutent des tests de « violation des attentes » dans lesquels on montre aux nourrissons des paires de vidéos. Une vidéo montre un événement plausible, avec des objets adhérant à leurs notions attendues de la façon dont le monde fonctionne. L'autre vidéo est la même en tout point, sauf que les objets se comportent d'une manière qui viole les attentes d'une manière ou d'une autre. Les chercheurs utiliseront souvent ces tests pour mesurer combien de temps le nourrisson regarde une scène après qu'une action invraisemblable s'est produite. Plus ils regardent, les chercheurs émettent l'hypothèse, plus ils peuvent être surpris ou intéressés par ce qui vient de se passer.
Pour leurs expériences, les chercheurs ont créé plusieurs scénarios basés sur la recherche développementale classique pour examiner la connaissance de l'objet de base du modèle. Ils ont employé 60 adultes pour regarder 64 vidéos de scénarios connus physiquement plausibles et physiquement invraisemblables. Objets, par exemple, se déplacera derrière un mur et, quand le mur tombe, ils seront toujours là ou ils seront partis. Les participants ont noté leur surprise à différents moments sur une échelle croissante de 0 à 100. Ensuite, les chercheurs ont montré les mêmes vidéos au modèle. Spécifiquement, les scénarios ont examiné la capacité du modèle à capter des notions de permanence (les objets n'apparaissent pas ou ne disparaissent pas sans raison), continuité (les objets se déplacent le long de trajectoires connectées), et la solidité (les objets ne peuvent pas se déplacer entre eux).
ADEPT correspondait particulièrement bien aux humains sur des vidéos où des objets se déplaçaient derrière des murs et disparaissaient lorsque le mur était retiré. De façon intéressante, le modèle correspondait également à des niveaux de surprise sur des vidéos qui n'ont pas surpris les humains mais auraient peut-être dû l'être. Par exemple, dans une vidéo où un objet se déplaçant à une certaine vitesse disparaît derrière un mur et ressort immédiatement de l'autre côté, l'objet a pu accélérer considérablement lorsqu'il est passé derrière le mur ou il a pu se téléporter de l'autre côté. En général, les humains et ADEPT étaient tous les deux moins certains de savoir si cet événement était ou non surprenant. Les chercheurs ont également découvert que les réseaux de neurones traditionnels qui apprennent la physique à partir d'observations, mais ne représentent pas explicitement des objets, sont beaucoup moins précis pour différencier les scènes surprenantes des scènes non surprenantes, et leurs choix de scènes surprenantes ne correspondent pas souvent aux humains.
Prochain, les chercheurs prévoient d'approfondir la façon dont les nourrissons observent et apprennent le monde, dans le but d'intégrer toute nouvelle découverte dans leur modèle. Études, par exemple, montrent que les nourrissons jusqu'à un certain âge ne sont en fait pas très surpris lorsque les objets changent complètement d'une certaine manière, par exemple si un camion disparaît derrière un mur, mais réapparaît comme un canard.
« Nous voulons voir ce qui doit être intégré pour comprendre le monde davantage comme des nourrissons, et formaliser ce que nous savons de la psychologie pour construire de meilleurs agents d'IA, " dit Smith.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.