AI Aristo passe un test scientifique, émerge une superstar à choix multiples

Crédit :aristo

Aristo a réussi un test de sciences américain en huitième année. Si on vous dit qu'Aristo est un gamin sérieux qui aime lire tout ce qu'il peut sur Faraday et joue de la batterie, vous direz alors quoi, grosse affaire.

Aristo, bien que, est un programme d'intelligence artificielle et les scientifiques aimeraient que le monde sache que c'est un gros problème, comme "une référence dans le développement de l'IA, " comme Melissa Locker l'appelait dans Entreprise rapide .

Nous voulons dire, il suffit d'y penser. Cade Metz, dans Le New York Times , y a pensé. "Il y a quatre ans, plus de 700 informaticiens ont participé à un concours pour créer une intelligence artificielle qui pourrait réussir un test de science de huitième année. Il y avait 80 $, 000 en prix en argent sur la ligne. Ils ont tous échoué. Même le système le plus sophistiqué ne pouvait pas faire mieux que 60% au test. L'IA ne pouvait pas correspondre aux compétences linguistiques et logiques que les élèves sont censés avoir lorsqu'ils entrent au lycée. »

Alors qui se cache derrière le test qui en 2019 a finalement impressionné ? Ce n'est pas une mauvaise idée :l'Institut Allen pour l'intelligence artificielle, qui est supervisé par Oren Etzioni. Leur système avait les bonnes réponses pour plus de 90 % des questions du test, et cela ne s'arrête pas là :le système a obtenu plus de 80 % des réponses correctes aux questions à choix multiples sans diagramme lors d'un examen de sciences de 12e année.

Nous examinons maintenant "des progrès significatifs dans le développement d'une IA capable de comprendre les langues et d'imiter la logique et la prise de décision des humains, " dit Metz.

Pour l'histoire directe, vous devriez lire "From 'F' to 'A' on the N.Y. Regents Science Exams:An Overview of the Aristo Project, " qui est maintenant sur arXiv. Ce projet était une mission de six ans pour répondre aux examens scientifiques des écoles primaires et secondaires.

Les auteurs étaient bien conscients que l'IA n'avait pas fait un spectacle impressionnant dans le passé en réalisant les niveaux souhaités. Avec toute la maîtrise de l'IA à Go, Poker et danger, ils ont dit, « La riche variété des examens standardisés est restée un défi historique. Même en 2016, le meilleur système d'IA n'a atteint que 59,3 % lors d'un défi d'examen de sciences de 8e année."

L'IA a passé des tests à choix multiples; le nombre de 90 pour cent était sur le non-diagramme de l'examen, Questions à choix multiple.

Voici comment l'IA2 décrit son génie non humain :"Aristo rassemble la lecture automatique et la PNL, implication textuelle et inférence, raisonner avec incertitude, techniques statistiques sur de grands corpus, et la compréhension des diagrammes pour développer la première « machine bien informée » sur la science. »

L'équipe a choyé Aristo pour une arrière-pensée, moins à se donner des tapes dans le dos et plus sur ce qu'ils pourraient apprendre des comportements d'Aristo aux examens de sciences, "Comme ces questions testent bon nombre des compétences clés requises pour l'intelligence artificielle, " ils ont dit.

Dans leur papier, ils ont expliqué plus en détail les bonnes raisons de tirer parti des examens scientifiques standardisés.

"Tests standardisés, en particulier les examens scientifiques, sont un rare exemple de défi répondant à ces exigences. Bien qu'il ne s'agisse pas d'un test complet de l'intelligence artificielle, ils explorent plusieurs capacités fortement associées à l'intelligence, y compris la compréhension de la langue, raisonnement, et l'utilisation des connaissances de bon sens. L'un des aspects les plus intéressants et les plus attrayants des examens scientifiques est leur nature graduée et multiforme; différentes questions explorent différents types de connaissances, variant considérablement en difficulté. Pour cette raison, ils ont été utilisés comme une tâche convaincante et stimulante sur le terrain pendant de nombreuses années. »

Nouveaux droits de vantardise :Aristo, les auteurs ont dit, est le premier système à obtenir un score de plus de 90 % sur le non-diagramme, partie à choix multiples de l'examen scientifique de 8e année des Regents de New York.

Stephen Johnson dans Grande réflexion a écrit sur l'incapacité d'Aristo à faire des diagrammes. Il a dit "le système est conçu uniquement pour interpréter la langue, ce qui signifie qu'il peut répondre à des questions à choix multiples, mais pas ceux comportant une illustration ou un graphique."

Néanmoins, la performance a montré que "les méthodes modernes de PNL peuvent conduire à la maîtrise de cette tâche".

Pour l'institut, L'exploit d'Aristo n'est pas considéré comme un perchoir sur la montagne mais plutôt comme un pas dans la direction souhaitée. Ils appellent cela une étape importante "sur le long chemin vers une machine qui a une compréhension approfondie de la science et réalise le rêve original de Paul Allen d'un Aristote numérique".

Les plus belles performances de la nature pourraient inspirer la prochaine génération d'intelligence artificielle

Le défi Deepfake vise à trouver des outils pour lutter contre la manipulation

Électronique