Crédit :domaine public CC0
Des chercheurs de l'Université HSE et de l'Université polytechnique de Moscou ont découvert que les modèles d'IA sont incapables de représenter les caractéristiques de la vision humaine en raison d'un manque de couplage étroit avec la physiologie respective, de sorte qu'ils sont moins capables de reconnaître les images. Les résultats de l'étude ont été publiés dans les Actes du septième congrès international sur les technologies de l'information et de la communication .
Pour comprendre en quoi la perception machine des images diffère de la perception humaine, les scientifiques ont téléchargé des images d'illusions visuelles classiques sur le service en ligne IBM Watson Visual Recognition. La plupart d'entre eux étaient des silhouettes géométriques, partiellement masquées par des formes géométriques de la couleur de fond. Le système a essayé de déterminer la nature de l'image et a indiqué le degré de certitude de sa réponse.
Il s'est avéré que l'intelligence artificielle n'est capable de reconnaître aucune figure imaginaire, à l'exception d'un triangle imaginaire coloré. En raison du contraste élevé avec l'arrière-plan, il a été reconnu correctement.
"Des objets similaires à ceux que nous avons utilisés lors de l'expérience peuvent être trouvés dans la vraie vie", explique Vladimir Vinnikov, analyste au Laboratoire de méthodes d'analyse de données volumineuses de la faculté d'informatique HSE et auteur de l'étude. "Par exemple, le pilote automatique d'une voiture ou d'un avion perçoit une remorque ou une tour radio, qui la nuit ne sont signalées que par des feux de position, de la même manière que nous percevons des formes géométriques imaginaires."
L'œil humain bouge constamment involontairement et la surface photosensible de sa rétine a la forme d'un hémisphère. Une personne peut voir une illusion si l'image est un vecteur, c'est-à-dire si elle comprend des points de référence et des courbes les reliant. L'imagination humaine complétera le tableau en raison du mouvement constant des yeux, une caractéristique physiologique de notre vision.
Dans les systèmes optoélectroniques, tout est arrangé différemment. Leur matrice sensible à la lumière a une forme plate, généralement rectangulaire, et le système de lentille lui-même n'est pas aussi libre de mouvement que l'œil humain. Par conséquent, l'intelligence artificielle ne peut pas compléter les lignes imaginaires qui relient des fragments d'une illusion géométrique. La vision artificielle ne voit que ce qui est réellement représenté, tandis que les gens complètent l'image dans leur imagination en fonction de ses contours.
Aujourd'hui, les systèmes de reconnaissance d'images de réseaux neuronaux se répandent activement dans le secteur commercial. Cependant, la question de la précision avec laquelle les machines reconnaissent les images est toujours ouverte. Des vies humaines peuvent dépendre de la précision de la reconnaissance. Par exemple, un accident peut se produire si le pilote automatique d'une voiture ou d'un avion ne reconnaît pas un objet à faible contraste par rapport à l'arrière-plan et n'est pas en mesure d'esquiver un obstacle à temps.
Les scientifiques pensent que l'inexactitude de la reconnaissance d'image de la machine peut être corrigée. Par exemple, ils peuvent compléter la reconnaissance des images tramées, qui représentent une grille de pixels, en simulant les caractéristiques physiologiques du mouvement oculaire qui permettent à l'œil de voir des scènes bidimensionnelles et tridimensionnelles. Une autre méthode consiste à ajouter une description vectorielle des images, ce qui aidera à programmer la machine pour contourner l'image le long des trajectoires spécifiées par les vecteurs.
"Les objets imaginaires doivent absolument être utilisés comme tests dans des systèmes qui dépendent de la reconnaissance de flux photo et vidéo, par exemple dans les pilotes automatiques de voitures ou de drones. Cela contribuera à éviter les risques liés à l'utilisation de systèmes d'intelligence artificielle dans l'industrie et systèmes de transport », déclare Vinnikov. Des mouvements "oculaires" supplémentaires sont la clé de meilleures voitures autonomes