Crédit :CC0 Domaine public
Il peut être plus difficile pour les ordinateurs de trouver Waldo, un personnage insaisissable qui se cache parmi les foules dans une série de livres pour enfants populaires, que pour les humains.
Maintenant, une chercheuse A*STAR et ses collègues ont développé un programme d'inspiration biologique qui pourrait permettre aux ordinateurs d'identifier plus efficacement les Waldos réels et d'autres cibles.
L'analyse d'images par ordinateur est couramment utilisée en médecine, Sécurité, et sauvetage. La vitesse est souvent critique dans ces efforts, dit Mengmi Zhang, informaticien à l'Institute for Infocomm Research d'A*STAR, qui a dirigé l'étude. Elle cite l'utilisation des ordinateurs pour aider à trouver les victimes de catastrophes naturelles, comme les tremblements de terre.
Mais ces efforts sont souvent entravés parce que les ordinateurs manquent d'intuition humaine. Une personne peut rapidement repérer un chien dans un espace bondé, par exemple, même s'ils n'ont jamais vu ce chien en particulier auparavant. Un ordinateur, par contre, doit être entraîné à l'aide de milliers d'images de chiens différents, et même alors, ils peuvent faiblir lorsqu'ils cherchent un nouveau chien dont ils n'ont pas encore rencontré l'image.
Cette faiblesse pourrait être particulièrement problématique lors de la recherche d'armes, dit Zhang. Un ordinateur formé pour rechercher des couteaux et des fusils, pourrait négliger un autre objet pointu. "S'il y a un bâton de métal pointu qui n'a pas été vu dans l'ensemble d'entraînement, cela ne signifie pas que le passager doit pouvoir le prendre à bord de l'avion, " dit Zhang.
Les recherches informatiques actuelles ont également tendance à être lentes car l'ordinateur doit analyser chaque partie d'une image en séquence, en accordant la même attention à chaque partie. Humains, cependant, déplacer rapidement leur attention entre plusieurs emplacements différents dans une image pour trouver leur cible. Zhang et ses collègues voulaient comprendre comment les humains y parviennent si efficacement. Ils ont présenté à 45 personnes des images bondées et leur ont demandé de chasser une cible, dire, un mouton. Ils ont surveillé la façon dont les yeux des sujets se promenaient autour de la scène, fixant brièvement sur différents emplacements dans l'image. Ils ont trouvé que, en moyenne, les gens pouvaient localiser le mouton en environ 640 millisecondes. Cela correspondait à changer l'emplacement de leur regard, en moyenne, un peu plus de deux fois et demie.
L'équipe a ensuite développé un modèle informatique pour mettre en œuvre cette stratégie de recherche plus humaine dans la chasse au chien. Plutôt que de chercher une cible identique à une image de chien donnée au préalable, le modèle a été formé pour rechercher quelque chose qui avait des caractéristiques similaires à l'exemple d'image. Cela a permis au modèle de généraliser à partir d'une seule image de chien, au "concept général du chien, " et repérez rapidement d'autres chiens qu'il n'avait jamais vus auparavant, explique Zhang.
Les chercheurs ont testé l'efficacité du nouveau modèle de recherche visuelle par ordinateur en mesurant le nombre de fois où l'ordinateur a dû se fixer sur différents emplacements dans une scène avant de trouver sa cible. "Ce qui nous surprend, c'est qu'en utilisant notre méthode, les ordinateurs peuvent rechercher des images aussi vite que les humains, même lorsqu'ils recherchent des objets qu'ils n'ont jamais vus auparavant, " dit Zhang. L'ordinateur était même aussi bon que les humains pour trouver Waldo.
L'équipe programme maintenant son modèle avec une meilleure compréhension du contexte. Par exemple, les humains comprennent naturellement qu'une tasse est plus susceptible d'être posée sur une table que de flotter dans les airs. Une fois mis en œuvre, cela devrait encore améliorer l'efficacité du modèle, dit Zhang, ajouter, "Waldo ne peut plus se cacher."