Crédit :CC0 Domaine public
L'IA est de plus en plus utilisée pour aider les opérateurs humains à gérer des quantités massives d'images provenant de la vidéosurveillance et d'autres sources de sécurité. La réidentification de la personne (ReID) est une méthode dans laquelle une IA est capable de reconnaître des images de la même personne prises à partir de différentes caméras ou à différentes occasions. Cela permet de suivre les suspects à travers un réseau de vidéosurveillance couvrant un grand espace public, comme un réseau souterrain. ReID est un défi pour les machines car elles doivent considérer et différencier la même personne sous différentes sources lumineuses, poses et changements d'apparence tels que leurs vêtements.
Dans un article qui sera présenté cette année à la Conférence internationale sur la vision par ordinateur à Séoul, Corée du Sud, la conférence la plus prestigieuse en IA visuelle, des experts du Centre for Vision de Surrey, Le traitement de la parole et du signal (CVSSP) explique en détail comment ils ont développé un système unique appelé OSNet qui a surpassé de nombreux systèmes d'identification populaires déjà utilisés.
L'équipe CVSSP a montré qu'OSNet est capable d'explorer des informations à partir d'une variété d'échelles spatiales pour aider à effectuer avec précision une ré-identification, des plus petits détails tels que le logo sur un t-shirt à d'autres, des facteurs plus importants tels que le type de manteau porté par le suspect.
Incroyablement, OSNet n'a besoin que de 2,2 millions de paramètres, un très petit nombre dans le cadre des modèles de réseaux de neurones profonds, surpasser bon nombre de ses concurrents grâce à l'infrastructure populaire ResNet50 qui utilise 24 millions de paramètres, ce qui suggère qu'OSNet pourrait devenir la norme en matière de technologie de reconnaissance visuelle. Une taille de paramètre aussi petite signifie que le modèle peut être déployé "à la périphérie, " ce qui signifie que la lourde charge de calcul peut être effectuée sur la caméra elle-même plutôt que dans un centre de données distant, économiser de la bande passante pour transmettre de grandes quantités de données vidéo des caméras aux serveurs de données.
Tao Xiang, Professeur émérite de vision par ordinateur et d'apprentissage automatique au CVSSP, a déclaré : « Avec OSNet, nous avons entrepris de développer un outil capable de surmonter bon nombre des problèmes de réidentification des personnes auxquels d'autres configurations sont confrontées, mais les résultats ont largement dépassé nos attentes. La précision ReID obtenue par OSNet a clairement dépassé celle des opérateurs humains.
"OSNet montre non seulement qu'il est capable de surpasser ses homologues sur de nombreux problèmes de ré-identification, mais les résultats sont tels que nous pensons qu'il pourrait être utilisé comme une technologie de reconnaissance visuelle autonome à part entière."
Professeur Adrian Hilton, Directeur du CVSSP, a déclaré :« Il s'agit d'une réalisation considérable du professeur Xiang et de son équipe dans la mise au point d'une technologie de réidentification de pointe. Leur travail sur OSNet a le potentiel d'être révolutionnaire et pourrait aider à façonner le domaine de la reconnaissance visuelle pour les années à venir. est un excellent exemple d'IA et de perception machine au profit de la société en fournissant une technologie habilitante pour des espaces publics plus sûrs."