Les capteurs de mouvement « pièges à caméra » prennent discrètement des photos d'animaux dans leur environnement naturel, donnant souvent des images non observables autrement. Le système d'intelligence artificielle traite automatiquement ces images, ici rapportant correctement cela comme une image de deux impalas debout. Crédit :Instantané Serengeti
Un nouveau papier dans le Actes de l'Académie nationale des sciences (PNAS) rapporte comment une technique d'intelligence artificielle de pointe appelée apprentissage en profondeur peut identifier automatiquement, compter et décrire les animaux dans leur habitat naturel.
Les photographies qui sont automatiquement collectées par les caméras à capteur de mouvement peuvent ensuite être automatiquement décrites par les réseaux de neurones profonds. Le résultat est un système qui peut automatiser l'identification des animaux pour jusqu'à 99,3 pour cent des images tout en conservant le même taux de précision de 96,6 pour cent des équipes de volontaires humains.
« Cette technologie nous permet avec précision, collecter discrètement et à moindre coût des données sur la faune, qui pourrait contribuer à catalyser la transformation de nombreux domaines de l'écologie, biologie de la faune, zoologie, la biologie de la conservation et le comportement animal en sciences du « big data ». Cela améliorera considérablement notre capacité à étudier et à conserver la faune et les précieux écosystèmes, " dit Jeff Clune, l'auteur principal de l'article. Il est professeur agrégé Harris à l'Université du Wyoming et directeur de recherche principal aux laboratoires d'intelligence artificielle d'Uber.
Le papier a été écrit par Clune; son doctorat l'étudiant Mohammad Sadegh Norouzzadeh; son ancien doctorat. étudiant Anh Nguyen (maintenant à l'Université d'Auburn); Margaret Kosmala (Université de Harvard); Ali Swanson (Université d'Oxford); et Meredith Palmer et Craig Packer (tous deux de l'Université du Minnesota).
Les réseaux de neurones profonds sont une forme d'intelligence informatique vaguement inspirée de la façon dont le cerveau des animaux voit et comprend le monde. Ils nécessitent de grandes quantités de données d'entraînement pour bien fonctionner, et les données doivent être étiquetées avec précision (par exemple, chaque image étant correctement étiquetée avec quelle espèce d'animal est présente, combien il y en a, etc.).
Cette étude a obtenu les données nécessaires de Snapshot Serengeti, un projet de science citoyenne sur la plateforme http://www.zooniverse.org. Snapshot Serengeti a déployé un grand nombre de "caméra pièges" (caméras à détecteur de mouvement) en Tanzanie qui collectent des millions d'images d'animaux dans leur habitat naturel, comme les lions, léopards, guépards et éléphants. Les informations contenues dans ces photographies ne sont utiles qu'une fois converties en texte et en chiffres. Pendant des années, la meilleure méthode pour extraire de telles informations était de demander à des équipes de volontaires humains d'étiqueter manuellement chaque image. L'étude publiée aujourd'hui a exploité 3,2 millions d'images étiquetées produites de cette manière par plus de 50, 000 volontaires humains sur plusieurs années.
"Quand j'ai dit à Jeff Clune que nous avions 3,2 millions d'images étiquetées, il s'est arrêté dans son élan, " dit Packer, qui dirige le projet Snapshot Serengeti. "Nous voulions tester si nous pouvions utiliser l'apprentissage automatique pour automatiser le travail des volontaires humains. Nos scientifiques citoyens ont fait un travail phénoménal, mais nous devions accélérer le processus pour gérer des quantités de données toujours plus importantes. L'algorithme d'apprentissage en profondeur est incroyable et a largement dépassé mes attentes. Cela change la donne pour l'écologie de la faune. »
Swanson, qui a fondé Snapshot Serengeti, ajoute :« Il existe des centaines de projets de pièges photographiques dans le monde, et très peu d'entre eux sont capables de recruter de grandes armées de volontaires humains pour extraire leurs données. Cela signifie qu'une grande partie des connaissances contenues dans ces importants ensembles de données restent inexploitées. Bien que les projets se tournent de plus en plus vers la science citoyenne pour la classification des images, nous commençons à voir qu'il faut de plus en plus de temps pour étiqueter chaque lot d'images à mesure que la demande de bénévoles augmente. Nous pensons que l'apprentissage en profondeur sera essentiel pour réduire le goulot d'étranglement des projets de pièges photographiques :l'effort de conversion d'images en données utilisables. »
"Non seulement le système d'intelligence artificielle vous indique laquelle des 48 espèces animales différentes est présente, mais il vous dit aussi combien il y en a et ce qu'ils font. Il vous dira s'ils mangent, en train de dormir, si des bébés sont présents, etc., " ajoute Kosmala, un autre leader Snapshot Serengeti. "Nous estimons que le pipeline de technologies d'apprentissage en profondeur que nous décrivons permettrait d'économiser plus de huit ans d'effort d'étiquetage humain pour chaque tranche de 3 millions d'images supplémentaires. C'est beaucoup de temps bénévole précieux qui peut être redéployé pour aider d'autres projets."
Le premier auteur Sadegh Norouzzadeh souligne que « l'apprentissage en profondeur continue de s'améliorer rapidement, et nous nous attendons à ce que ses performances ne fassent que s'améliorer dans les années à venir. Ici, nous voulions démontrer la valeur de la technologie à la communauté de l'écologie de la faune, mais nous nous attendons à ce que de plus en plus de personnes recherchent comment améliorer l'apprentissage en profondeur pour cette application et publient leurs ensembles de données, le ciel est la limite. Il est passionnant de penser à toutes les différentes manières dont cette technologie peut nous aider dans nos importantes missions scientifiques et de conservation. »
L'article qui paraît aujourd'hui dans PNAS est intitulé, "Identifiant automatiquement, compte, et décrire les animaux sauvages dans des images de pièges photographiques avec un apprentissage en profondeur."