Crédit :domaine public CC0
Ces dernières années, le crowdsourcing, qui consiste à recruter des membres du public pour aider à collecter des données, a été extrêmement utile pour fournir aux chercheurs des ensembles de données uniques et riches, tout en engageant le public dans le processus de découverte scientifique. Dans une nouvelle étude, une équipe internationale de chercheurs a exploré comment les projets de crowdsourcing peuvent tirer le meilleur parti des contributions des bénévoles.
Les activités de collecte de données par le biais du crowdsourcing vont des activités sur le terrain telles que l'observation des oiseaux aux activités en ligne telles que la classification d'images pour des projets comme le très réussi Galaxy Zoo, dans lequel les participants classent les formes de galaxies ; et Geo-Wiki, où les images satellites sont interprétées pour la couverture terrestre, l'utilisation des terres et les indicateurs socio-économiques. Cependant, obtenir les commentaires d'un si grand nombre de participants analysant un ensemble d'images soulève des questions sur la précision réelle des réponses soumises. Bien qu'il existe des méthodes pour garantir l'exactitude des données recueillies de cette manière, elles ont souvent des implications pour les activités de crowdsourcing telles que la conception de l'échantillonnage et les coûts associés.
Dans leur étude qui vient d'être publiée dans la revue PLoS ONE , des chercheurs de l'IIASA et des collègues internationaux ont exploré la question de l'exactitude en examinant le nombre d'évaluations d'une tâche à effectuer avant que les chercheurs puissent être raisonnablement certains de la bonne réponse.
"De nombreux types de recherche avec participation publique impliquent de faire classer par des volontaires des images difficiles à distinguer par les ordinateurs de manière automatisée. Cependant, lorsqu'une tâche doit être répétée par de nombreuses personnes, cela rend l'attribution des tâches aux personnes qui les exécutent. plus efficace si vous êtes certain de la bonne réponse. Cela signifie que les bénévoles ou les évaluateurs rémunérés perdent moins de temps, et que les scientifiques ou les autres personnes qui demandent les tâches peuvent tirer davantage parti des ressources limitées dont ils disposent », explique Carl Salk, ancien élève de la Programme d'été pour jeunes scientifiques de l'IIASA (YSSP) et collaborateur de longue date de l'IIASA actuellement associé à l'Université suédoise des sciences agricoles.
Les chercheurs ont développé un système pour estimer la probabilité que la réponse majoritaire à une tâche soit erronée, puis ont cessé d'attribuer la tâche à de nouveaux volontaires lorsque cette probabilité est devenue suffisamment faible ou que la probabilité d'obtenir une réponse claire est devenue faible. Ils ont démontré ce processus en utilisant un ensemble de plus de 4,5 millions de classifications uniques par 2 783 bénévoles de plus de 190 000 images évaluées pour la présence ou l'absence de terres cultivées. Les auteurs soulignent que si leur système avait été mis en œuvre dans la campagne de collecte de données d'origine, il aurait éliminé le besoin de 59,4 % d'évaluations des bénévoles, et que si l'effort avait été appliqué à de nouvelles tâches, il aurait permis plus du double de la quantité d'images à classer avec la même quantité de travail. Cela montre à quel point cette méthode peut être efficace pour utiliser plus efficacement les contributions volontaires limitées.
Selon les chercheurs, cette méthode peut être appliquée à presque toutes les situations où une classification par oui ou par non (binaire) est requise, et la réponse peut ne pas être très évidente. Les exemples pourraient inclure la classification d'autres types d'utilisation des terres, par exemple :« Y a-t-il de la forêt dans cette image ? » ; identifier les espèces, en demandant :« Y a-t-il un oiseau sur cette photo ? »; ou même le genre de tâches "ReCaptcha" que nous effectuons pour convaincre les sites Web que nous sommes humains, telles que "Y a-t-il un feu stop sur cette image ?" Le travail peut également contribuer à mieux répondre à des questions importantes pour les décideurs, telles que la superficie de terres dans le monde utilisée pour la culture.
"Alors que les scientifiques des données se tournent de plus en plus vers les techniques d'apprentissage automatique pour la classification des images, l'utilisation du crowdsourcing pour créer des bibliothèques d'images pour la formation continue de gagner en importance. Cette étude décrit comment optimiser l'utilisation de la foule à cette fin, en donnant des indications claires sur le moment de recentrer les efforts lorsque le niveau de confiance nécessaire est atteint ou qu'une image particulière est trop difficile à classer », conclut le co-auteur de l'étude, Ian McCallum, qui dirige le groupe de recherche Novel Data Ecosystems for Sustainability à l'IIASA.