Les algorithmes ne sont pas très efficaces pour identifier le contenu réservé aux adultes

Il n'est pas difficile d'imaginer un bot signalant la peinture emblématique de l'artiste Georgia O'Keeffe « Lignes grises avec du noir, Bleu et jaune" (illustré ici à la Tate Modern) en tant que contenu pour adultes. Rob Stothard/Getty Images

La plateforme Tumblr a décidé de ne plus autoriser les contenus pour adultes. L'interdiction entre en vigueur le 17 décembre 2018, et pour l'appliquer, Tumblr semble avoir déployé un bot qui fait singulièrement mal son travail, signalant le contenu innocent comme étant de nature pornographique et incitant les utilisateurs et les experts techniques à se demander pourquoi le bot est si mauvais dans ce qu'il fait. Une partie de la réponse est que la modération avec l'intelligence artificielle est une tâche extrêmement difficile.

Bon nombre des subtilités impliquées dans la décision du contenu que nous trouvons acceptable ou répréhensible doivent être écrites dans le marbre, et notre palmarès dans ce domaine n'est pas si grand. En réalité, nous avons du mal à identifier quelque chose comme pornographique en premier lieu. Le regretté juge de la Cour suprême des États-Unis, Potter Stewart, a résumé le sentiment dans une décision concernant une affaire d'obscénité (Jacobellis c. Ohio) par la phrase "Je le sais quand je le vois".

Ce sentiment s'est avéré aussi vague dans la pratique que dans le sens. Voici un exemple :une photo d'un homme en érection doit être de nature obscène, droit? Mais que se passe-t-il si c'est pour une illustration médicale du priapisme, une affection souvent douloureuse qui provoque une érection prolongée, et il apparaît sur un site médical ? Si une représentation d'une vulve est obscène, cela signifie-t-il le travail de l'artiste Georgia O'Keeffe, dont les peintures de fleurs sont souvent considérées comme des métaphores visuelles de l'anatomie féminine, doit être signalé dans les articles d'histoire de l'art ?

Les réseaux sociaux et les plateformes de contenu rencontrent ces situations tout le temps. Par exemple, dans un incident majeur de relations publiques en 2016, Facebook a censuré la photo lauréate du prix Pulitzer d'une fillette nue de 9 ans, Kim Phuc, terrorisée par une attaque au napalm pendant la guerre du Vietnam; la photo a été publiée par le journal le plus en vue de Norvège pour un article pertinent sur la guerre. Par contre, Les utilisateurs de Twitter n'ont pas été en mesure de persuader cette plate-forme de fermer les comptes néo-nazis avant la fin de 2017. Avec des philosophies différentes et apparemment arbitraires, des règles sans contexte qui peuvent dérouter même les modérateurs humains, il n'est pas étonnant que les algorithmes aient du mal à déterminer ce qu'il faut signaler.

Le système de Tumblr semble rechercher une quantité de ce qu'il considère comme de la peau exposée dans les images, ou des formes qu'il croit être des mamelons ou des organes génitaux. Malheureusement, de nombreux gros plans bénins sur des parties non érogènes du corps humain dépassent le seuil de la quantité de chair nue qu'une image montre, comme l'a noté Dan Fallon écrivant pour Digg. Certains objets comme les arbres pouvaient aussi avoir l'air phallique. Et dans un cas apparemment inexplicable, Fallon a écrit, les photos de la nature très innocentes d'un photographe de paysage ont été signalées comme problématiques, trop. Cette, cependant, n'est pas inhabituel pour de tels algorithmes. D'autres itérations de robots de censure ont signalé des images de dunes et de plages parce que la couleur du sable était similaire à la couleur de la peau selon leurs ensembles de données d'entraînement.

Cette erreur systématique est également logique lorsque l'on considère le nombre de tons de peau que les humains ont. Les couleurs allant du beige clair au presque noir se produisent toutes naturellement, et selon la façon dont une IA est formée ou un capteur est calibré, il pourrait ne pas comprendre qu'il existe même des couleurs de peau plus foncées. Par conséquent, un algorithme formé pour repérer et censurer les images pornographiques avec des artistes caucasiens pourrait ne pas être en mesure de signaler des images tout aussi explicites avec des modèles à la peau foncée. Une des solutions faciles pour cela est de surcompenser, signaler tout et justifier les faux positifs comme étant mieux que de ne pas capter suffisamment de contenu pour adultes, c'est ce que Tumblr semble avoir fait dans la course pour assainir son contenu. Tumblr n'a pas renvoyé de demandes de commentaires pour savoir s'il y avait une couche supplémentaire à sa modération.

Finalement, il reste à voir si un algorithme de censure trop zélé conduira également les utilisateurs qui ne publient pas de contenu pour adultes à partir de la plate-forme, ou s'il sera composé. Mais le signalement excessif très public et agressif de Tumblr met en évidence certaines des nombreuses difficultés liées à la modération des médias en ligne. Des erreurs continueront donc d'être commises, et fait fréquemment. Jusqu'à ce que nous sachions comment répondre à ces préoccupations, les humains devront superviser tout effort de modération vraiment réussi.

Maintenant c'est intéressant

Même le grincheux Garfield a été banni de Tumblr lors du balayage initial, comme l'ont noté de nombreux articles.

Les sols qui grincent ont servi de système d'avertissement de sécurité dans l'ancien Japon