Les systèmes d'IA ont-ils vraiment leur propre langage secret ?

Crédit :Giannis Daras / DALL-E

Une nouvelle génération de modèles d'intelligence artificielle (IA) peut produire des images "créatives" à la demande sur la base d'une invite textuelle. Des entreprises comme Imagen, MidJourney et DALL-E 2 commencent à changer la façon dont le contenu créatif est créé, avec des implications pour le droit d'auteur et la propriété intellectuelle.

Alors que la sortie de ces modèles est souvent frappante, il est difficile de savoir exactement comment ils produisent leurs résultats. La semaine dernière, des chercheurs américains ont fait l'étrange affirmation selon laquelle le modèle DALL-E 2 pourrait avoir inventé son propre langage secret pour parler des objets.

En invitant DALL-E 2 à créer des images contenant des légendes de texte, puis en renvoyant les légendes résultantes (charabia) dans le système, les chercheurs ont conclu que DALL-E 2 pense que Vicootes signifie "légumes", tandis que Wa ch zod rea fait référence à "créatures marines". qu'une baleine pourrait manger".

Ces affirmations sont fascinantes et, si elles sont vraies, pourraient avoir des implications importantes en matière de sécurité et d'interprétabilité pour ce type de grand modèle d'IA. Alors que se passe-t-il exactement ?

DALL-E 2 a-t-il un langage secret ?

DALL-E 2 n'a probablement pas de "langue secrète". Il serait peut-être plus exact de dire qu'il a son propre vocabulaire, mais même dans ce cas, nous ne pouvons pas en être sûrs.

Tout d'abord, à ce stade, il est très difficile de vérifier les affirmations concernant DALL-E 2 et d'autres grands modèles d'IA, car seule une poignée de chercheurs et de praticiens créatifs y ont accès. Toutes les images partagées publiquement (sur Twitter par exemple) doivent être prises avec un assez gros grain de sel, car elles ont été "choisies" par un humain parmi de nombreuses images de sortie générées par l'IA.

Même ceux qui y ont accès ne peuvent utiliser ces modèles que de manière limitée. Par exemple, les utilisateurs de DALL-E 2 peuvent générer ou modifier des images, mais ne peuvent pas (encore) interagir plus profondément avec le système d'IA, par exemple en modifiant le code en arrière-plan. Cela signifie que les méthodes "d'IA explicable" pour comprendre le fonctionnement de ces systèmes ne peuvent pas être appliquées, et qu'il est difficile d'enquêter systématiquement sur leur comportement.

Que se passe-t-il alors ?

Une possibilité est que les phrases "charabia" soient liées à des mots de langues autres que l'anglais. Par exemple, Apoploe, qui semble créer des images d'oiseaux, est similaire au latin Apodidae, qui est le nom binomial d'une famille d'espèces d'oiseaux.

Cela semble être une explication plausible. Par exemple, DALL-E 2 a été formé sur une très grande variété de données extraites d'Internet, qui comprenaient de nombreux mots non anglais.

Des choses similaires se sont déjà produites :de grands modèles d'IA en langage naturel ont appris par coïncidence à écrire du code informatique sans formation délibérée.

Est-ce que tout tourne autour des jetons ?

Un point qui soutient cette théorie est le fait que les modèles de langage d'IA ne lisent pas le texte comme vous et moi le faisons. Au lieu de cela, ils décomposent le texte d'entrée en "jetons" avant de le traiter.

Différentes approches de "tokénisation" ont des résultats différents. Traiter chaque mot comme un jeton semble être une approche intuitive, mais pose des problèmes lorsque des jetons identiques ont des significations différentes (par exemple, "match" signifie différentes choses lorsque vous jouez au tennis et lorsque vous allumez un feu).

D'autre part, traiter chaque caractère comme un jeton produit un plus petit nombre de jetons possibles, mais chacun transmet des informations beaucoup moins significatives.

DALL-E 2 (et d'autres modèles) utilisent une approche intermédiaire appelée codage par paire d'octets (BPE). L'examen des représentations BPE pour certains des mots charabia suggère que cela pourrait être un facteur important dans la compréhension du "langage secret".

Pas toute l'image

Le "langage secret" pourrait aussi n'être qu'un exemple du principe "garbage in, garbage out". DALL-E 2 ne peut pas dire "Je ne sais pas de quoi vous parlez", donc il générera toujours une sorte d'image à partir du texte d'entrée donné.

Quoi qu'il en soit, aucune de ces options n'est une explication complète de ce qui se passe. Par exemple, la suppression de caractères individuels de mots charabia semble corrompre les images générées de manière très spécifique. Et il semble que les mots charabia individuels ne se combinent pas nécessairement pour produire des images composées cohérentes (comme ils le feraient s'il y avait vraiment un "langage" secret sous les couvertures).

Pourquoi c'est important

Au-delà de la curiosité intellectuelle, vous vous demandez peut-être si tout cela est réellement important.

La réponse est oui. Le "langage secret" de DALL-E est un exemple d'"attaque contradictoire" contre un système d'apprentissage automatique :un moyen de briser le comportement prévu du système en choisissant intentionnellement des entrées que l'IA ne gère pas bien.

L'une des raisons pour lesquelles les attaques contradictoires sont préoccupantes est qu'elles remettent en question notre confiance dans le modèle. Si l'IA interprète des mots charabia de manière non intentionnelle, elle peut également interpréter des mots significatifs de manière non intentionnelle.

Les attaques adverses soulèvent également des problèmes de sécurité. DALL-E 2 filtre le texte d'entrée pour empêcher les utilisateurs de générer du contenu préjudiciable ou abusif, mais un "langage secret" de mots charabia peut permettre aux utilisateurs de contourner ces filtres.

Des recherches récentes ont découvert des « phrases de déclenchement » contradictoires pour certains modèles d'IA linguistiques ; de courtes phrases absurdes telles que « zoning tapping fiennes » qui peuvent déclencher de manière fiable les modèles à cracher du contenu raciste, préjudiciable ou biaisé. Cette recherche s'inscrit dans le cadre des efforts continus pour comprendre et contrôler la façon dont les systèmes complexes d'apprentissage en profondeur apprennent à partir des données.

Enfin, des phénomènes comme le "langage secret" de DALL-E 2 soulèvent des problèmes d'interprétabilité. Nous voulons que ces modèles se comportent comme un être humain s'y attend, mais voir une sortie structurée en réponse au charabia déroute nos attentes.

Mettre en lumière les préoccupations existantes

Vous vous souvenez peut-être du tapage de 2017 autour de certains chat-bots de Facebook qui "ont inventé leur propre langage". La situation actuelle est similaire en ce sens que les résultats sont préoccupants, mais pas dans le sens « Skynet est en train de conquérir le monde ».

Au lieu de cela, le "langage secret" de DALL-E 2 met en évidence les préoccupations existantes concernant la robustesse, la sécurité et l'interprétabilité des systèmes d'apprentissage en profondeur.

Jusqu'à ce que ces systèmes soient plus largement disponibles - et en particulier, jusqu'à ce que les utilisateurs d'un ensemble plus large de milieux culturels non anglophones puissent les utiliser - nous ne pourrons pas vraiment savoir ce qui se passe.

En attendant, cependant, si vous souhaitez essayer de générer certaines de vos propres images AI, vous pouvez consulter un modèle plus petit disponible gratuitement, DALL-E mini. Faites juste attention aux mots que vous utilisez pour inviter le modèle (anglais ou charabia - votre appel).

Comment l'hydroélectricité renforcera-t-elle un monde d'énergies renouvelables ?

EXPLIQUE :L'accord d'Elon Musks pour acheter Twitter est-il en train de s'effondrer ?

Électronique