Fake news via OpenAI :éloquente incohérente ?

Crédit :CC0 Domaine public

le générateur de texte d'OpenAI, basé sur l'apprentissage automatique - si puissant qu'il a été jugé trop dangereux pour être rendu public, a, devinez quoi, été libéré.

OpenAI a publié un article de blog annonçant sa décision de publier l'algorithme dans son intégralité car il n'a "vu jusqu'à présent aucune preuve solide d'abus".

Bien, c'était un revirement.

Ce n'est qu'en février qu'OpenAI a parlé d'un modèle de langage appelé GPT-2 qui génère des paragraphes de texte.

Engagé :"L'IA, GPT-2, a été conçu à l'origine pour répondre à des questions, résumer des histoires et traduire des textes. Mais les chercheurs en sont venus à craindre qu'il puisse être utilisé pour pomper de gros volumes de désinformation. »

Tom McKay dans Gizmodo a noté comment le générateur de texte a été "formé sur quelque 40 gigaoctets de données extraites de huit millions de sites Web" et bon pour générer du texte à partir d'une invite donnée.

Le bord James Vincent en a également parlé. "Le système a été formé sur huit millions de documents texte extraits du Web et répond aux extraits de texte fournis par les utilisateurs. Donnez-lui un faux titre, par exemple, et il écrira un reportage; donnez-lui le premier vers d'un poème et il fournira un vers entier."

Alors pourquoi leur algorithme a-t-il été publié dans son intégralité ? Le public n'a-t-il pas assez à s'inquiéter des fausses nouvelles, fausse critique, propagande politique ?

Outre, le billet de blog de février a pris ce qui semblait être une route si impressionnante en montrant au monde que les considérations éthiques étaient une priorité.

« Notre modèle, appelé GPT-2 (un successeur de GPT), a été entraîné simplement à prédire le mot suivant dans 40 Go de texte Internet. En raison de nos préoccupations concernant les applications malveillantes de la technologie, nous ne publions pas le modèle entraîné. À titre d'expérience de divulgation responsable, nous publions plutôt un modèle beaucoup plus petit pour que les chercheurs puissent l'expérimenter, ainsi qu'un document technique."

Katyanna Quach dans Le registre a fourni une chronologie des apparitions technologiques OpenAI par étapes. "Le laboratoire de recherche basé à San Francisco a provisoirement testé les eaux en publiant des modèles de plus en plus gros, à partir de quelques centaines de millions de paramètres.

"La plus petite version contenait 117 millions de paramètres, le second avait 345 millions de paramètres, le troisième se composait de 774 millions de paramètres, et le plus grand, publié mardi, possède les 1,5 milliard de paramètres complets. Plus il y a de paramètres, plus le modèle est puissant et capable, en général."

Donc, qu'est-ce qui les a convaincus de prendre la bretelle de sortie de la grande route ? Quelle raison avaient-ils de penser que c'était maintenant une période plus sûre que jamais ? Qu'est-il arrivé à la position qu'il était trop dangereux de partager ?

"Nous n'avons vu aucune preuve solide d'abus jusqu'à présent, ", ont-ils déclaré dans leur article du 5 novembre. "Bien que nous ayons assisté à des discussions sur le potentiel de GPT-2 à argumenter des opérations à haut volume/faible rendement comme le spam et le phishing, nous n'avons pas vu de preuve d'écriture de code, Documentation, ou des cas d'abus."

Pendant ce temps, Jacques Vincent dans Le bord osé exprimer la possibilité que cette notion "dangereuse" n'était que cela, une notion qui, en ce qui concerne leur modèle de fausses nouvelles, n'a peut-être pas été demandé en premier lieu.

On craignait qu'un accès facile à un tel outil d'IA puisse satisfaire les plans d'acteurs malveillants, et la manière responsable de gérer cela était de publier le modèle de manière limitée. Une bonne approche ? Ou cela a-t-il contrecarré d'autres recherches ? "

Vous pouvez maintenant l'essayer sur un site, qui exécute le modèle GPT-2 pleine grandeur, appelé 1558M. L'interface Web a été conçue par Adam King à l'aide de la version complète GPT-2 d'OpenAI, mentionné Le registre .

Cet écrivain a essayé d'explorer ce qu'il peut faire avec une phrase de départ "Les bébés peuvent laver la vaisselle". Ce qui a suivi a été un méli-mélo loufoque de logique et de sauts de sujet. Néanmoins, les phrases portaient une grammaire respectable, voix et style. Quelques extraits :

"Et donc, cette idée que les enfants sont incapables d'utiliser une machine à laver est ridicule.

"En ce qui concerne l'idée que votre enfant est un robinet d'évier, c'est une idée que personnellement je ne pense pas pouvoir supporter. Je suis connu pour utiliser un robinet d'évier lorsque je cuisine. Je peux laver la vaisselle dans un évier.

« Quand votre enfant est assis sur vos genoux et que vous tenez le gant de toilette et que vous utilisez l'eau pour faire la vaisselle, vous ne faites probablement rien."

James Vincent a fait mouche avec une évaluation en trois mots :« écriture étrangement convaincante ».

Quach a également fait valoir un point qui mérite d'être répété. "Parfois, il crache des phrases étonnamment bonnes, mais comme il continue de produire du texte, ça devient incohérent."

Quach avait une raison rafraîchissante pour laquelle OpenAI a contribué à l'humanité. « Nous avons une dernière réflexion sur cette fascinante recherche sur l'IA :c'est au moins une barre pour les écrivains humains. Si vous voulez écrire des nouvelles ou des articles de fond, articles de blog, e-mails marketing, etc, sachez que vous devez maintenant être meilleur que la sortie semi-cohérente de GPT-2. Autrement, les gens pourraient aussi bien lire la sortie d'un bot que la vôtre."

Les entreprises technologiques se précipitent pour lutter contre la désinformation avant le vote au Royaume-Uni

Le principal responsable de l'application des lois antitrust met en garde Big Tech contre la collecte de données

Électronique