Une équipe de chercheurs de l'Université Nationale de Recherche Nucléaire MEPhI, l'Institut Kurchatov du Centre national de recherche et l'Université d'État de Voronej ont développé un nouvel algorithme d'apprentissage qui permet à un réseau neuronal d'identifier le sexe d'un écrivain par le texte écrit sur un ordinateur avec une précision allant jusqu'à 80 %.
Il s'agit d'un nouveau développement dans le domaine de la linguistique informatique. La recherche a été financée par une subvention de la Fondation scientifique russe. Les résultats ont été publiés dans le Informatique Procedia journal.
De nombreuses études scientifiques montrent que le style d'écriture peut refléter certaines caractéristiques d'un écrivain – genre, traits de personnalité physiologiques, et le niveau d'éducation. Les modes de parole sont un outil psycho-diagnostique précieux, et sont souvent utilisés par les professionnels des ressources humaines et les services de sécurité.
En analysant le discours d'une personne, les chercheurs peuvent diagnostiquer certaines maladies comme la démence et la dépression, et l'inclination de la personne vers le comportement suicidaire. La demande d'identification de certaines caractéristiques de la personnalité d'un écrivain augmente dans le contexte du développement des communications Internet – les entreprises veulent savoir quelles données démographiques aiment leurs produits et services.
En utilisant les valeurs numériques de divers paramètres dans un texte, chercheurs dans ce domaine (linguistes, psychologues, Des experts en informatique) ont créé des modèles mathématiques pour identifier certains traits de la personnalité de l'écrivain. Utilisation de réseaux de neurones, les chercheurs ont analysé l'efficacité de divers algorithmes d'apprentissage automatique pour l'analyse de texte.
Au cours de la recherche, les scientifiques ont comparé l'exactitude de l'identification du genre par texte sur la base de deux types de modélisation basée sur les données :des algorithmes d'apprentissage automatique (tels qu'une machine à vecteurs de support et un boosting de gradient), et, seconde, un réseau de neurones d'apprentissage en profondeur (tels que les réseaux de neurones convolutifs et les réseaux de neurones récurrents à mémoire à long terme).
« En utilisant ces modèles de réseaux de neurones avancés, nous avons obtenu d'excellents résultats dans l'identification du sexe de l'écrivain sur la base du texte, dans des conditions où l'auteur ne cherche pas à cacher son sexe, " a déclaré Alexandre Sboyev, professeur assistant au MEPhI. "Notre prochaine étape consiste à apprendre au réseau de neurones à identifier le sexe d'un écrivain qui essaie délibérément de le cacher."
Ainsi, dans les textes suivants, initialement publié sur des sites de rencontres, le réseau de neurones a facilement identifié le sexe de l'écrivain 10 fois sur 10, malgré le fait que les auteurs étaient libres de signer leurs textes avec un nom typique du genre opposé.
Ce texte a été écrit par une femme :« Je suis un beau, homme de 30 ans en forme. J'ai un emploi bien rémunéré dans une grande société pétrolière et gazière. Je vis dans mon propre appartement à Moscou, et possède également une petite mais agréable maison dans un village italien. je fais du sport, principalement le foot. J'aime sortir le week-end, Je ne supporte pas les casanier. Ma fille parfaite serait modeste et belle, et aurait un corps attrayant, sur la base des normes d'aujourd'hui. Elle partagerait mes intérêts et ne serait pas jalouse ou n'essaierait pas de me rendre jalouse. À l'avenir, Je n'ai pas l'intention d'être le seul pourvoyeur d'une famille, car je crois qu'en ce qui concerne les familles, les hommes et les femmes doivent gagner de l'argent. J'aimerais aussi avoir des budgets séparés. Je ne tolérerai pas la tricherie."
Ce texte a été écrit par un homme :« Bonjour ! Je suis très en colère, très! Pourquoi continuez-vous à nous traiter comme ça ?! Nous sommes le peuple, trop, nous sommes tous égaux ! Êtes-vous sexiste ? Je ne tolérerai plus ça ! Je vais briser ta voiture en morceaux; Je vais pulvériser de la peinture partout. Attends juste, Tu es un monstre. C'est nul d'être toi."
Cette recherche a indiqué que l'approche basée sur l'utilisation de réseaux de neurones convolutifs et de méthodes d'apprentissage en profondeur pour identifier le sexe d'un écrivain, est le plus optimal. L'équipe de chercheurs travaille actuellement sur l'identification de l'âge d'un écrivain.