• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Physique
    Les textes comme réseaux :Combien de mots suffisent pour identifier un auteur ?

    L'auteur d'un texte non signé peut être identifié en analysant la relation entre quelques mots du texte, comme le montrent les physiciens-statisticiens de l'Institut de physique nucléaire de l'Académie polonaise des sciences de Cracovie. (Source :FIJ PAN) Crédit :FIJ PAN

    Les gens sont plus originaux qu'ils ne le pensent - cela est suggéré par une méthode d'analyse de texte littéraire de stylométrie proposée par des scientifiques de l'Institut de physique nucléaire de l'Académie polonaise des sciences. L'individualité de l'auteur peut être vue dans les connexions entre pas plus d'une douzaine de mots dans un texte anglais. Il s'avère que dans les langues slaves, l'identification de la paternité nécessite encore moins de mots, et c'est plus sûr.

    Les chercheurs ont cherché une solution au problème de la vérification de la paternité des textes historiques connus uniquement à partir de fragments, l'identification du plagiat, et des problèmes similaires. Dans de nombreux cas, les méthodes stylométriques traditionnelles échouent ou ne conduisent pas à des conclusions suffisamment fiables. Dans Sciences de l'information , des scientifiques de l'Institut de physique nucléaire de l'Académie polonaise des sciences (IFJ PAN) à Cracovie présentent désormais leur propre outil statistique d'analyse stylométrique. Construit à l'aide de graphiques, il analyse la structure des textes d'une manière qualitativement nouvelle.

    "Les conclusions de nos recherches sont, d'un côté, encourageant. Ils indiquent que l'individualité de toute personne se manifeste clairement dans la façon dont elle utilise un nombre étonnamment petit de mots. Mais il y a aussi un côté obscur. Puisqu'il s'avère que les gens sont si originaux, il sera plus facile d'identifier les individus par leurs déclarations, " déclare le professeur Stanislaw Drozdz de l'Université de technologie de Cracovie.

    Stylométrie, la science traitant des caractéristiques statistiques du style des textes, repose sur le constat que chaque personne utilise la même langue de manière légèrement différente. Certains ont un vocabulaire plus large, d'autres plus étroits, certains préfèrent certaines phrases et font des erreurs, d'autres évitent la répétition et sont des puristes linguistiques. Et dans le texte écrit, ils diffèrent également dans la façon dont ils utilisent la ponctuation. Dans l'approche stylométrique typique, les caractéristiques de base d'un texte sont généralement examinées, y compris la fréquence d'occurrence des mots individuels, tandis que la ponctuation est ignorée. Des analyses sont effectuées pour le texte étudié et pour les textes écrits par des auteurs potentiellement connus. Le créateur est réputé être la personne dont les œuvres ont des paramètres dont les valeurs sont les plus proches de celles obtenues pour le matériau identifié.

    "Nous avons suggéré que les traits caractéristiques du style pourraient être représentés dans une représentation en réseau du texte, à l'aide de graphiques, " explique Tomasz Stanisz, doctorat étudiant à la FIJ PAN et premier auteur de la publication. "Le graphe est un ensemble de points ou de sommets sur le graphe, relié par des lignes, c'est-à-dire les bords du graphe. Dans le cas le plus simple - dans le réseau dit non pondéré - les sommets correspondent à des mots individuels et sont reliés par des arêtes si et seulement si deux mots donnés sont apparus adjacents l'un à l'autre au moins une fois dans le texte. Par exemple, pour la phrase 'Jane a faim, ' le graphe aurait trois sommets, un pour chaque mot, mais il n'y aurait que deux bords, un entre 'Jane' et 'est, ' l'autre entre 'est' et 'faim.'"

    En construisant leurs outils stylométriques, les chercheurs ont testé différents types de graphiques. Les meilleurs résultats ont été obtenus pour les graphiques pondérés, C'est, ceux dans lesquels chaque arête porte des informations sur le nombre d'occurrences de sa connexion correspondante entre les mots. Deux paramètres se sont avérés les plus utiles dans de tels réseaux :le degré de nœud et le coefficient de clustering. La première décrit le nombre d'arêtes provenant d'un nœud donné et est directement liée au nombre d'occurrences d'un mot donné dans le texte. À son tour, le coefficient de regroupement décrit la probabilité que deux mots connectés par une arête avec un mot donné soient également connectés avec une arête entre eux.

    À l'aide d'outils statistiques ainsi préparés, les physiciens de Cracovie ont examiné 96 livres :six romans de huit auteurs anglais bien connus (Austen, Conrad, Defoe, Diable, Doyle, Eliot, Orwell et Twain) et huit auteurs polonais (Korczak, Kraszewski, Lam, Orzeszkowa, Prus, Reymont, Sienkiewicz et Zeromski). Les auteurs comprenaient deux lauréats du prix Nobel de littérature (Wladyslaw Reymont et Henryk Sienkiewicz). Tous les textes ont été obtenus à partir de ressources Internet :Projet Gutenberg, Wikisource et Wolne Lektury. Le groupe de la FIJ PAN a ensuite vérifié la fiabilité avec laquelle la paternité de 12 œuvres sélectionnées au hasard dans une langue pouvait être déterminée, traiter le reste du pool d'œuvres comme un matériau de comparaison.

    « Dans le cas des textes anglais, nous avons identifié correctement les auteurs dans près de 90 pour cent des cas. En outre, pour réussir, il a été nécessaire de tracer les connexions entre seulement 10 à 12 mots du texte examiné. Contrairement à l'intuition naïve, une nouvelle augmentation du nombre de mots étudiés n'augmente pas significativement l'efficacité de la méthode, " dit Stanisz.

    En polonais, la détermination de la paternité s'est avérée encore plus simple :il n'a fallu analyser que cinq à six mots. Notamment, malgré le fait que le pool de mots significatifs était deux fois moins important qu'en anglais, la probabilité d'une identification correcte a été augmentée jusqu'à 95 pour cent. Une telle précision diagnostique élevée, cependant, n'a été atteint que lorsque les signes de ponctuation étaient également traités comme des mots séparés. Dans les deux langues, l'omission de la ponctuation a entraîné une réduction significative du nombre de suppositions correctes. Le rôle observé de la ponctuation est une autre confirmation des conclusions d'une publication de 2017 du groupe du Pr Drozdz, dans lequel il a été montré que la ponctuation joue un rôle dans le langage aussi important que les mots eux-mêmes.

    « Par rapport à l'anglais, Le polonais semble offrir de plus grandes possibilités de révéler le style de l'auteur. Nous pensons que les autres langues slaves sont caractérisées par des caractéristiques similaires. L'anglais est une langue positionnelle, ce qui signifie que l'ordre des mots dans une phrase est important. Ce genre de langue laisse moins de place à un style d'expression individuel que les langues slaves, dans laquelle inflexion, ou variante, détermine le rôle d'un mot ou d'une phrase dans une phrase. Cela permet une plus grande liberté d'organiser l'ordre des mots dans une phrase, tandis que sa signification reste inchangée, " dit le professeur Drozdz.

    © Science https://fr.scienceaq.com