Pour répondre à cette question, les chercheurs mènent des études d’attribution de paternité. Ces études impliquent généralement un ensemble de données de textes écrits par différents auteurs, et la tâche consiste à attribuer correctement chaque texte à son auteur en fonction de ses caractéristiques linguistiques. Une approche courante consiste à utiliser un algorithme d'apprentissage automatique, tel qu'une machine à vecteurs de support (SVM) ou un réseau neuronal, pour classer les textes en fonction de la fréquence de leurs mots ou d'autres caractéristiques linguistiques.
Le nombre de mots requis pour une attribution précise de la paternité dépend de plusieurs facteurs, notamment de la particularité des styles d'écriture des auteurs, de la longueur des textes et des techniques spécifiques de PNL utilisées. En général, les textes plus longs fournissent plus d'informations et nécessitent donc moins de mots pour une attribution précise. Par exemple, une étude de Moschitti et Sebastiani (2006) a révélé qu'un classificateur SVM pouvait atteindre une précision de plus de 90 % en attribuant des textes anglais de 500 mots ou plus à leurs auteurs. Cependant, pour les textes plus courts, tels que les tweets ou les e-mails, davantage de mots peuvent être nécessaires pour une attribution fiable.
Un autre facteur qui influence le nombre de mots requis pour l'attribution de la paternité est la diversité linguistique des auteurs. Si les auteurs ont des styles d’écriture très similaires, il peut être plus difficile de les distinguer, même avec un grand nombre de mots. D’un autre côté, si les auteurs ont des styles d’écriture distincts, même un petit nombre de mots peut suffire pour une attribution précise.
En résumé, le nombre de mots requis pour identifier un auteur à l'aide des techniques de PNL dépend de plusieurs facteurs, notamment la longueur du texte, la particularité des styles d'écriture des auteurs et les techniques de PNL spécifiques utilisées. Alors que les textes plus longs fournissent généralement plus d'informations et nécessitent moins de mots pour une attribution précise, les textes plus courts peuvent nécessiter plus de mots pour obtenir des résultats fiables.