Crédit :CC0 Domaine Public
Une équipe de recherche dirigée par Luis Amaral de Northwestern Engineering a développé une approche algorithmique pour l'analyse des données qui reconnaît automatiquement les mots non informatifs, appelés mots vides, dans une grande collection de texte. Les résultats pourraient considérablement gagner du temps lors du traitement du langage naturel et réduire son empreinte énergétique.
"L'un des défis des approches d'apprentissage automatique et d'intelligence artificielle est que vous ne savez pas quelles données sont utiles à un algorithme et quelles données sont inutiles, " dit Amaral, Erastus Otis Haven Professeur de génie chimique et biologique à la McCormick School of Engineering. "En utilisant la théorie de l'information, nous avons créé un cadre qui révèle quels mots ne sont pas informatifs pour la tâche à accomplir."
Le problème avec les mots vides
L'une des techniques les plus couramment utilisées par les scientifiques des données dans le traitement du langage naturel est le modèle du sac de mots, qui analyse les mots d'un texte donné sans tenir compte de l'ordre dans lequel ils apparaissent. Pour rationaliser le processus, les chercheurs filtrent les mots vides, ceux qui n'ajoutent aucun contexte à l'analyse des données. De nombreuses listes de mots vides sont organisées manuellement par les chercheurs, ce qui les rend longs à développer et à entretenir et difficiles à généraliser à travers les langues et les disciplines.
"Imaginez que vous analysez des millions d'articles de blog et que vous voulez savoir à quel sujet chaque article aborde, " dit Amaral, qui codirige le Northwestern Institute on Complex Systems. « Vous filtreriez généralement les mots courants tels que « le » et « vous », ' qui ne fournissent aucune information sur le sujet."
Cependant, la majorité des mots qui ne sont pas utiles pour cette tâche spécifique dépendent de la langue et du domaine particulier du blog. "Pour une collection de blogs sur l'électronique, par exemple, il y a beaucoup de mots qui ne pourraient pas permettre à un algorithme de déterminer si un article de blog concerne l'informatique quantique ou les semi-conducteurs, " il ajouta.
Un cadre théorique de l'information
L'équipe de recherche a utilisé la théorie de l'information pour développer un modèle qui identifie plus précisément et efficacement les mots vides. Au cœur du modèle se trouve une métrique d'« entropie conditionnelle » qui quantifie la certitude d'un mot donné d'être informatif. Plus le mot est informatif, plus son entropie conditionnelle est faible. En comparant les valeurs observées et attendues de l'entropie conditionnelle, les chercheurs ont pu mesurer le contenu informatif de mots spécifiques.
Pour tester le modèle, les chercheurs ont comparé ses performances à des approches de modélisation thématiques courantes, qui déduit les mots les plus liés à un sujet donné en les comparant à d'autres textes de l'ensemble de données. Ce cadre a permis d'améliorer la précision et la reproductibilité des textes étudiés, tout en étant plus applicable à d'autres langues d'une manière simple. En outre, le système a atteint des performances optimales en utilisant beaucoup moins de données.
« En utilisant notre approche, nous pourrions filtrer 80 % ou plus des données et augmenter les performances des algorithmes existants pour la classification des sujets de corpus de texte, " dit Amaral. " En plus, en filtrant une grande partie des données, nous sommes en mesure de réduire considérablement la quantité de ressources de calcul nécessaires."
Au-delà du gain de temps, le système de filtrage pourrait conduire à des économies d'énergie à long terme, lutter contre l'impact négatif du calcul à grande échelle sur le changement climatique.
Un article décrivant le travail a été publié le 2 décembre dans la revue Nature Machine Intelligence . Amaral était co-auteur de l'article avec Martin Gerlach, un stagiaire postdoctoral dans le laboratoire d'Amaral.
Alors que l'analyse des chercheurs s'est limitée aux approches du sac de mots, Amaral est convaincu que son système pourrait être étendu pour tenir compte des caractéristiques structurelles supplémentaires du langage, y compris les phrases et les paragraphes.
En outre, puisque la théorie de l'information fournit un cadre général pour l'analyse de toute séquence de symboles, le système des chercheurs pourrait être applicable au-delà de l'analyse de texte, prenant en charge les méthodes de prétraitement pour l'analyse audio, des images, voire des gènes.
« Nous avons commencé à appliquer cette approche à l'analyse des données d'expériences mesurant des molécules d'ARN spécifiques d'un gène dans des cellules individuelles afin d'identifier automatiquement différents types de cellules, " a déclaré Gerlach. " Le filtrage des gènes non informatifs - considérez-les comme des " gènes d'arrêt " - est particulièrement prometteur pour augmenter la précision. Ces mesures sont beaucoup plus difficiles par rapport aux textes et les heuristiques actuelles ne sont pas aussi bien développées."