• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Un réseau de neurones pour extraire des extraits et des documents bien informés

    Structure du modèle proposé. Crédit :Zhou et al.

    Tous les jours, des millions d'articles sont publiés sur les réseaux sociaux et autres plateformes, recevoir une grande quantité de clics et de partages d'utilisateurs naviguant sur le Web. Beaucoup de ces articles contiennent des informations utiles qui, si extrait, pourrait être utilisé pour compiler des bases de données de connaissances ou pour fournir des services de récupération de connaissances et de réponses aux questions.

    Des chercheurs de l'Académie chinoise des sciences (CAS) ont développé un modèle basé sur un réseau de neurones convolutifs (CNN) pour extraire des extraits de code et annoter des documents. Leur méthode, décrit dans un article prépublié sur arXiv, s'est avéré plus performant que les outils existants, malgré une formation plus courte.

    Dans leur papier, les chercheurs définissent le terme "document bien informé" comme "un document contenant plusieurs extraits bien informés, qui décrivent des concepts, propriétés des entités, ou les relations entre les entités." Jusqu'à présent, la plupart des bases de connaissances, tels que YAGO ou DBpedia, extraire des connaissances basées sur Wikipédia, WordNet, GéoNoms, et d'autres ressources en ligne. Cependant, par rapport aux plateformes de médias sociaux, ces ressources contiennent souvent des informations limitées et inflexibles.

    "Une autre base de connaissances récente, Probase, avec 2,7 millions de concepts, a été automatiquement exploité à partir du plus grand corpus jusqu'à présent, composé de 326 millions de phrases bien informées extraites de 1,68 milliard de pages Web, " les chercheurs ont écrit dans leur article. " Cependant, ces phrases ne sont extraites que par les motifs de Hearst. Pour extraire des extraits plus informés afin de construire des bases de connaissances plus complètes, des méthodes basées sur la sémantique sont nécessaires pour compléter les précédentes basées sur des modèles. »

    Exemple de document bien informé. Les phrases bleues et rouges sont respectivement des extraits bien informés et non connus. Le document présente les 25 conseils pour l'achat de biens immobiliers. Crédit :Zhou et al.

    Des extraits et des articles bien informés pourraient également être utilisés pour développer des services de récupération de connaissances et de réponses aux questions. Ces services seraient, par exemple, répondre aux questions posées par les utilisateurs qui recherchent de l'aide pour un problème particulier. Avec ces applications à l'esprit, les chercheurs du CAS ont entrepris de développer un modèle basé sur CNN qui peut analyser la sémantique d'un document, déterminer s'il est bien informé ou non, et en extraire des extraits d'informations bien informés.

    "Spécifiquement, nous proposons SSNN, un modèle commun basé sur CNN, comprendre le concept abstrait de documents dans différents domaines de manière collaborative et juger si un document est bien informé ou non, " expliquent les chercheurs dans leur article. " Plus en détail, la structure du réseau de SSNN est « partage de bas niveau, Fractionnement de haut niveau, " dans lequel les couches de bas niveau sont partagées pour différents domaines tandis que les couches de haut niveau au-delà du CNN sont entraînées séparément pour percevoir les différences de différents domaines. "

    Le modèle conçu par les chercheurs offre une solution de bout en bout pour annoter des documents qui n'implique pas une ingénierie de fonctionnalités étendue et fastidieuse. Ils ont également développé des fonctionnalités manuelles et formé un modèle de classificateur SVM pour accomplir la tâche.

    Exemple de document bien informé. Les phrases bleues et rouges sont respectivement des extraits bien informés et non connus. Le document présente les compétences de virage de la conduite. Crédit :Zhou et al.

    Les chercheurs ont évalué l'efficacité de leur modèle sur un ensemble de données de documents réels de trois domaines de contenu sur WeChat, une messagerie chinoise, plateforme de médias sociaux et de paiement mobile développée par Tencent. Leurs découvertes étaient très prometteuses, avec le SSNN toujours plus performant que les autres modèles CNN, tout en économisant du temps et de la mémoire grâce à des processus d'entraînement plus courts et plus efficaces.

    « Par rapport à la création de plusieurs CNN spécifiques à un domaine, ce modèle commun permet non seulement d'économiser du temps de formation, mais améliore également visiblement la précision de la prédiction, ", écrivent les chercheurs dans leur article. "La supériorité du modèle proposé est démontrée dans un ensemble de données réel des plateformes publiques Wechat."

    Dans le futur, le modèle SSNN proposé dans cette étude pourrait être utilisé pour construire des bases de données de connaissances plus complètes. Il pourrait également aider au développement de services innovants qui répondent aux requêtes des utilisateurs de manière à la fois rapide et exhaustive en temps réel.

    © 2018 Tech Xplore




    © Science https://fr.scienceaq.com