Dans un récent Avis sur les produits chimiques article, Des chercheurs espagnols ont publié la première révision exhaustive des méthodologies de pointe sous-jacentes aux moteurs de recherche chimique, systèmes de reconnaissance d'entités nommées et d'exploration de texte.
Le domaine en pleine croissance des applications du Big Data dans la recherche biomédicale, ainsi que l'utilisation des technologies d'apprentissage automatique et d'intelligence artificielle pour l'exploration de données textuelles, a abouti à des outils prometteurs. Les auteurs écrivent, "Cette revue est organisée pour servir de guide pratique aux chercheurs entrant dans ce domaine mais aussi pour les aider à envisager les prochaines étapes dans ce domaine émergent de la science des données."
"Grâce à la publication d'ensembles de données Gold Standard et à l'organisation de plusieurs événements de référence de défi communautaire, la Biological Text Mining Unit a joué un rôle essentiel dans le développement et l'évaluation des systèmes actuels de text mining chimique, comme souligné dans cet article, " explique Martin Krallinger, chef d'unité et co-premier auteur de la revue.
Une énorme quantité de données non structurées
Une fraction considérable des données pertinentes sur le plan biomédical n'est disponible que sous la forme de données non structurées. Ce type de données comprend une littérature scientifique en croissance rapide, brevets de chimie médicinale, dossiers de santé électroniques et documents d'essais cliniques. En réalité, chaque année, plus de 20, 000 nouveaux composés sont publiés dans des revues de chimie médicinale et biologique.
Être capable de transformer des données de recherche biomédicale non structurées en bases de données structurées qui peuvent être traitées plus efficacement par des machines ou interrogées par des humains est essentiel pour une gamme d'applications hétérogènes. Il s'agit notamment de l'identification de nouvelles cibles médicamenteuses et de sondes chimiques pour valider/rejeter ces nouvelles cibles potentielles, réaffectation de médicaments approuvés, l'identification d'événements médicamenteux indésirables ou la récupération de la biologie des systèmes associée à des réseaux de maladies chimiques ou de gènes chimiques.
En tant que stratégie thérapeutique pour traiter les besoins médicaux, les composés chimiques constituent un type d'entité clé d'une importance critique pour la recherche biomédicale. « La construction de grandes bases de connaissances chimiques, intégrer les informations chimiques aux données biologiques et cliniques, est crucial pour identifier et valider de nouvelles cibles thérapeutiques pour des besoins médicaux non satisfaits ainsi que pour accélérer le processus de découverte de médicaments, " dit Julen Oyarzabal, directeur des sciences translationnelles au CIMA et co-responsable de ce rapport.