Bioteque est une ressource de descripteurs pour différentes entités biologiques. En parcourant ce graphe de connaissances à travers des entités et des relations spécifiques, nous avons exploré plus de 1000 chemins (alias métachemins) qui ont été encodés en vecteurs numériques et mis à la disposition de la communauté. Crédit :IRB Barcelone
Le développement rapide des différentes disciplines dans les domaines de la recherche biologique et biomédicale (comme la génomique, la protéomique et la transcriptomique) au cours des dernières décennies a conduit à une croissance exponentielle de la quantité de données biologiques disponibles. Par exemple, à l'Institut européen de bioinformatique (EMBL-EBI), ils sont passés de la gestion d'un volume de 40 pétaoctets à travailler avec 250 pétaoctets en seulement 6 ans.
Des scientifiques dirigés par le Dr Patrick Aloy, chercheur à l'ICREA et responsable du laboratoire de bioinformatique structurale et de biologie des réseaux à l'IRB de Barcelone, ont développé un outil informatique pour harmoniser, intégrer et simplifier ces données. Le résultat est un graphe de connaissances qui fournit des informations sur la façon dont différentes entités biologiques sont liées les unes aux autres, y compris plus de 30 millions d'interactions fonctionnelles.
La Bioteque fonctionne en intégrant différents niveaux de complexité biologique et peut ainsi rendre compte, par exemple, sur deux gènes qui sont liés, s'ils interagissent physiquement, s'ils sont actifs dans le même type de cellules, et s'ils sont liés à la même maladie . Il peut également prédire la sensibilité ou la résistance d'un type de cellule à un médicament spécifique.
"Cette ressource informatique que nous avons développée est l'une des premières visant à unifier l'information biologique et c'est la seule à aborder une telle diversité et quantité de données. Elle permet d'accéder, de manière simple et harmonisée, à pratiquement toutes les connaissances biologiques actuellement disponible, et il a un énorme potentiel pour accélérer la recherche biomédicale », explique Aloy.
Illustrant 4 descripteurs différents pour 4 types d'entités biologiques. Crédit :IRB Barcelone
Près de 1 000 descripteurs pour 12 entités biologiques
L'information contenue dans la Biothèque est structurée en 12 types d'entités biologiques, telles que gène, maladie, tissu, cellule, etc. Pour chacune de ces entités, l'outil considère une série de descripteurs ou de caractéristiques, par exemple, le modèle de mutations d'un gène, le profil des interactions physiques des protéines résultantes, l'expression dudit gène dans différents types cellulaires, ou sa relation avec différentes maladies. Parmi les 12 entités biologiques, le système couvre environ 1 000 types de descripteurs.
"Nous avons travaillé avec des informations provenant de 150 bases de données différentes, donc nous avons d'abord dû les intégrer, c'est-à-dire les mettre toutes dans le même 'langage'. Et puis nous avons converti ces connaissances en descripteurs numériques pouvant être interprétés par des algorithmes, et cela façon dont nous pourrions exploiter informatiquement ces réseaux et connexions », conclut Adrià Fernández, premier auteur de l'article et doctorant dans le même laboratoire.
Trois groupes sont mis en évidence où les maladies et leurs traitements sont associés. Crédit :IRB Barcelone
La Bioteque s'enrichira périodiquement de nouvelles bases de données, au fur et à mesure qu'elles seront rendues publiques. L'outil, les bases de données et les algorithmes sont en libre accès et disponibles en ligne.
La recherche a été publiée dans Nature Communications . L'apprentissage automatique profond complète les informations sur un million de molécules bioactives