Crédit :CC0 Domaine public
Les informaticiens de l'Université Carnegie Mellon ont adopté une méthode d'apprentissage en profondeur qui a révolutionné la reconnaissance faciale et d'autres applications basées sur l'image ces dernières années et ont redirigé son pouvoir pour explorer la relation entre les gènes.
L'astuce, ils disent, est de transformer des quantités massives de données d'expression génique en quelque chose de plus semblable à une image. Réseaux de neurones convolutifs (CNN), qui sont aptes à analyser l'imagerie visuelle, peut alors déduire quels gènes interagissent les uns avec les autres. Les CNN surpassent les méthodes existantes pour cette tâche.
Le rapport des chercheurs sur la façon dont les CNN peuvent aider à identifier les gènes liés à la maladie et les voies de développement et génétiques qui pourraient être des cibles pour les médicaments est publié aujourd'hui dans le Actes de l'Académie nationale des sciences . Mais Ziv Bar-Joseph, professeur de biologie computationnelle et d'apprentissage automatique, dit les applications de la nouvelle méthode, appelé CNNC, pourrait aller bien au-delà des interactions génétiques.
La nouvelle idée décrite dans l'article suggère que CNNC pourrait être déployé de la même manière pour étudier la causalité dans une grande variété de phénomènes, y compris les données financières et les réseaux sociaux, dit Bar-Joseph, qui a co-écrit l'article avec Ye Yuan, chercheur post-doctoral au sein du département Machine Learning de la CMU.
« CNN, qui ont été développés il y a une décennie, sont révolutionnaires, " a déclaré Bar-Joseph. " Je suis toujours en admiration devant Google Photos, qui les utilise pour la reconnaissance faciale, " ajouta-t-il en faisant défiler les photos sur son smartphone, montrant comment l'application pouvait identifier son fils à différents âges, ou identifier son père sur la base d'une image de l'arrière droit de sa tête. "Nous tenons parfois cette technologie pour acquise car nous l'utilisons tout le temps. Mais elle est incroyablement puissante et ne se limite pas aux images. Tout dépend de la façon dont vous représentez vos données."
Dans ce cas, lui et Yuan étudiaient les relations génétiques. Les environ 20, 000 gènes chez l'homme travaillent de concert, il est donc nécessaire de savoir comment les gènes fonctionnent ensemble dans des complexes ou des réseaux pour comprendre le développement humain ou les maladies.
Une façon de déduire ces relations est d'examiner l'expression des gènes, qui représente les niveaux d'activité des gènes dans les cellules. Généralement, si le gène A est actif en même temps que le gène B est actif, c'est un indice que les deux interagissent, dit Yuan. Toujours, il est possible qu'il s'agisse d'une coïncidence ou que les deux soient activés par un troisième gène C. Plusieurs méthodes antérieures ont été développées pour démêler ces relations.
Utiliser des CNN pour aider à analyser les relations entre les gènes, Yuan et Bar-Joseph ont utilisé des données d'expression à cellule unique, des expériences qui peuvent déterminer le niveau de chaque gène dans une seule cellule. Les résultats de centaines de milliers de ces analyses monocellulaires ont ensuite été organisés sous la forme d'une matrice ou d'un histogramme de sorte que chaque cellule de la matrice représente un niveau différent de co-expression pour une paire de gènes.
Présenter les données de cette manière a ajouté un aspect spatial qui a rendu les données plus semblables à des images et, Donc, plus accessible aux CNN. En utilisant les données de gènes dont les interactions étaient déjà établies, les chercheurs ont pu entraîner les CNN à reconnaître quels gènes interagissaient et lesquels n'étaient pas basés sur les modèles visuels de la matrice de données, dit Yuan.
"Il est très, très difficile de distinguer causalité et corrélation, " Yuan a dit, mais la méthode CNNC s'est avérée statistiquement plus précise que les méthodes existantes. Lui et Bar-Joseph prévoient que CNNC sera l'une des nombreuses techniques que les chercheurs finiront par déployer dans l'analyse de grands ensembles de données.
"C'est une méthode très générale qui pourrait être appliquée à un certain nombre d'analyses, " a déclaré Bar-Joseph. La principale limitation réside dans les données - plus il y a de données, les meilleurs CNN fonctionnent. La biologie cellulaire est bien adaptée à l'utilisation de CNNC, car une expérience typique peut impliquer des dizaines de milliers de cellules et générer une quantité massive de données.