• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Un réseau de neurones qui trouve en toute sécurité des médicaments potentiels pourrait encourager la mise en commun à grande échelle de données sensibles

    L'IA servira à développer un système de contrôle de réseau qui non seulement détecte et réagit aux problèmes, mais peut également les prévoir et les éviter. Crédit :CC0 Domaine public

    Des chercheurs du MIT ont développé un système cryptographique qui pourrait aider les réseaux de neurones à identifier des candidats-médicaments prometteurs dans des ensembles de données pharmacologiques massifs, tout en gardant les données privées. Des calculs sécurisés effectués à une échelle aussi massive pourraient permettre une large mise en commun de données pharmacologiques sensibles pour la découverte prédictive de médicaments.

    Ensembles de données d'interactions médicament-cible (DTI), qui montrent si les composés candidats agissent sur les protéines cibles, sont essentiels pour aider les chercheurs à développer de nouveaux médicaments. Les modèles peuvent être formés pour analyser des ensembles de données de DTI connus, puis, en utilisant ces informations, trouver de nouveaux candidats médicaments.

    Dans les années récentes, firmes pharmaceutiques, les universités, et d'autres entités sont devenues ouvertes à la mise en commun des données pharmacologiques dans des bases de données plus grandes qui peuvent grandement améliorer la formation de ces modèles. En raison de questions de propriété intellectuelle et d'autres problèmes de confidentialité, cependant, ces ensembles de données restent limités dans leur portée. Les méthodes de cryptographie pour sécuriser les données sont si gourmandes en calculs qu'elles ne s'adaptent pas bien aux ensembles de données au-delà, dire, des dizaines de milliers de DTI, ce qui est relativement petit.

    Dans un article publié en Science , Des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT décrivent un réseau de neurones formé et testé en toute sécurité sur un ensemble de données de plus d'un million de DTI. Le réseau s'appuie sur des outils cryptographiques modernes et des techniques d'optimisation pour préserver la confidentialité des données d'entrée, tout en fonctionnant rapidement et efficacement à grande échelle.

    Les expériences de l'équipe montrent que le réseau fonctionne plus rapidement et avec plus de précision que les approches existantes ; il peut traiter des ensembles de données massifs en quelques jours, alors que d'autres cadres cryptographiques prendraient des mois. De plus, le réseau a identifié plusieurs nouvelles interactions, dont un entre l'imatinib, un médicament contre la leucémie et une enzyme ErbB4 - dont des mutations ont été associées au cancer - qui pourrait avoir une signification clinique.

    « Les gens se rendent compte qu'ils doivent mettre en commun leurs données pour accélérer considérablement le processus de découverte de médicaments et nous permettre, ensemble, faire des progrès scientifiques dans la résolution de maladies humaines importantes, comme le cancer ou le diabète. Mais ils n'ont pas de bonnes façons de le faire, " dit l'auteur correspondant Bonnie Berger, le professeur Simons de mathématiques et chercheur principal au CSAIL. "Avec ce travail, nous offrons à ces entités un moyen de mutualiser et d'analyser efficacement leurs données à très grande échelle."

    Les co-premiers auteurs Brian Hie et Hyunghoon Cho se joignent à Berger sur le papier, à la fois des étudiants diplômés en génie électrique et en informatique et des chercheurs du groupe de calcul et de biologie du CSAIL.

    Données de « partage secret »

    Le nouvel article s'appuie sur les travaux antérieurs des chercheurs sur la protection de la confidentialité des patients dans les études génomiques, qui trouvent des liens entre des variantes génétiques particulières et l'incidence de la maladie. Que les données génomiques pourraient potentiellement révéler des informations personnelles, les patients peuvent donc être réticents à s'inscrire aux études. Dans ce travail, Berger, Cho, et un ancien doctorat de l'Université de Stanford. l'étudiant a développé un protocole basé sur un cadre de cryptographie appelé « partage de secret, " qui analyse de manière sécurisée et efficace des ensembles de données d'un million de génomes. En revanche, les propositions existantes ne pouvaient traiter que quelques milliers de génomes.

    Le partage secret est utilisé dans le calcul multipartite, où les données sensibles sont divisées en "partages" séparés entre plusieurs serveurs. Tout au long du calcul, chaque partie n'aura toujours que sa part des données, qui apparaît totalement aléatoire. Collectivement, cependant, les serveurs peuvent toujours communiquer et effectuer des opérations utiles sur les données privées sous-jacentes. A la fin du calcul, lorsqu'un résultat est nécessaire, les parties combinent leurs parts pour révéler le résultat.

    « Nous avons utilisé nos travaux antérieurs comme base pour appliquer le partage de secrets au problème de la collaboration pharmacologique, mais cela n'a pas fonctionné tout de suite, " dit Berger.

    Une innovation clé a été de réduire les calculs nécessaires à la formation et aux tests. Les modèles prédictifs de découverte de médicaments existants représentent les structures chimiques et protéiques des DTI sous forme de graphiques ou de matrices. Ces approches, cependant, échelle quadratique, ou au carré, avec le nombre de DTI dans l'ensemble de données. Essentiellement, le traitement de ces représentations devient extrêmement gourmand en calculs à mesure que la taille de l'ensemble de données augmente. « Bien que cela puisse convenir pour travailler avec les données brutes, si vous essayez cela en calcul sécurisé, c'est infaisable, " Hie dit.

    Les chercheurs ont plutôt formé un réseau de neurones qui repose sur des calculs linéaires, qui évoluent beaucoup plus efficacement avec les données. "Nous avions absolument besoin d'évolutivité, parce que nous essayons de fournir un moyen de regrouper des données [dans] des ensembles de données beaucoup plus volumineux, " dit Cho.

    Les chercheurs ont formé un réseau de neurones sur l'ensemble de données STITCH, qui compte 1,5 million de DTI, ce qui en fait le plus grand ensemble de données accessible au public de son genre. Dans la formation, le réseau code pour chaque composé médicamenteux et structure protéique sous la forme d'une simple représentation vectorielle. Cela condense essentiellement les structures compliquées en 1 et en 0 qu'un ordinateur peut facilement traiter. A partir de ces vecteurs, le réseau apprend alors les modèles d'interactions et de non-interactions. Nourrir de nouvelles paires de composés et de structures protéiques, le réseau prédit alors s'ils vont interagir.

    Le réseau a également une architecture optimisée pour l'efficacité et la sécurité. Chaque couche d'un réseau de neurones nécessite une fonction d'activation qui détermine comment envoyer les informations à la couche suivante. Dans leur réseau, les chercheurs ont utilisé une fonction d'activation efficace appelée unité linéaire rectifiée (ReLU). Cette fonction ne nécessite qu'un seul, comparaison numérique sécurisée d'une interaction pour déterminer s'il faut envoyer (1) ou non (0) les données à la couche suivante, tout en ne révélant jamais rien sur les données réelles. Cette opération peut être plus efficace en calcul sécurisé par rapport à des fonctions plus complexes, il réduit donc la charge de calcul tout en garantissant la confidentialité des données.

    « La raison qui est importante est que nous voulons le faire dans le cadre du partage de secrets … et nous ne voulons pas augmenter la surcharge de calcul, " dit Berger. Au final, "aucun paramètre du modèle n'est révélé et toutes les données d'entrée—les médicaments, cibles, et les interactions - sont gardées privées. "

    Trouver des interactions

    Les chercheurs ont opposé leur réseau à plusieurs technologies de pointe, modèles en clair (non cryptés) sur une partie des DTI connus de DrugBank, un ensemble de données populaire contenant environ 2, 000 DTI. En plus de garder les données privées, le réseau des chercheurs a surpassé tous les modèles en termes de précision de prédiction. Seuls deux modèles de base pourraient raisonnablement s'adapter à l'ensemble de données STITCH, et le modèle des chercheurs a atteint presque le double de la précision de ces modèles.

    Les chercheurs ont également testé des paires médicament-cible sans interactions répertoriées dans STITCH, et a trouvé plusieurs interactions médicamenteuses cliniquement établies qui n'étaient pas répertoriées dans la base de données mais devraient l'être. Dans le journal, les chercheurs énumèrent les prédictions les plus fortes, comprenant :droloxifène et un récepteur d'oestrogène, qui a atteint les essais cliniques de phase III en tant que traitement du cancer du sein ; et le séocalcitol et un récepteur de vitamine D pour traiter d'autres cancers. Cho et Hie ont validé indépendamment les nouvelles interactions les plus performantes via des organismes de recherche sous contrat.

    Prochain, les chercheurs travaillent avec des partenaires pour établir leur pipeline de collaboration dans un environnement réel. « Nous sommes intéressés à mettre en place un environnement de calcul sécurisé, afin que nous puissions exécuter notre protocole sécurisé avec des données réelles, " dit Cho.

    Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.




    © Science https://fr.scienceaq.com