Un nouveau modèle développé par le MIT automatise une étape critique de l'utilisation de l'IA pour la prise de décision médicale, où les experts identifient généralement à la main les caractéristiques importantes dans des ensembles de données de patients volumineux. Le modèle a été capable d'identifier automatiquement les modèles de voix des personnes présentant des nodules des cordes vocales (illustrés ici) et, à son tour, utilisez ces caractéristiques pour prédire quelles personnes souffrent ou non du trouble. Crédit : Institut de technologie du Massachusetts
Les informaticiens du MIT espèrent accélérer l'utilisation de l'intelligence artificielle pour améliorer la prise de décision médicale, en automatisant une étape clé qui est généralement effectuée à la main, et cela devient de plus en plus laborieux à mesure que certains ensembles de données deviennent de plus en plus volumineux.
Le domaine de l'analyse prédictive est de plus en plus prometteur pour aider les cliniciens à diagnostiquer et à traiter les patients. Les modèles d'apprentissage automatique peuvent être entraînés pour trouver des modèles dans les données des patients afin de faciliter les soins de la septicémie, concevoir des schémas de chimiothérapie plus sûrs, et prédire le risque d'un patient d'avoir un cancer du sein ou de mourir à l'USI, pour ne citer que quelques exemples.
Typiquement, les ensembles de données d'entraînement se composent de nombreux sujets malades et en bonne santé, mais avec relativement peu de données pour chaque sujet. Les experts doivent ensuite trouver uniquement ces aspects - ou " caractéristiques " - dans les ensembles de données qui seront importants pour faire des prédictions.
Cette « ingénierie des caractéristiques » peut être un processus laborieux et coûteux. Mais cela devient encore plus difficile avec l'essor des capteurs portables, parce que les chercheurs peuvent surveiller plus facilement la biométrie des patients sur de longues périodes, suivi des habitudes de sommeil, démarche, et l'activité vocale, par exemple. Après seulement une semaine de surveillance, les experts pourraient disposer de plusieurs milliards d'échantillons de données pour chaque sujet.
Dans un article présenté cette semaine à la conférence Machine Learning for Healthcare, Les chercheurs du MIT démontrent un modèle qui apprend automatiquement les caractéristiques prédictives des troubles des cordes vocales. Les caractéristiques proviennent d'un ensemble de données d'environ 100 sujets, chacun avec environ une semaine de données de surveillance vocale et plusieurs milliards d'échantillons, en d'autres termes, un petit nombre de sujets et une grande quantité de données par sujet. L'ensemble de données contient des signaux capturés à partir d'un petit capteur accéléromètre monté sur le cou des sujets.
Dans les expériences, le modèle a utilisé des caractéristiques extraites automatiquement de ces données pour les classer, avec une grande précision, patients avec et sans nodules des cordes vocales. Ce sont des lésions qui se développent dans le larynx, souvent à cause de schémas d'abus de voix tels que chanter des chansons ou crier. Surtout, le modèle a accompli cette tâche sans un grand nombre de données étiquetées à la main.
« Il devient de plus en plus facile de collecter de longs ensembles de données de séries chronologiques. Mais vous avez des médecins qui doivent appliquer leurs connaissances pour étiqueter l'ensemble de données, " dit l'auteur principal Jose Javier Gonzalez Ortiz, un doctorat étudiant au Laboratoire d'Informatique et d'Intelligence Artificielle du MIT (CSAIL). "Nous voulons supprimer cette partie manuelle pour les experts et décharger toute l'ingénierie des fonctionnalités vers un modèle d'apprentissage automatique."
Le modèle peut être adapté pour apprendre les modèles de toute maladie ou condition. Mais la capacité de détecter les modèles d'utilisation quotidienne de la voix associés aux nodules des cordes vocales est une étape importante dans le développement de méthodes améliorées pour prévenir, diagnostiquer, et traiter le trouble, disent les chercheurs. Cela pourrait inclure la conception de nouvelles façons d'identifier et d'alerter les gens sur les comportements vocaux potentiellement dommageables.
Rejoindre Gonzalez Ortiz sur le papier est John Guttag, le professeur Dugald C. Jackson d'informatique et de génie électrique et chef du groupe d'inférence axée sur les données du CSAIL; Robert Hillman, Jarrad Van Stan, et Daryush Mehta, l'ensemble du Centre de chirurgie laryngée et de réadaptation vocale du Massachusetts General Hospital ; et Marzyeh Ghassemi, professeur adjoint d'informatique et de médecine à l'Université de Toronto.
Apprentissage forcé des fonctionnalités
Pendant des années, les chercheurs du MIT ont travaillé avec le Center for Laryngeal Surgery and Voice Rehabilitation pour développer et analyser les données d'un capteur afin de suivre l'utilisation de la voix du sujet pendant toutes les heures d'éveil. Le capteur est un accéléromètre avec un nœud qui colle au cou et est connecté à un smartphone. Pendant que la personne parle, le smartphone recueille les données des déplacements dans l'accéléromètre.
Dans leur travail, les chercheurs ont collecté une semaine de ces données - appelées données de "séries temporelles" - auprès de 104 sujets, dont la moitié ont reçu un diagnostic de nodules des cordes vocales. Pour chaque patient, il y avait aussi un contrôle correspondant, c'est-à-dire un sujet sain du même âge, sexe, Occupation, et d'autres facteurs.
Traditionnellement, les experts auraient besoin d'identifier manuellement les caractéristiques qui peuvent être utiles pour qu'un modèle détecte diverses maladies ou conditions. Cela permet d'éviter un problème d'apprentissage automatique courant dans les soins de santé :le surapprentissage. C'est quand, dans la formation, un modèle « mémorise » les données du sujet au lieu d'apprendre uniquement les caractéristiques cliniquement pertinentes. En test, ces modèles ne parviennent souvent pas à discerner des schémas similaires chez des sujets jamais vus auparavant.
"Au lieu d'apprendre des caractéristiques cliniquement significatives, un modèle voit des modèles et dit, "C'est Sarah, et je sais que Sarah est en bonne santé, et voici Pierre, qui a un nodule des cordes vocales. c'est juste mémoriser des modèles de sujets. Puis, quand il voit les données d'Andrew, qui a un nouveau modèle d'utilisation vocale, il ne peut pas déterminer si ces modèles correspondent à une classification, ", dit Gonzalez Ortiz.
Le défi principal, alors, empêchait le surapprentissage tout en automatisant l'ingénierie manuelle des fonctionnalités. À cette fin, les chercheurs ont forcé le modèle à apprendre des caractéristiques sans informations sur le sujet. Pour leur tâche, cela signifiait capturer tous les moments où les sujets parlent et l'intensité de leurs voix.
Alors que leur modèle parcourt les données d'un sujet, il est programmé pour localiser les segments d'harmonisation, qui ne représentent qu'environ 10 pour cent des données. Pour chacune de ces fenêtres d'harmonisation, le modèle calcule un spectrogramme, une représentation visuelle du spectre de fréquences variant dans le temps, qui est souvent utilisé pour les tâches de traitement de la parole. Les spectrogrammes sont ensuite stockés sous forme de grandes matrices de milliers de valeurs.
Mais ces matrices sont énormes et difficiles à traiter. Donc, un auto-encodeur, un réseau de neurones optimisé pour générer des codages de données efficaces à partir de grandes quantités de données, compresse d'abord le spectrogramme en un codage de 30 valeurs. Il décompresse ensuite cet encodage dans un spectrogramme séparé.
Essentiellement, le modèle doit garantir que le spectrogramme décompressé ressemble étroitement à l'entrée du spectrogramme d'origine. Ce faisant, il est obligé d'apprendre la représentation compressée de chaque entrée de segment de spectrogramme sur l'ensemble des données de la série chronologique de chaque sujet. Les représentations compressées sont les fonctionnalités qui aident à former des modèles d'apprentissage automatique pour faire des prédictions.
Cartographie des caractéristiques normales et anormales
Dans la formation, le modèle apprend à mapper ces caractéristiques sur des « patients » ou des « contrôles ». Les patients auront plus de modèles de voisement que les témoins. En testant sur des sujets inédits, le modèle condense de la même manière tous les segments de spectrogramme en un ensemble réduit de caractéristiques. Puis, ce sont les règles de la majorité :si le sujet a des segments de voix pour la plupart anormaux, ils sont classés comme patients; s'ils en ont pour la plupart des normales, ils sont classés comme contrôles.
Dans les expériences, le modèle a été aussi précis que les modèles de pointe qui nécessitent une ingénierie manuelle des fonctionnalités. Surtout, le modèle des chercheurs a fonctionné avec précision à la fois dans la formation et les tests, indiquant qu'il apprend des modèles cliniquement pertinents à partir des données, pas d'informations spécifiques au sujet.
Prochain, les chercheurs veulent surveiller l'impact de divers traitements, tels que la chirurgie et la thérapie vocale, sur le comportement vocal. Si les comportements des patients passent d'anormal à normal au fil du temps, ils s'améliorent très probablement. Ils espèrent également utiliser une technique similaire sur les données d'électrocardiogramme, qui est utilisé pour suivre les fonctions musculaires du cœur.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.