Les chercheurs du MIT ont développé un modèle de réseau neuronal qui peut analyser le texte brut et les données audio des entretiens pour découvrir des schémas vocaux révélateurs de dépression. Cette méthode pourrait être utilisée pour développer des aides au diagnostic pour les cliniciens qui peuvent détecter des signes de dépression dans une conversation naturelle. Crédit :Massachusetts Institute of Technology
Pour diagnostiquer la dépression, les cliniciens interrogent les patients, poser des questions spécifiques—à propos de, dire, maladies mentales passées, mode de vie, et l'humeur et identifier la condition en fonction des réponses du patient.
Dans les années récentes, l'apprentissage automatique a été défendu comme une aide utile pour le diagnostic. Modèles d'apprentissage automatique, par exemple, ont été développés qui peuvent détecter les mots et les intonations de la parole qui peuvent indiquer la dépression. Mais ces modèles tendent à prédire qu'une personne est déprimée ou non, en fonction des réponses spécifiques de la personne à des questions spécifiques. Ces méthodes sont précises, mais leur dépendance vis-à-vis du type de question posée limite comment et où elles peuvent être utilisées.
Dans un article présenté à la conférence Interspeech, Les chercheurs du MIT détaillent un modèle de réseau de neurones qui peut être déclenché à partir de données textuelles et audio brutes provenant d'entretiens pour découvrir des schémas vocaux révélateurs de dépression. Étant donné un nouveau sujet, il peut prédire avec précision si l'individu est déprimé, sans avoir besoin d'autres informations sur les questions et les réponses.
Les chercheurs espèrent que cette méthode pourra être utilisée pour développer des outils permettant de détecter des signes de dépression dans une conversation naturelle. À l'avenir, le modèle pourrait, par exemple, alimentez les applications mobiles qui surveillent le texte et la voix d'un utilisateur pour détecter la détresse mentale et envoient des alertes. Cela pourrait être particulièrement utile pour ceux qui ne peuvent pas consulter un clinicien pour un diagnostic initial, en raison de la distance, Coût, ou un manque de conscience que quelque chose ne va pas.
"Les premiers indices que nous avons qu'une personne est heureuse, excité, triste, ou a un problème cognitif grave, comme la dépression, est à travers leur discours, " dit le premier auteur Tuka Alhanai, chercheur au Laboratoire d'Informatique et d'Intelligence Artificielle (CSAIL). "Si vous voulez déployer des modèles [depression-detection] de manière évolutive… vous voulez minimiser la quantité de contraintes que vous avez sur les données que vous utilisez. Vous voulez le déployer dans n'importe quelle conversation régulière et faire reprendre le modèle, de l'interaction naturelle, l'état de l'individu."
La technologie pourrait encore, bien sûr, être utilisé pour identifier la détresse mentale dans les conversations informelles dans les bureaux cliniques, ajoute le co-auteur James Glass, chercheur principal au CSAIL. "Chaque patient parlera différemment, et si le modèle voit des changements, ce sera peut-être un signal pour les médecins, " dit-il. " C'est un pas en avant pour voir si nous pouvons faire quelque chose d'aide pour aider les cliniciens. "
L'autre co-auteur de l'article est Mohammad Ghassemi, membre de l'Institute for Medical Engineering and Science (IMES).
Modélisation sans contexte
L'innovation clé du modèle réside dans sa capacité à détecter des schémas révélateurs de dépression, puis mapper ces modèles à de nouveaux individus, sans aucune information supplémentaire. "Nous l'appelons 'sans contexte, ' parce que vous n'imposez aucune contrainte quant aux types de questions que vous recherchez et au type de réponses à ces questions, " dit Alhanai.
D'autres modèles sont fournis avec un ensemble spécifique de questions, et ensuite donné des exemples de la façon dont une personne sans dépression réagit et des exemples de la façon dont une personne souffrant de dépression réagit, par exemple, l'enquête simple, « Avez-vous des antécédents de dépression ? » Il utilise ces réponses exactes pour ensuite déterminer si un nouvel individu est déprimé lorsqu'on lui pose exactement la même question. "Mais ce n'est pas ainsi que fonctionnent les conversations naturelles, " dit Alhanai.
Les chercheurs, d'autre part, utilisé une technique appelée modélisation de séquence, souvent utilisé pour le traitement de la parole. Avec cette technique, ils ont alimenté les séquences modèles de données textuelles et audio à partir de questions et réponses, des individus déprimés et non déprimés, un par un. Au fur et à mesure que les séquences s'accumulent, le modèle a extrait les modèles de discours qui ont émergé pour les personnes avec ou sans dépression. Des mots tels que, dire, "triste, " "meugler, " ou " vers le bas, " peut être associé à des signaux audio plus plats et plus monotones. Les personnes souffrant de dépression peuvent également parler plus lentement et utiliser des pauses plus longues entre les mots. Ces identificateurs textuels et audio pour la détresse mentale ont été explorés dans des recherches antérieures. Cela dépendait finalement du modèle pour déterminer si des modèles étaient prédictifs de dépression ou non.
"Le modèle voit des séquences de mots ou de style de parole, et détermine que ces modèles sont plus susceptibles d'être observés chez les personnes déprimées ou non déprimées, " dit Alhanai. " Alors, s'il voit les mêmes séquences dans de nouveaux sujets, il peut prédire s'ils sont déprimés aussi."
Cette technique de séquençage aide également le modèle à examiner la conversation dans son ensemble et à noter les différences entre la façon dont les personnes avec et sans dépression parlent au fil du temps.
Détecter la dépression
Les chercheurs ont formé et testé leur modèle sur un ensemble de données de 142 interactions du Distress Analysis Interview Corpus qui contient de l'audio, texte, et des interviews vidéo de patients souffrant de problèmes de santé mentale et d'agents virtuels contrôlés par des humains. Chaque sujet est noté en termes de dépression sur une échelle de 0 à 27, à l'aide du questionnaire de santé personnel. Les scores supérieurs à un seuil entre modéré (10 à 14) et modérément sévère (15 à 19) sont considérés comme déprimés, tandis que tous les autres en dessous de ce seuil sont considérés comme non déprimés. Parmi tous les sujets de l'ensemble de données, 28 (20 %) sont étiquetés comme déprimés.
Dans les expériences, le modèle a été évalué à l'aide de métriques de précision et de rappel. Mesures de précision lesquels des sujets déprimés identifiés par le modèle ont été diagnostiqués comme déprimés. Le rappel mesure la précision du modèle dans la détection de tous les sujets diagnostiqués comme déprimés dans l'ensemble de données. En précision, the model scored 71 percent and, on recall, scored 83 percent. The averaged combined score for those metrics, considering any errors, was 77 percent. In the majority of tests, the researchers' model outperformed nearly all other models.
One key insight from the research, Alhanai notes, is that, during experiments, the model needed much more data to predict depression from audio than text. With text, the model can accurately detect depression using an average of seven question-answer sequences. With audio, the model needed around 30 sequences. "That implies that the patterns in words people use that are predictive of depression happen in shorter time span in text than in audio, " Alhanai says. Such insights could help the MIT researchers, and others, further refine their models.
This work represents a "very encouraging" pilot, Glass says. But now the researchers seek to discover what specific patterns the model identifies across scores of raw data. "Right now it's a bit of a black box, " Glass says. "These systems, cependant, are more believable when you have an explanation of what they're picking up. … The next challenge is finding out what data it's seized upon."
The researchers also aim to test these methods on additional data from many more subjects with other cognitive conditions, such as dementia. "It's not so much detecting depression, but it's a similar concept of evaluating, from an everyday signal in speech, if someone has cognitive impairment or not, " Alhanai says.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.