• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Lutter contre le retard de déclaration du cancer en Afrique du Sud grâce à l'apprentissage automatique

    Wahida Saib. Crédit :IBM

    Les registres du cancer contiennent des ensembles de données vitales, gardé étroitement crypté, contenant des informations démographiques, antécédents médicaux, diagnostique et thérapeutique. Les oncologues et les responsables de la santé accèdent aux données pour comprendre les cas de cancer diagnostiqués et les taux d'incidence à l'échelle nationale. Le but ultime est d'utiliser ces données pour éclairer les programmes de planification et d'intervention en santé publique. Bien que les mises à jour en temps réel ne soient pas pratiques, des retards de plusieurs années rendent difficile pour les responsables de comprendre l'impact du cancer dans le pays et d'allouer les ressources en conséquence.

    Les rapports de pathologie non structurés contiennent des données spécifiques aux tumeurs et sont la principale source d'informations collectées par les registres du cancer. Les experts humains étiquettent les rapports de pathologie en utilisant les codes de la Classification internationale des maladies pour l'oncologie (CIM-O) couvrant 42 types de cancer différents. La combinaison de processus manuels et l'ampleur des rapports reçus annuellement entraînent un décalage de quatre ans pour le pays. En comparaison, il y a près de deux ans de retard aux États-Unis.

    En 2016, lorsque nous avons inauguré notre nouveau laboratoire de recherche IBM à Johannesburg, nous avons relevé ce défi et rapportons nos premiers résultats prometteurs lors de la Journée de la santé à la conférence KDD Data Science à Londres ce mois-ci.

    Dès le départ, notre objectif était d'appliquer l'apprentissage en profondeur pour automatiser l'étiquetage des rapports de pathologie cancéreuse afin d'accélérer le processus de déclaration. En collaboration avec le Registre national du cancer en Afrique du Sud, nous en avons utilisé 2, 201 dépersonnalisé, rapports de pathologie en texte libre et je suis fier d'annoncer que notre article démontre une précision de 74% - une amélioration par rapport aux modèles de référence actuels. Nous pensons que nous pouvons atteindre une précision de 95 % avec plus de données.

    Nous avons utilisé une classification hiérarchique avec des réseaux de neurones convolutifs, même si ce n'était pas notre premier choix. Nous avons initialement commencé à explorer des modèles de réseaux de neurones convolutifs multiclasses et binaires, mais les résultats n'étaient pas prometteurs et j'ai failli arrêter par frustration. Finalement, avec les conseils et le soutien de mes collègues, nous avons nettoyé le texte, a affiné le processus d'ingénierie des fonctionnalités et l'a amélioré à 60 %. Ce résultat était une amélioration, mais nous savions que nous avions besoin de 90 à 95 % pour le rendre suffisamment fiable pour le monde réel.

    Après plus de recherches et d'explorations, nous avons pensé à réduire la complexité du problème multiclasse, ce qui nous a conduit à créer une méthode de classification d'apprentissage en profondeur hiérarchique de pointe basée sur la structure hiérarchique du système de codage ICD-O en oncologie. Ainsi, nous avons utilisé une approche combinée pour identifier la hiérarchie des classes et la valider à l'aide de connaissances d'experts afin d'obtenir de meilleures performances qu'un modèle multiclasses plat pour la classification des rapports de pathologie en texte libre.

    Notre travail n'est bien sûr pas encore terminé; nous devons atteindre une précision supérieure à 95 %, et nous pensons que cela est possible avec plus de données, qui sera fourni par nos partenaires du Registre national du cancer. Une fois que nous obtenons ceci, nous pensons que l'Afrique du Sud peut être la meilleure au monde en termes de signalement du cancer, ce qui est important, en particulier parce qu'il a été rapporté que mon pays connaîtra une augmentation de 78 pour cent du cancer d'ici 2030.

    Cette histoire est republiée avec l'aimable autorisation d'IBM Research. Lisez l'histoire originale ici.




    © Science https://fr.scienceaq.com