• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • L'outil pour les non-statisticiens génère automatiquement des modèles qui glanent des informations à partir d'ensembles de données complexes

    Les chercheurs du MIT espèrent faire avancer la démocratisation de la science des données avec un nouvel outil pour les non-programmeurs qui génère automatiquement des modèles pour analyser les données brutes. Crédit :Christine Daniloff, MIT

    Les chercheurs du MIT espèrent faire progresser la démocratisation de la science des données avec un nouvel outil pour les non-statisticiens qui génère automatiquement des modèles d'analyse des données brutes.

    Démocratiser la science des données est l'idée que n'importe qui, avec peu ou pas d'expertise, peut faire de la science des données s'il dispose de suffisamment de données et d'outils d'analyse conviviaux. Soutenant cette idée, le nouvel outil ingère des ensembles de données et génère des modèles statistiques sophistiqués généralement utilisés par les experts pour analyser, interpréter, et prédire les modèles sous-jacents dans les données.

    L'outil réside actuellement sur Jupyter Notebook, un framework Web open source qui permet aux utilisateurs d'exécuter des programmes de manière interactive dans leurs navigateurs. Les utilisateurs n'ont besoin que d'écrire quelques lignes de code pour découvrir des informations sur, par exemple, tendances financières, voyage en avion, modèles de vote, la propagation de la maladie, et d'autres tendances.

    Dans un article présenté au Symposium ACM SIGPLAN de cette semaine sur les principes des langages de programmation, les chercheurs montrent que leur outil peut extraire avec précision des modèles et faire des prédictions à partir d'ensembles de données du monde réel, et même surpasser les modèles construits manuellement dans certaines tâches d'analyse de données.

    "L'objectif de haut niveau est de rendre la science des données accessible à des personnes qui ne sont pas des experts en statistiques, " dit le premier auteur Feras Saad '15, MEng '16, un doctorat étudiant au Département de génie électrique et informatique (EECS). "Les gens ont beaucoup d'ensembles de données qui traînent, et notre objectif est de créer des systèmes qui permettent aux utilisateurs d'obtenir automatiquement des modèles qu'ils peuvent utiliser pour poser des questions sur ces données."

    Finalement, l'outil résout un goulot d'étranglement dans le domaine de la science des données, dit le co-auteur Vikash Mansinghka '05, MEng '09, doctorat '09, un chercheur du Département des sciences du cerveau et de la cognition (BCS) qui dirige le Probabilistic Computing Project. « Il y a une pénurie largement reconnue de personnes qui comprennent comment bien modéliser les données, " dit-il. " C'est un problème dans les gouvernements, le secteur à but non lucratif, et des endroits où les gens n'ont pas les moyens de se payer des data scientists. »

    Les autres co-auteurs de l'article sont Marco Cusumano-Towner, un doctorat EECS. étudiant; Ulrich Schaechtle, un postdoc BCS avec le Probabilistic Computing Project; et Martin Rinard, professeur à l'EECS et chercheur au Laboratoire d'informatique et d'intelligence artificielle.

    Modélisation bayésienne

    Le travail utilise la modélisation bayésienne, une méthode statistique qui met à jour en permanence la probabilité d'une variable à mesure que plus d'informations sur cette variable deviennent disponibles. Par exemple, Le statisticien et écrivain Nate Silver utilise des modèles bayésiens pour son site Web populaire FiveThirtyEight. En vue d'une élection présidentielle, les modèles du site font une première prédiction qu'un des candidats va gagner, sur la base de divers sondages et d'autres données économiques et démographiques. Cette prédiction est la variable. Le jour des élections, le modèle utilise ces informations, et pèse les votes entrants et d'autres données, d'actualiser en permanence cette probabilité du potentiel de gain d'un candidat.

    Plus généralement, Les modèles bayésiens peuvent être utilisés pour "prédire" - prédire une valeur inconnue dans l'ensemble de données - et pour découvrir des modèles de données et des relations entre les variables. Dans leur travail, les chercheurs se sont concentrés sur deux types de jeux de données :des séries chronologiques, une séquence de points de données dans l'ordre chronologique ; et des données tabulaires, où chaque ligne représente une entité d'intérêt et chaque colonne représente un attribut.

    Les ensembles de données de séries chronologiques peuvent être utilisés pour prédire, dire, trafic aérien dans les mois ou années à venir. Un modèle probabiliste analyse des dizaines de données de trafic historiques et produit un graphique chronologique avec les futurs modèles de trafic tracés le long de la ligne. Le modèle peut également révéler des fluctuations périodiques corrélées à d'autres variables, comme la période de l'année.

    D'autre part, un jeu de données tabulaire utilisé pour, dire, recherches sociologiques, peut contenir des centaines à des millions de lignes, représentant chacun une personne physique, avec des variables caractérisant la profession, un salaire, emplacement de la maison, et les réponses aux questions du sondage. Des modèles probabilistes pourraient être utilisés pour combler les variables manquantes, comme prédire le salaire de quelqu'un en fonction de l'occupation et de l'emplacement, ou pour identifier des variables qui s'informent les unes les autres, comme trouver que l'âge et la profession d'une personne sont prédictifs de son salaire.

    Les statisticiens considèrent la modélisation bayésienne comme la référence absolue pour la construction de modèles à partir de données. Mais la modélisation bayésienne est notoirement chronophage et difficile. Les statisticiens font d'abord une estimation éclairée de la structure et des paramètres nécessaires du modèle, en s'appuyant sur leur connaissance générale du problème et des données. En utilisant un environnement de programmation statistique, comme R, un statisticien construit ensuite des modèles, ajuste les paramètres, vérifie les résultats, et répète le processus jusqu'à ce qu'ils trouvent un compromis de performance approprié qui pèse la complexité et la qualité du modèle.

    L'outil des chercheurs automatise une partie clé de ce processus. "Nous donnons à un système logiciel un travail que vous feriez faire par un statisticien junior ou un scientifique des données, " dit Mansinghka. " Le logiciel peut répondre automatiquement aux questions à partir des données - prévoir des prédictions ou vous dire quelle est la structure - et il peut le faire de manière rigoureuse, rapporter des mesures quantitatives de l'incertitude. Ce niveau d'automatisation et de rigueur est important si nous essayons de rendre la science des données plus accessible."

    synthèse bayésienne

    Avec la nouvelle approche, les utilisateurs écrivent une ligne de code détaillant l'emplacement des données brutes. L'outil charge ces données et crée plusieurs programmes probabilistes qui représentent chacun un modèle bayésien des données. Tous ces modèles générés automatiquement sont écrits dans des langages de programmation probabilistes spécifiques à un domaine - des langages de codage développés pour des applications spécifiques - qui sont optimisés pour représenter des modèles bayésiens pour un type de données spécifique.

    L'outil fonctionne en utilisant une version modifiée d'une technique appelée "synthèse de programme, " qui crée automatiquement des programmes informatiques avec des données et un langage dans lesquels travailler. La technique est essentiellement une programmation informatique à l'envers :étant donné un ensemble d'exemples d'entrée-sortie, la synthèse du programme marche en arrière, remplir les blancs pour construire un algorithme qui produit les exemples de sorties sur la base des exemples d'entrées.

    L'approche diffère de la synthèse de programme ordinaire de deux manières. D'abord, l'outil synthétise des programmes probabilistes qui représentent des modèles bayésiens de données, alors que les méthodes traditionnelles produisent des programmes qui ne modélisent pas du tout les données. Seconde, l'outil synthétise plusieurs programmes simultanément, alors que les méthodes traditionnelles n'en produisent qu'une à la fois. Les utilisateurs peuvent choisir les modèles qui correspondent le mieux à leur application.

    "Quand le système fait un modèle, il crache un morceau de code écrit dans l'un de ces langages de programmation probabilistes spécifiques à un domaine ... que les gens peuvent comprendre et interpréter, " dit Mansinghka. " Par exemple, les utilisateurs peuvent vérifier si un ensemble de données de séries chronologiques comme le volume du trafic aérien présente des variations saisonnières simplement en lisant le code, contrairement aux méthodes d'apprentissage automatique et de statistiques de la boîte noire, où les utilisateurs doivent faire confiance aux prédictions d'un modèle mais ne peuvent pas le lire pour comprendre sa structure."

    La programmation probabiliste est un domaine émergent à l'intersection des langages de programmation, intelligence artificielle, et statistiques. Cette année, Le MIT a accueilli la première conférence internationale sur la programmation probabiliste, qui a réuni plus de 200 participants, y compris les principaux acteurs de l'industrie de la programmation probabiliste tels que Microsoft, Uber, et Google.


    © Science https://fr.scienceaq.com