• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Les outils d'analyse de Big Data de nouvelle génération donneront un sens à la diffusion de données en temps réel

    Elke Rundensteiner, droit, professeur d'informatique au Worcester Polytechnic Institute (WPI), et doctorante Allison Rozet, stand à côté d'un banc d'essai de véhicule autonome utilisé dans la recherche à WPI. Les outils d'analyse que Rundensteiner et Rozet développent pourraient rendre les voitures sans conducteur plus sûres en analysant le flux de données des véhicules en temps réel. Crédit :Institut polytechnique de Worcester

    Un nouvel outil d'analyse des mégadonnées développé par des informaticiens du Worcester Polytechnic Institute (WPI) aidera les entreprises à donner du sens, en temps réel, du déluge de données qui affluent vers eux comme l'eau d'une lance à incendie.

    Avec une durée de trois ans, 499 $, 753 bourse de la National Science Foundation, Elke Rundensteiner, professeur d'informatique et directeur du programme Data Science de WPI, dirige une équipe d'étudiants en informatique et en science des données qui élabore un outil d'analyse des tendances d'événements de nouvelle génération connu sous le nom de SETA (Scalable Event Trend Analytics). Ce logiciel open source sera utilisé non seulement pour trouver des modèles en temps réel, des flux de données volumineux ("data in motion"), mais pour analyser ces modèles et les comprendre à la volée pour une prise de décision juste à temps.

    SETA pourrait permettre aux grandes entreprises, sites de média sociaux, centres de détection des fraudes, réseaux de véhicules autonomes, Gouvernements, et d'autres utilisateurs pour exploiter le flux continu de mégadonnées au fur et à mesure qu'il afflue et le transformer en informations exploitables qui pourraient leur permettre d'être de plus en plus réactifs et compétitifs. "Dans un monde où le big data accélère en permanence en volume et en vitesse, l'analyse des données de streaming en temps réel est devenue de plus en plus critique, " dit Rundensteiner, un expert internationalement reconnu dans le traitement de flux de données évolutif.

    Le traitement des événements est un moyen de suivre et d'analyser les flux d'informations entrants, comme les achats en ligne, la hausse et la baisse du cours d'une action, la durée pendant laquelle les utilisateurs restent sur un site Web, ou si les travailleurs de la santé se lavent les mains avant d'entrer dans la chambre des patients. Il s'agit de signaler des événements importants dans les données entrantes, afin qu'une organisation puisse y répondre en temps réel. SETA sera capable de gérer des requêtes et des analyses complexes, tout en fournissant aux utilisateurs des informations synthétiques moins chères et plus rapides qu'il n'est actuellement possible.

    La plupart des outils d'analyse de données existants ne sont pas conçus pour fonctionner avec des données en streaming, a noté Rundensteiner. Au lieu, les informations doivent être stockées dans une base de données statique avant de pouvoir être analysées, introduire un délai qui pourrait empêcher la détection rapide, par exemple, du début d'une épidémie de maladie infectieuse dans un hôpital. Les outils de Rundensteiner opèrent sur les données au fur et à mesure qu'elles sont générées, permettant même de repérer des motifs complexes en temps réel, ainsi les décisions critiques peuvent être prises rapidement.

    « Les flux de données augmentent à un rythme dramatique, écrasant les entreprises qui ne peuvent pas donner un sens à leurs données en temps réel, " a déclaré Rundensteiner. " En trouvant des moyens de gérer ces flux en direct, nous innovons en matière d'analyse de données. Vous pouvez coller toutes ces données volumineuses dans une base de données statique et les examiner plus tard, mais si vous voulez détecter un achat frauduleux par carte de crédit en cours ou alerter un réseau de voitures autonomes d'un accident à venir, vous devez analyser ces informations au fur et à mesure qu'elles affluent à un rythme de dizaines de milliers de données par microseconde."

    Avec le nouveau prix, Rundensteiner s'appuiera sur ses recherches antérieures parrainées par la NSF dans le domaine de l'analyse des flux d'événements, qui se concentrait sur la recherche de modèles dans les données en continu. Ce travail (en collaboration avec d'anciens doctorants, Olga Poppé, chercheur au Microsoft Gray Systems Lab, Chuan Lei, un membre du personnel de recherche au centre de recherche IBM Almaden, et Di Wang, chercheur à Facebook), ont produit des outils d'analyse qui ont permis aux utilisateurs d'interroger un flux de données pour des séquences d'événements relativement simples. Mais si le logiciel trouve de nombreuses instances de séquences identiques ou similaires et les affiche toutes, l'utilisateur serait souvent submergé et passerait à côté des schémas significatifs ou des tendances globales à travers les schémas.

    Plutôt que d'afficher les séquences détectées une par une, le nouvel outil développé par Rundensteiner regroupera ces modèles et montrera à l'utilisateur combien de fois chacun se produit. "En montrant un pic d'activité anormale, le système permet de voir très rapidement ce qui se passe, " a-t-elle dit. "Parfois, je suis plus intéressée par l'écart par rapport au nombre typique de modèles, car je sais instantanément si quelque chose d'anormal se produit. Si une voiture autonome fait une embardée, ça ne veut peut-être rien dire. Mais si mille voitures sur le même tronçon de route présentent toutes un comportement déviant, alors quelque chose de réel se passe. Vous pouvez ensuite approfondir ce sous-ensemble particulier de données pour explorer ce comportement inattendu."

    Développer les outils pour approfondir ces agrégats de modèles est un autre élément de la recherche sur SETA. Rundensteiner veut permettre aux utilisateurs de rechercher des modèles beaucoup plus sophistiqués. Par exemple, alors que son outil précédent pouvait être utilisé pour rechercher une séquence d'une longueur fixe (disons, cas d'un véhicule actionnant les freins, faire une embardée, puis arrêt), elle veut le rendre possible, avec une seule requête de flux simple, repérer des séquences impliquant un nombre illimité d'instances (une voiture faisant un nombre de fois inconnu, freinage répété, puis s'arrêter, par exemple). Alors que le nombre de correspondances potentielles à une telle requête pourrait croître de façon exponentielle en raison de la complexité du langage de requête, les résultats promettent d'être plus utiles, elle a dit.

    Pour créer de nouveaux outils d'analyse des tendances d'événements, Rundensteiner doit d'abord concevoir un nouveau langage de requête, qui est utilisé pour trouver et récupérer des modèles dans les données. En permettant aux utilisateurs de rechercher des modèles plus complexes, la nouvelle langue rendra l'outil beaucoup plus facile à utiliser. Elle construit également un nouveau "moteur de requêtes" pour traiter ces requêtes sophistiquées et trouver les modèles ou événements demandés. Un moteur distribué, il fonctionnera sur plusieurs serveurs à travers un réseau cloud, augmentant considérablement sa vitesse.

    « Construire ce moteur est un élément clé du projet, " dit-elle. " Traditionnellement, un moteur peut générer toutes les réponses à une requête, les stocker, puis commencez à les compter. C'est trop long et coûteux. La technologie actuelle peut prendre des heures, ou même plus longtemps, pour traiter une requête compliquée. Le nôtre prendra quelques secondes. Il ne sert à rien de poser ces grandes questions si vous devez attendre des jours pour les réponses."

    Le nouveau logiciel d'analyse des tendances événementielles, qu'elle développe avec Allison Rozet, un doctorat candidat en science des données, sera testé à l'aide d'ensembles de données et d'applications du monde réel fournis par un centre de soins de santé et une société de traitement de transactions financières.

    « Dans le domaine de la santé, cela pourrait sauver des vies, " a déclaré Rundensteiner. "Nous pourrions détecter des modèles qui montrent comment l'infection se propage. Nous pouvions voir quand, par exemple, le personnel ne met pas de blouses chirurgicales ou ne se lave pas les mains. On peut ainsi voir les problèmes au fur et à mesure qu'ils se déroulent, afin que nous puissions voir d'où viennent les problèmes. Nous créons de meilleurs outils pour obtenir les réponses dont nous avons besoin à partir d'un flot croissant d'informations entrantes."


    © Science https://fr.scienceaq.com