• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Faire passer le big data en temps réel, intelligence exploitable

    Les informaticiens des Laboratoires nationaux Sandia Tian Ma, la gauche, et Rudy Garcia, a dirigé un projet visant à fournir des informations exploitables à partir de données en continu en temps quasi réel. Crédit :Randy Montoya

    Des médias sociaux, appareils photo, capteurs et plus génèrent d'énormes quantités de données qui peuvent submerger les analystes en les passant au crible pour des informations significatives, des informations exploitables pour fournir aux décideurs tels que les dirigeants politiques et les commandants de terrain répondant aux menaces de sécurité.

    Les chercheurs de Sandia National Laboratories s'efforcent d'alléger ce fardeau en développant la science pour recueillir des informations à partir de données presque en temps réel.

    « La quantité de données produites par les capteurs et les médias sociaux est en plein essor :chaque jour, environ 2,5 quintillions (ou 2,5 milliards de milliards) d'octets de données sont générés, " dit Tian Ma, un informaticien Sandia et co-chef de projet. « Environ 90 % de toutes les données ont été générées au cours des deux dernières années. Il y a plus de données que nous n'avons de personnes à analyser. Les communautés du renseignement sont fondamentalement débordées, et le problème est que vous vous retrouvez avec beaucoup de données sur des disques qui pourraient être négligées."

    Les chercheurs de Sandia ont travaillé avec des étudiants de l'Université de l'Illinois Urbana-Champaign, partenaire de l'Alliance Académique, développer des algorithmes analytiques et décisionnels pour diffuser des sources de données et les intégrer dans un cadre de traitement de données distribué presque en temps réel à l'aide d'outils de Big Data et de ressources informatiques chez Sandia. Le framework prend des données disparates provenant de plusieurs sources et génère des informations utilisables sur lesquelles il est possible d'agir en temps quasi réel.

    Pour tester le cadre, les chercheurs et les étudiants ont utilisé des données de trafic de Chicago telles que des images, capteurs intégrés, des tweets et du texte en streaming pour mesurer avec succès les embouteillages et suggérer des itinéraires de conduite plus rapides pour un navetteur de Chicago. L'équipe de recherche a choisi l'exemple du trafic de Chicago parce que les données saisies ont des caractéristiques similaires aux données généralement observées à des fins de sécurité nationale, dit Rudy Garcia, un informaticien Sandia et co-chef de projet.

    Noyade dans les données

    "Nous créons des données sans même y penser, " a déclaré Laura Patrizi, un informaticien et membre de l'équipe de recherche de Sandia, lors d'une conférence au Symposium GEOINT 2019 de la United States Geospatial Intelligence Foundation. « Quand nous nous promenons avec notre téléphone dans notre poche ou que nous tweetons sur un trafic horrible, notre téléphone suit notre position et peut joindre une géolocalisation à notre tweet."

    Pour exploiter cette avalanche de données, les analystes utilisent généralement des outils de Big Data et des algorithmes d'apprentissage automatique pour trouver et mettre en évidence des informations importantes, mais le processus s'exécute sur des données enregistrées, dit maman.

    « Nous voulions voir ce qui peut être analysé avec des données en temps réel provenant de plusieurs sources de données, pas ce que l'on peut apprendre de l'exploration de données historiques, " Ma dit. " L'intelligence exploitable est le prochain niveau d'analyse de données où l'analyse est utilisée pour la prise de décision en temps quasi réel. Le succès de cette recherche aura un impact important sur de nombreuses applications de sécurité nationale critiques."

    Construire un cadre de traitement des données

    L'équipe a empilé les technologies distribuées dans une série de pipelines de traitement de données qui ingèrent, organiser et indexer les données. Les scientifiques qui ont discuté des données ont spécifié comment les pipelines devraient acquérir et nettoyer les données.

    "Chaque type de données que nous ingérons a son propre schéma et format de données, " dit Garcia. " Pour que les données soient utiles, il doit d'abord être organisé afin qu'il puisse être facilement découvert pour un événement."

    Plateforme de données Hortonworks, fonctionnant sur les ordinateurs de Sandia, a été utilisé comme infrastructure logicielle pour le traitement des données et les pipelines d'analyse. Au sein d'Hortonworks, l'équipe a développé et intégré des topologies Apache Storm pour chaque pipeline de données. Les données conservées ont ensuite été stockées dans Apache Solr, un moteur de recherche et une base de données d'entreprise. PyTorch et Lucidwork's Banana ont été utilisés pour la détection d'objets de véhicules et la visualisation de données.

    Trouver les bonnes données

    « L'apport de grandes quantités de données est difficile, mais il est encore plus difficile de trouver les informations que vous recherchez vraiment, " dit Garcia. " Par exemple, pendant le projet, nous verrions des tweets qui disaient quelque chose comme "Le contrôle du trafic aérien nous a maintenus au sol pendant la dernière heure à Midway." Le trafic est dans le tweet, mais ce n'est pas pertinent pour le trafic sur autoroute."

    Pour déterminer le niveau de congestion du trafic sur une autoroute de Chicago, idéalement, l'outil pourrait utiliser une variété de types de données, y compris une caméra de circulation montrant le flux dans les deux sens, tweets géolocalisés sur les accidents, capteurs routiers mesurant la vitesse moyenne, imagerie satellite des zones et panneaux de signalisation estimant les temps de trajet actuels entre les bornes kilométriques, dit Forest Danford, un informaticien de Sandia et membre de l'équipe de recherche.

    "Toutefois, nous obtenons également beaucoup de mauvaises données comme une image de caméra Web difficile à lire, et il est rare que nous nous retrouvions avec de nombreux types de données différents qui sont très étroitement co-localisés dans le temps et l'espace, " a déclaré Danford. "Nous avions besoin d'un mécanisme pour en savoir plus sur les 90 millions d'événements et plus (liés au trafic de Chicago) que nous avons observés pour pouvoir prendre des décisions sur la base d'informations incomplètes ou imparfaites."

    L'équipe a ajouté un classificateur d'embouteillages en formant des systèmes informatiques fusionnés modelés sur le cerveau humain sur des caractéristiques extraites d'images et de tweets étiquetés, et d'autres événements qui correspondaient aux données dans le temps et dans l'espace. Le classificateur entraîné a pu générer des prédictions sur les embouteillages sur la base de données opérationnelles à n'importe quel moment et emplacement donnés, dit Danford.

    Les professeurs Minh Do et Ramavarapu Sreenivas et leurs étudiants à l'UIUC ont travaillé sur la reconnaissance d'objets et d'images en temps réel avec l'imagerie par caméra Web et ont développé des processus de planification d'itinéraire robustes basés sur les différentes sources de données.

    « Développer une science convaincante pour une intelligence exploitable nous oblige à nous attaquer à la dynamique basée sur l'information, " Sreenivas a déclaré. "Le Saint Graal ici est de résoudre le problème de spécification. Nous devons savoir ce que nous voulons avant de construire quelque chose qui nous donne ce que nous voulons. C'est beaucoup plus dur qu'il n'y paraît, et ce projet est la première étape pour comprendre exactement ce que nous aimerions avoir."

    Avancer, l'équipe Sandia transfère l'architecture, les analyses et les leçons apprises à Chicago à d'autres projets gouvernementaux et continuera d'étudier les outils d'analyse, apporter des améliorations au modèle de reconnaissance d'objets des Labs et travailler pour générer du sens, intelligence exploitable.

    "Nous essayons de rendre les données détectables, accessible et utilisable, " a déclaré Garcia. " Et si nous pouvons le faire grâce à ces architectures de Big Data, alors je pense que nous aidons.


    © Science https://fr.scienceaq.com