• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Lacs de données :là où les grandes entreprises déversent leurs données excédentaires, et les hackers s'en donnent à coeur joie

    Contrairement aux systèmes de stockage de données spécialement conçus, un lac de données peut être utilisé pour vider les données dans leur forme d'origine. Ces données restent généralement non supervisées. Crédit :Shutterstock.com

    Les machines et Internet sont tissés dans le tissu de notre société. Un nombre croissant d'utilisateurs, les appareils et les applications travaillent ensemble pour produire ce que nous appelons aujourd'hui le « big data ». Et ces données aident à piloter de nombreux services quotidiens auxquels nous avons accès, comme la banque.

    Une comparaison des instantanés Internet de 2018 et 2019 met en lumière le taux croissant d'échange quotidien d'informations numériques. Le défi de la capture et du stockage en toute sécurité des données se complique avec le temps.

    C'est là que les entrepôts de données et les lacs de données sont pertinents. Les deux sont des espaces en ligne utilisés par les entreprises pour le traitement et le stockage internes des données.

    Malheureusement, depuis que le concept de data lake est né en 2010, pas assez a été fait pour résoudre les problèmes de cybersécurité.

    Ces précieux référentiels restent exposés à un nombre croissant de cyberattaques et de violations de données.

    Une panacée proposée pour les problèmes de big data

    L'approche traditionnelle utilisée par les fournisseurs de services consiste à stocker les données dans un « entrepôt de données », un référentiel unique qui peut être utilisé pour analyser les données, créer des rapports, et consolider les informations.

    Cependant, les données entrant dans un entrepôt doivent être prétraitées. Avec des zettaoctets de données dans le cyberespace, ce n'est pas une tâche facile. Le pré-traitement nécessite une quantité importante de calculs effectués par des supercalculateurs haut de gamme, et coûte du temps et de l'argent.

    Des lacs de données ont été proposés pour résoudre ce problème. Contrairement aux entrepôts, ils peuvent stocker des données brutes de tout type. Les lacs de données sont souvent considérés comme une panacée aux problèmes de big data, et ont été adoptés par de nombreuses organisations essayant de stimuler l'innovation et de nouveaux services pour les utilisateurs.

    James Dixon, le technicien de données américain qui aurait inventé le terme, décrit les lacs de données ainsi :« Si vous considérez un datamart comme une réserve d'eau en bouteille, nettoyée, conditionnée et structurée pour une consommation facile, le lac de données est une grande étendue d'eau dans un état plus naturel. Le contenu du flux de lac de données d'une source pour remplir le lac, et divers utilisateurs du lac peuvent venir examiner, plonger, ou prélever des échantillons."

    Soyez prudent en nageant dans un lac de données

    Bien que les lacs de données créent des opportunités pour les utilisateurs de données, leurs portes numériques restent sans surveillance, et la résolution des problèmes de cybersécurité reste une réflexion après coup.

    Notre capacité à analyser et extraire l'intelligence des lacs de données est menacée dans le domaine du cyberespace. Cela est évident à travers le nombre élevé de violations de données et de cyberattaques récentes dans le monde.

    Avec les avancées technologiques, nous devenons encore plus sujets aux cyberattaques. La lutte contre les cyberactivités malveillantes devrait être une priorité dans le climat numérique actuel.

    Alors que la recherche à ce sujet a prospéré ces dernières années, un lien fort entre une cybersécurité efficace et des lacs de données reste à établir.

    Pas rare d'être compromis

    En raison des progrès des logiciels malveillants, spécifiquement dans l'obscurcissement des logiciels malveillants, il est facile pour les pirates de cacher un virus dangereux dans un fichier d'apparence inoffensive.

    Les attaques par injection de fausses données ont augmenté au cours de la dernière décennie.

    L'attaque se produit lorsqu'un cybercriminel exploite des outils disponibles gratuitement pour compromettre un système connecté à Internet, pour lui injecter de fausses données.

    Les données étrangères injectées obtiennent un accès non autorisé au lac de données et manipulent les données stockées pour induire les utilisateurs en erreur. Il existe de nombreux facteurs de motivation potentiels derrière une telle attaque.

    Composants des lacs de données

    L'architecture du lac de données peut être divisée en trois composants :l'ingestion de données, stockage de données et analyse de données.

    L'ingestion de données fait référence aux données entrant dans le lac à partir d'un large éventail de sources. Cela se produit généralement sans aucune politique de sécurité légitime en place. Lorsque les données entrantes ne sont pas vérifiées pour les menaces de sécurité, une occasion en or est offerte aux cybercriminels d'injecter de fausses données.

    Le deuxième élément est le stockage de données, c'est là que toutes les données brutes sont déversées. De nouveau, cela se produit sans considérations importantes en matière de cybersécurité.

    Le composant le plus important des lacs de données est l'analyse des données, qui combine l'expertise des analystes, scientifiques et agents de données. L'objectif de l'analyse de données est de concevoir et de développer des algorithmes de modélisation qui peuvent utiliser des données brutes pour produire des informations significatives.

    Par exemple, l'analyse des données est la façon dont Netflix se renseigne sur les habitudes de visionnage de ses abonnés.

    Défis à venir pour les experts en données

    Le moindre changement ou manipulation dans les lacs de données peut énormément tromper les utilisateurs de données et avoir un impact généralisé.

    Par exemple, les lacs de données compromis ont d'énormes implications pour les soins de santé, car tout écart dans les données peut conduire à un mauvais diagnostic, voire des victimes.

    Aussi, les agences gouvernementales utilisant des lacs de données compromis peuvent être confrontées à un chaos dans les affaires internationales et les situations commerciales. La défense, la finance, les secteurs de la gouvernance et de l'éducation sont également vulnérables aux attaques de lacs de données.

    Compte tenu du volume de données stockées dans les lacs de données, les conséquences des cyberattaques sont loin d'être anodines.

    Et puisque générer d'énormes quantités de données dans le monde d'aujourd'hui est inévitable, il est crucial que les architectes des lacs de données s'efforcent de s'assurer que ces dépôts de données à risque sont correctement gérés.

    Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.




    © Science https://fr.scienceaq.com