Vijay Gadepally se trouve dans le centre de calcul intensif du Lincoln Laboratory. Gadepally fait partie d'une équipe qui a tiré parti du supercalcul pour résoudre les problèmes de cybersécurité. Crédit :Glen Cooper
Identifier les menaces de cybersécurité à partir de données Internet brutes peut être comme localiser une aiguille dans une botte de foin. La quantité de données de trafic Internet générées sur une période de 48 heures, par exemple, est trop volumineux pour qu'un ou même 100 ordinateurs portables puissent être transformés en quelque chose de digeste pour les analystes humains. C'est pourquoi les analystes s'appuient sur l'échantillonnage pour rechercher des menaces potentielles, sélectionner de petits segments de données à approfondir, dans l'espoir de découvrir un comportement suspect.
Bien que ce type d'échantillonnage puisse fonctionner pour certaines tâches, comme l'identification des adresses IP populaires, il est insuffisant pour trouver des tendances menaçantes plus subtiles.
"Si vous essayez de détecter un comportement anormal, par définition que le comportement est rare et improbable, " dit Vijay Gadepally, un cadre supérieur du Lincoln Laboratory Supercomputing Center (LLSC). "Si vous échantillonnez, cela rend une chose déjà rare presque impossible à trouver."
Gadepally fait partie d'une équipe de recherche du laboratoire qui pense que la superinformatique peut offrir une meilleure méthode, qui permet aux analystes d'accéder à toutes les données pertinentes à la fois, pour identifier ces tendances subtiles. Dans un article récemment publié, l'équipe a condensé avec succès 96 heures de cru, Le réseau de 1 gigabit relie les données de trafic Internet dans un ensemble prêt pour les requêtes. Ils ont créé le bundle en exécutant 30, 000 cœurs de traitement (égal à environ 1, 000 ordinateurs portables) au LLSC situé à Holyoke, Massachusetts, et il est stocké dans le MIT SuperCloud, où il peut être consulté par toute personne ayant un compte.
"[Nos recherches] ont montré que nous pouvions tirer parti des ressources de calcul intensif pour apporter une quantité massive de données et les mettre dans une position où un chercheur en cybersécurité peut les utiliser, " explique Gadepally.
Un exemple du type d'activité menaçante qui oblige les analystes à puiser dans une telle quantité de données sont les instructions des serveurs de commande et de contrôle (C&C). Ces serveurs envoient des commandes aux appareils infectés par des logiciels malveillants afin de voler ou de manipuler des données.
Gadepally compare leur comportement à celui des appelants indésirables :alors qu'un appelant normal peut passer et recevoir un nombre égal d'appels, un spammeur ferait des millions d'appels de plus qu'il n'en reçoit. C'est la même idée pour un serveur C&C, et ce modèle ne peut être trouvé qu'en examinant de nombreuses données sur une longue période de temps.
« La norme actuelle de l'industrie consiste à utiliser de petites fenêtres de données, où vous jetez 99,99 pour cent, " dit Gadepally. "Nous avons pu conserver 100 pour cent des données pour cette analyse."
L'équipe prévoit de faire connaître sa capacité à compresser une si grande quantité de données et elle espère que les analystes profiteront de cette ressource pour franchir une nouvelle étape dans la lutte contre les menaces jusqu'à présent insaisissables. Ils travaillent également sur des moyens de mieux comprendre à quoi ressemble un comportement Internet « normal » dans son ensemble, afin que les menaces puissent être plus facilement identifiées.
« La détection des cybermenaces peut être grandement améliorée en ayant un modèle précis du trafic réseau en arrière-plan normal, " dit Jeremy Kepner, un boursier du Lincoln Laboratory de la LLSC qui est le fer de lance de cette nouvelle recherche. Les analystes pourraient comparer les données de trafic Internet qu'ils étudient avec ces modèles pour faire apparaître plus facilement les comportements anormaux.
« En utilisant notre pipeline de traitement, nous sommes capables de développer de nouvelles techniques de calcul de ces modèles de fond, " il dit.
En tant que gouvernement, Entreprise, et les utilisateurs personnels dépendent de plus en plus d'Internet pour leurs opérations quotidiennes, le maintien de la cybersécurité restera une tâche essentielle pour les chercheurs et les chercheurs affirment que le supercalcul est une ressource inexploitée qui peut aider.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.