Crédit :Stuart Miles/Freerange
Si vous regardez sous le capot d'Internet, vous trouverez de nombreux engrenages qui rendent tout cela possible.
Par exemple, prenez une entreprise comme AT&T. Ils doivent comprendre intimement où vont les données Internet afin de mieux s'adapter aux différents niveaux d'utilisation. Mais il n'est pas pratique de surveiller précisément chaque paquet de données, parce que les entreprises n'ont tout simplement pas des quantités illimitées d'espace de stockage. (Les chercheurs appellent cela le "problème de Britney Spears, " nommé pour les efforts de longue date des moteurs de recherche pour recenser les sujets tendances.)
À cause de ce, les entreprises technologiques utilisent des algorithmes spéciaux pour estimer approximativement la quantité de trafic se dirigeant vers différentes adresses IP. Les algorithmes traditionnels d'estimation de fréquence impliquent « le hachage, " ou diviser au hasard des éléments dans différents compartiments. Mais cette approche ne tient pas compte du fait qu'il existe des modèles qui peuvent être découverts dans des volumes élevés de données, comme pourquoi une adresse IP a tendance à générer plus de trafic Internet qu'une autre.
Des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT ont mis au point une nouvelle façon de trouver de tels modèles en utilisant l'apprentissage automatique.
Leur système utilise un réseau de neurones pour prédire automatiquement si un élément spécifique apparaîtra fréquemment dans un flux de données. Si c'est le cas, il est placé dans un seau séparé de soi-disant « heavy hitters » sur lequel se concentrer ; si ce n'est pas le cas, il est géré par hachage.
"C'est comme une situation de triage dans une salle d'urgence, où nous priorisons les plus gros problèmes avant d'aborder les plus petits, " dit le professeur du MIT Piotr Indyk, co-auteur d'un nouvel article sur le système qui sera présenté en mai à l'International Conference on Learning Representations à la Nouvelle-Orléans, Louisiane. "En apprenant les propriétés des gros frappeurs au fur et à mesure qu'ils arrivent, nous pouvons faire une estimation de fréquence beaucoup plus efficacement et avec beaucoup moins d'erreurs."
Dans les essais, L'équipe d'Indyk a montré que son approche basée sur l'apprentissage comportait jusqu'à 57 % d'erreurs en moins pour estimer la quantité de trafic Internet dans un réseau, et jusqu'à 71 % d'erreurs en moins pour estimer le nombre de requêtes pour un terme de recherche donné.
L'équipe appelle son système "LearnedSketch, " parce qu'ils le considèrent comme une méthode pour " esquisser " les données dans un flux de données plus efficacement. À leur connaissance, c'est la première approche au monde basée sur l'apprentissage automatique pour non seulement l'estimation de fréquence elle-même, mais pour une classe plus large d'algorithmes dits de "streaming" qui sont utilisés dans tout, des systèmes de sécurité au traitement du langage naturel.
LearnedSketch pourrait aider les entreprises technologiques à analyser plus efficacement toutes sortes de données significatives, des sujets d'actualité sur Twitter aux pics de trafic Web qui pourraient suggérer de futures attaques par déni de service distribué. Les entreprises de commerce électronique pourraient l'utiliser pour améliorer les recommandations de produits :si LearnedSketch découvrait que les clients ont tendance à faire plus d'achats comparatifs pour les appareils électroniques ménagers que pour les jouets, il pourrait automatiquement consacrer plus de ressources pour assurer l'exactitude de ses comptages de fréquence pour l'électronique.
« Nous connaissons tous les applications d'apprentissage automatique destinées aux consommateurs, telles que le traitement du langage naturel et la traduction vocale, " dit Sergueï Vassilvitskii, un informaticien qui étudie l'apprentissage automatique algorithmique et n'a pas été impliqué dans le projet. « Cette ligne de travail, d'autre part, est un exemple passionnant de la façon d'utiliser l'apprentissage automatique pour améliorer le système informatique de base lui-même."
Ce qui est également surprenant à propos de LearnedSketch, c'est que, en apprenant à compter les objets, la structure qu'il apprend peut être généralisée même à des éléments invisibles. Par exemple, pour prédire quelles connexions Internet ont le plus de trafic, le modèle apprend à regrouper différentes connexions par le préfixe de leur IP de destination. C'est parce que les endroits qui génèrent un trafic important, comme les grandes entreprises et les universités, ont tendance à partager un préfixe particulier.
« Nous combinons le modèle avec des algorithmes classiques afin que notre algorithme hérite naturellement des garanties dans le pire des cas des algorithmes classiques, " dit Chen-Yu Hsu, étudiant au doctorat, co-auteur du nouveau document. "Ces types de résultats montrent que l'apprentissage automatique est une approche qui pourrait être utilisée parallèlement aux paradigmes algorithmiques classiques tels que" diviser pour mieux régner "et la programmation dynamique."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.