Crédit :CC0 Domaine public
Les investisseurs boursiers s'appuient souvent sur des théories du risque financier qui les aident à maximiser les rendements tout en minimisant les pertes financières dues aux fluctuations du marché. Ces théories aident les investisseurs à maintenir un portefeuille équilibré pour s'assurer qu'ils ne perdront jamais plus d'argent qu'ils ne sont prêts à se séparer à un moment donné.
Inspiré par ces théories, Des chercheurs du MIT, en collaboration avec Microsoft, ont développé un modèle mathématique « sensible aux risques » qui pourrait améliorer les performances des réseaux de cloud computing à travers le monde. Notamment, l'infrastructure cloud est extrêmement coûteuse et consomme une grande partie de l'énergie mondiale.
Leur modèle prend en compte les probabilités de défaillance des liens entre les centres de données du monde entier, ce qui revient à prédire la volatilité des actions. Puis, il exécute un moteur d'optimisation pour allouer le trafic via des chemins optimaux afin de minimiser les pertes, tout en maximisant l'utilisation globale du réseau.
Le modèle pourrait aider les principaux fournisseurs de services cloud, tels que Microsoft, Amazone, et Google—mieux utiliser leur infrastructure. L'approche conventionnelle consiste à maintenir les liens inactifs pour gérer les changements de trafic inattendus résultant de défaillances de liens, ce qui est un gaspillage d'énergie, bande passante, et d'autres ressources. Le nouveau modèle, appelé TeaVar, d'autre part, garantit que pour un pourcentage de temps cible, disons, 99,9 % :le réseau peut gérer tout le trafic de données, il n'est donc pas nécessaire de garder les liens inactifs. Pendant ce 0,01 % du temps, le modèle maintient également les données abandonnées aussi bas que possible.
Dans des expériences basées sur des données du monde réel, le modèle a pris en charge trois fois le débit de trafic que les méthodes traditionnelles d'ingénierie du trafic, tout en maintenant le même niveau élevé de disponibilité du réseau. Un article décrivant le modèle et les résultats sera présenté à la conférence ACM SIGCOMM cette semaine.
Une meilleure utilisation du réseau peut faire économiser aux fournisseurs de services des millions de dollars, mais les avantages « se répercuteront » sur les consommateurs, dit le co-auteur Manya Ghobadi, professeur assistant en développement de carrière TIBCO au département de génie électrique et d'informatique du MIT et chercheur au laboratoire d'informatique et d'intelligence artificielle (CSAIL).
« Une infrastructure plus utilisée n'est pas seulement bonne pour les services cloud, c'est aussi mieux pour le monde, " dit Ghobadi. " Les entreprises n'ont pas à acheter autant d'infrastructures pour vendre des services aux clients. Plus, être capable d'utiliser efficacement les ressources du centre de données peut économiser d'énormes quantités d'énergie par l'infrastructure cloud. Donc, il y a des avantages à la fois pour les utilisateurs et pour l'environnement."
Rejoindre Ghobadi sur le papier sont ses étudiants Jeremy Bogle et Nikhil Bhatia, à la fois de CSAIL; Ishai Menache et Nikolaj Bjorner de Microsoft Research; et Asaf Valadarsky et Michael Schapira de l'Université hébraïque.
Sur l'argent
Les fournisseurs de services cloud utilisent des réseaux de câbles à fibres optiques souterrains, connecter des centres de données dans différentes villes. Pour acheminer le trafic, les fournisseurs s'appuient sur un logiciel d'« ingénierie du trafic » (TE) qui alloue de manière optimale la bande passante des données (quantité de données pouvant être transférées en une seule fois) via tous les chemins du réseau.
L'objectif est d'assurer une disponibilité maximale aux utilisateurs du monde entier. Mais c'est difficile lorsque certains liens peuvent échouer de manière inattendue, en raison des baisses de qualité du signal optique résultant de pannes ou de coupures de lignes lors de la construction, entre autres facteurs. Pour rester robuste à l'échec, les fournisseurs conservent de nombreux liens à très faible utilisation, en attente d'absorber les charges de données complètes des liaisons en panne.
Ainsi, c'est un compromis délicat entre la disponibilité et l'utilisation du réseau, ce qui permettrait des débits de données plus élevés. Et c'est là que les méthodes TE traditionnelles échouent, disent les chercheurs. Ils trouvent des chemins optimaux en fonction de divers facteurs, mais ne jamais quantifier la fiabilité des liens. "Ils ne disent pas, 'Ce lien a une plus grande probabilité d'être opérationnel, cela signifie que vous devriez envoyer plus de trafic ici, " dit Bogle. " La plupart des liens d'un réseau fonctionnent à faible taux d'utilisation et n'envoient pas autant de trafic qu'ils pourraient en envoyer. "
Les chercheurs ont plutôt conçu un modèle TE qui adapte les mathématiques de base à partir de « la valeur conditionnelle à risque, " une mesure d'évaluation des risques qui quantifie la perte d'argent moyenne. En investissant dans des actions, si vous avez une valeur conditionnelle d'un jour à 99 % à risque de 50 $, votre perte attendue du pire scénario de 1% ce jour-là est de 50 $. Mais 99% du temps, tu feras beaucoup mieux. Cette mesure est utilisée pour investir en bourse, ce qui est notoirement difficile à prévoir.
"Mais les calculs sont en fait mieux adaptés à notre configuration d'infrastructure cloud, " dit Ghobadi. " Surtout, les défaillances de liaison sont dues à l'âge des équipements, les probabilités d'échec ne changent donc pas beaucoup avec le temps. Cela signifie que nos probabilités sont plus fiables, par rapport à la bourse."
Modèle conscient du risque
Dans les réseaux, les parts de bande passante de données sont analogues à « l'argent, " et les équipements de réseau avec différentes probabilités de défaillance sont les "stocks" et leur incertitude quant aux valeurs changeantes. En utilisant les formules sous-jacentes, les chercheurs ont conçu un modèle « conscient du risque » qui, comme sa contrepartie financière, garantit que les données atteindront leur destination 99,9 % du temps, mais maintient la perte de trafic au minimum pendant les scénarios de défaillance les plus défavorables à 0,1%. Cela permet aux fournisseurs de cloud de régler le compromis disponibilité-utilisation.
Les chercheurs ont cartographié statistiquement trois ans de puissance du signal réseau provenant des réseaux de Microsoft qui connectent ses centres de données à une distribution de probabilité de défaillances de liaison. L'entrée est la topologie du réseau dans un graphe, avec des flux de données source-destination connectés par des lignes (liens) et des nœuds (villes), avec chaque lien assigné une bande passante.
Les probabilités de défaillance ont été obtenues en vérifiant la qualité du signal de chaque lien toutes les 15 minutes. Si la qualité du signal descendait en dessous d'un seuil de réception, ils considéraient qu'il s'agissait d'un échec de liaison. Tout ce qui précède signifiait que le lien était opérationnel. À partir de ce, le modèle a généré un temps moyen pendant lequel chaque lien était en haut ou en bas, et calculé une probabilité de défaillance - ou "risque" - pour chaque lien à chaque fenêtre de temps de 15 minutes. A partir de ces données, il était capable de prédire quand les liens risqués échoueraient à n'importe quelle fenêtre de temps donnée.
Les chercheurs ont testé le modèle par rapport à d'autres logiciels TE sur un trafic simulé envoyé via les réseaux de Google, IBM, ATT, et d'autres qui se sont répandus à travers le monde. Les chercheurs ont créé divers scénarios de défaillance en fonction de leur probabilité d'occurrence. Puis, ils ont envoyé des demandes de données simulées et réelles via le réseau et ont sélectionné leurs modèles pour commencer à allouer de la bande passante.
Le modèle des chercheurs a maintenu des liens fiables fonctionnant presque à pleine capacité, tout en éliminant les données des liens plus risqués. Par rapport aux approches traditionnelles, leur modèle a exécuté trois fois plus de données sur le réseau, tout en s'assurant que toutes les données arrivent à destination. Le code est disponible gratuitement sur GitHub.