• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Changer les règles de l'informatique pourrait alléger l'impact du Big Data sur Internet

    Crédit :CC0 Domaine public

    À une époque où nous comptons sur Internet à un degré sans précédent dans notre vie quotidienne, une équipe de chercheurs U-M dirigée par Mosharaf Chowdhury et Harsha Madhyastha a trouvé un moyen pour les entreprises technologiques, les banques et les systèmes de santé pour tirer plus de capacité de notre infrastructure existante.

    Un changement dans la conception de l'outil logiciel de Big Data Apache Spark pourrait permettre aux plus grands utilisateurs mondiaux de puissance de calcul d'exécuter des tâches massives jusqu'à 16 fois plus rapidement tout en allégeant leur charge sur Internet. Chowdhury est professeur adjoint et Madhyastha est professeur agrégé, à la fois en informatique et en ingénierie. La modification, appelé Sol, est désormais disponible en téléchargement sur GitHub.

    Spark est un framework électronique open source qui sert de gestionnaire de tâches, coordonner de vastes réseaux d'ordinateurs individuels pour travailler ensemble comme une seule machine sur de grandes tâches informatiques. L'un des outils de ce type les plus utilisés dans le monde, il est utilisé par toutes les grandes entreprises technologiques ainsi que par les banques, entreprises de télécommunications, gouvernements et bien d'autres.

    Lorsque Spark a été construit il y a dix ans, la plupart de ces travaux ont eu lieu dans de grands centres de données, où de vastes banques de machines étaient situées sur un seul site. Mais aujourd'hui, il est de plus en plus utilisé pour connecter des machines réparties dans le monde entier et connectées par Internet.

    Chowdhury a aidé à construire Spark pendant ses études supérieures à l'Université de Californie à Berkeley. Il explique qu'il répartit le travail sur des machines individuelles à l'aide d'un composant appelé moteur d'exécution. Il a été conçu principalement pour les grands centres de données, où des groupes de machines sur le même réseau local pourraient communiquer rapidement entre eux. Mais c'est moins efficace lorsque les machines sont à des milliers de kilomètres les unes des autres, reliés par le tuyau relativement étroit d'Internet.

    « Le moteur d'exécution existant de Spark prend des décisions sur l'endroit où envoyer le travail à la toute dernière minute. " a déclaré Chowdhury. " Cette approche maximise la flexibilité, et cela a du sens lorsqu'une tâche est hébergée dans un seul centre de données. Mais cette communication prend beaucoup plus de temps entre les machines connectées par Internet. L'approche de dernière minute laisse souvent les processeurs sous-utilisés, ce qui signifie qu'ils sont assis à attendre le travail."

    Alors Chowdhury et Madhyastha, travailler avec les assistants de recherche des étudiants diplômés Fan Lai et Jie You ainsi que l'étudiant de premier cycle Xiangfeng Zhu, a écrit un nouveau moteur d'exécution appelé Sol. Sol adopte une approche plus proactive; au lieu d'attendre que les processeurs signalent qu'ils sont prêts pour un nouveau travail, il devine lesquels seront les prochains en ligne et leur propose activement de nouvelles tâches. Il demande également aux machines de traiter les données localement lorsque cela est possible au lieu de les déplacer constamment entre les machines.

    Cela signifie moins de brassage de données et de commandes entre les machines, alléger la charge sur Internet et accélérer le traitement des données. L'équipe de Chowdhury a découvert qu'il accélère considérablement le calcul, rendre les tâches courantes quatre à 16 fois plus rapides.

    Alors que la version actuellement disponible est une version de recherche du logiciel plutôt qu'un produit plus raffiné, Chowdhury dit que le publier sous sa forme actuelle est un moyen de stimuler la recherche à un moment où la vitesse est essentielle.

    "Fan Lai se rend déjà disponible pour aider ceux qui veulent l'essayer, ", a-t-il déclaré. "Nous faisons tout notre possible pour avancer rapidement."

    L'article s'intitule "Sol :calcul distribué rapide sur des réseaux lents".


    © Science https://fr.scienceaq.com