• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Moins de chat entraîne plus de travail pour l'apprentissage automatique

    L'équipe utilise une analyse approfondie des calculs parallèles pour accélérer l'apprentissage automatique à grande échelle. Crédit :Onur Oymak / Alamy

    En déconstruisant et en analysant les méthodes éprouvées utilisées dans les calculs massivement parallèles, une collaboration dirigée par KAUST a développé un cadre révolutionnaire pour des calculs parallèles efficaces à grande échelle. Le cadre est particulièrement pertinent pour les types de traitement nécessaires à l'optimisation de l'apprentissage automatique.

    La "parallélisation" d'une tâche d'optimisation ou de traitement de données permet de répartir la tâche entre de nombreux nœuds de calcul. Idéalement, cela diviserait le temps nécessaire au calcul par le nombre de nœuds recrutés pour la tâche. Cependant, avec la parallélisation vient la nécessité de transmettre des quantités croissantes d'informations entre les nœuds, ce qui signifie que le degré d'accélération idéal n'est jamais atteint dans la pratique.

    "En optimisation distribuée, un problème courant est le goulot d'étranglement de la communication, " explique Konstantin Mishchenko du Visual Computing Center. " Imaginez que vous ayez un ordinateur à quatre cœurs, et vous voulez exécuter votre programme parallélisé sur un nouvel ordinateur avec 16 cœurs. Naturellement, vous vous attendriez à ce que le nouvel ordinateur soit environ quatre fois plus rapide. Mais, même si le nouvel ordinateur a quatre fois la puissance de calcul totale, une grande partie est prise en charge par la synchronisation des cœurs à chaque mise à jour du modèle. Ce goulot d'étranglement de la communication réduit l'effet positif de l'augmentation du nombre de cœurs et devient grave lorsque nous adaptons le nombre de cœurs à des centaines ou des milliers. »

    Les recherches récentes du groupe de Peter Richtárik ont ​​abordé ce problème de deux manières :en améliorant la compression des informations transmises à chaque synchronisation et en généralisant l'algorithme d'apprentissage afin qu'il puisse être utilisé avec n'importe quel schéma de compression.

    "La chose la plus difficile à comprendre était pourquoi les idées existantes fonctionnent toujours, " dit Mishchenko. " Communément, les chercheurs devinent d'abord quelle astuce doit être utilisée, et ce n'est que plus tard que nous commençons à comprendre pourquoi cela fonctionne. C'est exactement ce que nous avons fait :en utilisant des contre-exemples simples, nous avons réanalysé deux astuces bien connues et avons réalisé qu'il y avait une meilleure façon de les utiliser."

    Ces techniques, appelée quantification et sparsification aléatoire, sont des méthodes de compression qui sont généralement utilisées de manière isolée. En combinant les deux, et surtout, en compressant uniquement la différence entre les nouvelles informations et la mise à jour précédente, l'équipe a prouvé mathématiquement qu'un schéma de compression plus efficace est possible avec moins de perte d'informations.

    « Le point le plus important est que cette nouvelle technique, où nous compressons la différence entre les informations actuelles et précédentes - et pas seulement les nouvelles informations elles-mêmes - garantit que moins d'informations sont perdues lorsque nous effectuons une compression, " dit Mishchenko. " Et nous avons prouvé et observé dans des expériences que la mise à l'échelle en utilisant notre méthode est plus proche de l'idéal. "

    L'autre résultat généralise l'algorithme d'apprentissage pour une gamme de tâches d'optimisation différentes d'une manière qui lui permet d'être utilisé avec n'importe quel schéma de compression.

    "Notre motivation était de créer une théorie générale qui ne repose sur aucun schéma de compression spécifique afin de comprendre les effets de la compression sur l'entraînement distribué, " dit Samuel Horvath de l'équipe de recherche.

    L'utilisation de cette théorie permet de construire des algorithmes pour le calcul distribué sans les problèmes d'optimisation incomplète et de dépendance à des schémas de compression spécifiques rencontrés par les méthodes existantes.

    "Ce travail nous aide à mieux comprendre les effets des différentes méthodes de compression et nous aide à choisir le bon schéma de compression pour le problème donné, " dit Horvath.


    © Science https://fr.scienceaq.com