Un gnou sauvage, également connu sous le nom de gnou.
Chauffage, ventilation, et les systèmes de climatisation, appelés systèmes CVC, peuvent constituer un équilibre délicat. Il y a plusieurs facteurs à considérer, du flux d'air entre les pièces à l'effet de la chaleur du corps humain. Dans la dernière décennie, les chercheurs se sont tournés vers l'apprentissage automatique pour optimiser ces systèmes. Avec des contrôleurs plus intelligents, les bâtiments peuvent économiser de l'énergie sans sacrifier le confort.
Il existe actuellement deux approches principales du problème. Dans la première approche, le contrôleur utilise un modèle détaillé du bâtiment pour gérer ses systèmes. Cependant, le modèle demande beaucoup d'efforts à créer. "Une très bonne maquette d'un bâtiment est difficile à réaliser, difficile à entretenir, et n'évolue pas, " dit Mario Bergés, professeur de génie civil et environnemental. "Les bâtiments ne sont pas tous pareils, il faut donc créer un modèle pour chaque bâtiment."
L'autre approche consiste à générer de grandes quantités de données, ce qui permet au contrôleur de s'adapter à différents systèmes de construction. Dans ce cas, le principal obstacle est le temps que cela prend. "Il faudrait environ 40 ans de données de simulation pour un bâtiment relativement complexe, " dit Bergés. " Dans le monde réel, vous ne pouvez pas simplement passer 40 ans à essayer de comprendre comment contrôler un bâtiment."
Pour relever ces défis, Bergés a travaillé avec Ph.D. l'étudiant Bingqing Chen et un collaborateur de Dell. Ils ont développé une nouvelle solution, Gnu-RL, qui intègre le meilleur des deux approches.
D'abord, Gnu-RL complète le pré-entraînement hors ligne à l'aide de données historiques. Les systèmes CVC ont déjà des commandes, alors Gnu-RL apprend à les copier. De cette façon, il évite les complications de modèles précis et de grandes quantités de données. "Il n'a besoin que de données historiques, dont nous avons déjà beaucoup, " dit Chen.
Une fois la préformation terminée, Gnu-RL peut imiter le contrôleur précédent de manière fiable. Prochain, on lui apprend à s'adapter et à devenir meilleur. Bergés et Chen ont appliqué une politique de contrôle prédictif de modèle différentiable (MPC) récemment développée. Cette politique récompense l'agent pour maximiser la récompense et minimiser les coûts, et l'agent s'ajuste en conséquence jusqu'à ce qu'il obtienne les contrôles optimaux pour le système CVC. Cette méthode est appelée apprentissage par renforcement, c'est pourquoi la solution a RL à la fin de son nom.
La première partie du nom, d'autre part, provient d'une source plus non conventionnelle. Un gnou est un grand, antilope noire d'Afrique. Ces animaux sont incroyablement précoces, ce qui signifie qu'ils sont nés dans un état relativement avancé. "Ils peuvent fuir les prédateurs le jour même de leur naissance, " dit Chen. " Et Gnu-RL contrôle assez bien au début. " Cette similitude a fait du nom un choix naturel.
Bergés et Chen appuient cette comparaison sur deux tests. Le premier test a été réalisé avec une simulation du lieu de travail intelligent au sommet de Margaret Morrison. "Nous avons eu une amélioration de 40 ans à quatre semaines en termes de temps d'entraînement, " dit Bergés. " Et nous avons également montré une amélioration d'environ 6 % des économies d'énergie sans sacrifier le confort. "
Bergés et Chen ont été tellement encouragés par les résultats de la simulation qu'ils ont décidé d'appliquer Gnu-RL à un environnement réel. Pour trois semaines, ils ont laissé Gnu-RL contrôler le flux d'air d'une salle de conférence au Gates Center. Les résultats de ce test étaient tout aussi prometteurs. "Il a appris à imiter le contrôleur existant, " dit Bergés. " Alors, en plus de ça, il a appris à pré-refroidir l'espace et à apporter du confort avant que les gens n'arrivent, ce qui est quelque chose que le contrôleur existant ne faisait pas."
Cependant, alors que leur travail est passionnant, Bergés et Chen tiennent à saluer le travail des chercheurs qui les ont précédés. "Notre contribution est une application, donc nous nous appuyons sur le travail des autres, " dit Chen. Plus particulièrement, Gnu-RL a adopté la politique MPC différentiable développée par Brandon Amos et Zico Kolter. Cette politique a permis à Gnu-RL d'être à la fois efficace et flexible.
Bergés et Chen ont présenté leur article sur Gnu-RL au 6 e Conférence internationale ACM sur les systèmes pour les bâtiments économes en énergie, Villes, et transport (BuildSys 2019). La conférence a eu lieu à New York les 13 et 14 novembre.
En regardant vers l'avenir, Bergés et Chen pensent qu'il y a encore de la place pour que Gnu-RL se développe. « Nous avons examiné des scénarios relativement simples, " dit Bergés. " Il peut y avoir des complications car nous essayons de contrôler des bâtiments beaucoup plus complexes, donc c'est encore une question ouverte. Mais au moins, nous l'orientons dans une direction qui est nouvelle et qui pourrait stimuler de nombreuses recherches sur la façon de résoudre ce problème. »