Un modèle d'IA développé au MIT et au Qatar Computing Research Institute qui utilise uniquement des images satellite pour marquer automatiquement les caractéristiques routières dans les cartes numériques pourrait améliorer la navigation GPS, en particulier dans les pays où les données cartographiques sont limitées. Crédit :Google Maps/MIT News
Un modèle inventé par des chercheurs du MIT et du Qatar Computing Research Institute (QCRI) qui utilise l'imagerie satellite pour marquer les caractéristiques routières sur les cartes numériques pourrait aider à améliorer la navigation GPS.
Montrer aux conducteurs plus de détails sur leurs itinéraires peut souvent les aider à naviguer dans des endroits inconnus. Comptes de voies, par exemple, peut permettre à un système GPS d'avertir les conducteurs des voies divergentes ou fusionnantes. L'intégration d'informations sur les places de stationnement peut aider les conducteurs à planifier à l'avance, tandis que la cartographie des pistes cyclables peut aider les cyclistes à négocier les rues animées de la ville. Fournir des informations actualisées sur l'état des routes peut également améliorer la planification des secours en cas de catastrophe.
Mais créer des cartes détaillées coûte cher, processus fastidieux effectué principalement par les grandes entreprises, comme Google, qui envoie des véhicules avec des caméras attachées à leurs capots pour capturer des vidéos et des images des routes d'une région. La combinaison de cela avec d'autres données peut créer des données précises, cartes à jour. Parce que ce processus est coûteux, cependant, certaines parties du monde sont ignorées.
Une solution consiste à libérer des modèles d'apprentissage automatique sur des images satellites, plus faciles à obtenir et mises à jour assez régulièrement, pour baliser automatiquement les caractéristiques des routes. Mais les routes peuvent être obstruées par, dire, arbres et bâtiments, ce qui en fait une tâche difficile. Dans un article présenté à la conférence de l'Association for the Advancement of Artificial Intelligence, les chercheurs du MIT et du QCRI décrivent « RoadTagger, " qui utilise une combinaison d'architectures de réseaux de neurones pour prédire automatiquement le nombre de voies et de types de routes (résidentielles ou routières) derrière les obstacles.
En testant RoadTagger sur des routes obstruées à partir de cartes numériques de 20 villes américaines, le modèle a compté les numéros de voies avec une précision de 77 pour cent et les types de routes déduits avec une précision de 93 pour cent. Les chercheurs prévoient également de permettre à RoadTagger de prédire d'autres caractéristiques, comme les places de stationnement et les pistes cyclables.
"La plupart des cartes numériques mises à jour proviennent d'endroits auxquels les grandes entreprises se soucient le plus. Si vous êtes dans des endroits qui ne les intéressent pas beaucoup, vous êtes désavantagé par rapport à la qualité de la carte, " dit le co-auteur Sam Madden, professeur au Département de génie électrique et informatique (EECS) et chercheur au Laboratoire d'informatique et d'intelligence artificielle (CSAIL). "Notre objectif est d'automatiser le processus de génération de cartes numériques de haute qualité, afin qu'ils puissent être disponibles dans n'importe quel pays."
Les co-auteurs de l'article sont Songtao He, étudiants diplômés du CSAIL, Favyen Bastani, et Edward Park; Satvat Jagwani, étudiant de premier cycle à l'EECS; les professeurs du CSAIL Mohammad Alizadeh et Hari Balakrishnan; et les chercheurs du QCRI Sanjay Chawla, Sofiane Abbar, et Mohammad Amin Sadeghi.
Combiner CNN et GNN
Quatar, où QCRI est basé, n'est "pas une priorité pour les grandes entreprises qui construisent des cartes numériques, " dit Madden. Pourtant, il construit constamment de nouvelles routes et améliore les anciennes, en particulier en vue d'accueillir la Coupe du monde de football 2022.
« Lors d'une visite au Qatar, nous avons eu des expériences où notre chauffeur Uber ne peut pas comprendre comment se rendre là où il va, parce que la carte est tellement éteinte, " dit Madden. " Si les applications de navigation n'ont pas les bonnes informations, pour des choses telles que la fusion de voies, cela pourrait être frustrant ou pire."
RoadTagger repose sur une nouvelle combinaison d'un réseau de neurones convolutifs (CNN) - couramment utilisé pour les tâches de traitement d'images - et d'un réseau de neurones à graphe (GNN). Les GNN modélisent les relations entre les nœuds connectés dans un graphique et sont devenus populaires pour analyser des éléments tels que les réseaux sociaux et la dynamique moléculaire. Le modèle est « de bout en bout, " ce qui signifie qu'il n'est alimenté que par des données brutes et produit automatiquement une sortie, sans intervention humaine.
Le CNN prend en entrée des images satellites brutes des routes cibles. Le GNN divise la route en segments d'environ 20 mètres, ou "tuiles". Chaque tuile est un nœud de graphe distinct, reliés par des lignes le long de la route. Pour chaque nœud, le CNN extrait les caractéristiques des routes et partage ces informations avec ses voisins immédiats. Les informations routières se propagent sur l'ensemble du graphe, avec chaque nœud recevant des informations sur les attributs de la route dans chaque autre nœud. Si une certaine tuile est occluse dans une image, RoadTagger utilise les informations de toutes les tuiles le long de la route pour prédire ce qui se cache derrière l'occlusion.
Cette architecture combinée représente une intuition plus humaine, disent les chercheurs. Disons qu'une partie d'une route à quatre voies est obstruée par des arbres, ainsi certaines tuiles ne montrent que deux voies. Les humains peuvent facilement supposer que quelques ruelles sont cachées derrière les arbres. Modèles d'apprentissage automatique traditionnels :juste un CNN - extraire uniquement les caractéristiques des tuiles individuelles et prédire très probablement que la tuile occluse est une route à deux voies.
"Les humains peuvent utiliser les informations des tuiles adjacentes pour deviner le nombre de voies dans les tuiles occluses, mais les réseaux ne peuvent pas faire ça, " Il dit. " Notre approche essaie d'imiter le comportement naturel des humains, où nous capturons les informations locales du CNN et les informations mondiales du GNN pour faire de meilleures prédictions."
Poids d'apprentissage
Pour former et tester RoadTagger, les chercheurs ont utilisé un ensemble de données cartographiques du monde réel, appelé OpenStreetMap, qui permet aux utilisateurs d'éditer et de gérer des cartes numériques dans le monde entier. À partir de cet ensemble de données, ils ont collecté des attributs routiers confirmés sur 688 kilomètres carrés de cartes de 20 villes américaines, dont Boston, Chicago, Washington, et Seattle. Puis, ils ont rassemblé les images satellites correspondantes à partir d'un ensemble de données Google Maps.
Dans la formation, RoadTagger apprend les pondérations, qui attribuent divers degrés d'importance aux caractéristiques et aux connexions de nœuds, du CNN et du GNN. Le CNN extrait les caractéristiques des motifs de pixels des tuiles et le GNN propage les caractéristiques apprises le long du graphique. À partir de sous-graphes choisis au hasard de la route, le système apprend à prédire les caractéristiques de la route à chaque tuile. Ce faisant, il apprend automatiquement quelles caractéristiques d'image sont utiles et comment propager ces caractéristiques le long du graphique. Par exemple, si une tuile cible a des marquages de voie peu clairs, mais sa tuile voisine a quatre voies avec des marques de voie claires et partage la même largeur de route, alors la tuile cible est susceptible d'avoir également quatre voies. Dans ce cas, le modèle apprend automatiquement que la largeur de la route est une caractéristique utile de l'image, donc si deux tuiles adjacentes partagent la même largeur de route, ils sont susceptibles d'avoir le même nombre de voies.
Étant donné une route non vue dans la formation d'OpenStreetMap, le modèle divise la route en tuiles et utilise ses poids appris pour faire des prédictions. Chargé de prédire un nombre de voies dans une tuile occluse, le modèle note que les tuiles voisines ont des motifs de pixels correspondants et, donc, une forte probabilité de partager des informations. Donc, si ces tuiles ont quatre voies, la tuile occluse doit également en avoir quatre.
Dans un autre résultat, RoadTagger a prédit avec précision les numéros de voies dans un ensemble de données de synthèse, perturbations routières très difficiles. A titre d'exemple, un viaduc à deux voies couvrait quelques tuiles d'une route cible à quatre voies. Le modèle a détecté des motifs de pixels non concordants du viaduc, donc il a ignoré les deux voies sur les tuiles couvertes, prédisant avec précision quatre voies étaient en dessous.
Les chercheurs espèrent utiliser RoadTagger pour aider les humains à valider et approuver rapidement les modifications continues apportées à l'infrastructure dans des ensembles de données tels que OpenStreetMap, où de nombreuses cartes ne contiennent pas de nombre de voies ou d'autres détails. Une zone d'intérêt spécifique est la Thaïlande, Bastani dit, où les routes changent constamment, mais il y a peu ou pas de mises à jour dans l'ensemble de données.
« Les routes qui étaient autrefois étiquetées comme chemins de terre ont été pavées, il est donc préférable de conduire, and some intersections have been completely built over. There are changes every year, but digital maps are out of date, " he says. "We want to constantly update such road attributes based on the most recent imagery."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.