Crédit :CC0 Domaine public
Une nouvelle recherche de l'Université de Waterloo a trouvé un moyen d'améliorer les capacités de compréhension des requêtes vocales des plateformes de divertissement à domicile.
La recherche, en collaboration avec l'Université du Maryland et Comcast Applied AI Research Lab, utilise la technologie de l'intelligence artificielle (IA) pour obtenir les interactions vocales les plus naturelles avec les téléviseurs à ce jour.
"Aujourd'hui, nous nous sommes habitués à parler à des agents intelligents qui font nos enchères, de Siri sur un téléphone portable à Alexa à la maison. Pourquoi ne pourrions-nous pas faire la même chose avec les téléviseurs ?" a demandé Jimmy Lin, professeur à l'Université de Waterloo et titulaire de la chaire David R. Cheriton de la David R. Cheriton School of Computer Science.
"Le Xfinity X1 de Comcast vise à faire exactement cela - la plate-forme est livrée avec une" télécommande vocale "qui accepte les requêtes vocales. Votre souhait est sa commande - dites à votre téléviseur de changer de chaîne, posez des questions sur les films gratuits pour enfants, et même sur les prévisions météorologiques."
En abordant le problème complexe de la compréhension des requêtes vocales, les chercheurs ont eu l'idée de tirer parti de la dernière technologie d'IA - une technique connue sous le nom de réseaux de neurones récurrents hiérarchiques - pour mieux modéliser le contexte et améliorer la précision du système.
En janvier 2018, le nouveau modèle de réseau neuronal des chercheurs a été déployé en production pour répondre aux requêtes d'utilisateurs réels. Contrairement au système précédent, qui a été confondu par environ huit pour cent des requêtes, le nouveau modèle gère de manière appropriée la plupart des requêtes très complexes, améliorant considérablement l'expérience utilisateur.
"Si un spectateur demande 'Chicago Fire, ' qui fait référence à la fois à une série dramatique et à une équipe de football, le système est capable de déchiffrer ce que vous voulez vraiment, " a déclaré Lin. " La particularité de cette approche est que nous tirons parti du contexte, comme les émissions déjà regardées et les chaînes préférées, pour personnaliser les résultats, augmentant ainsi la précision."
Les chercheurs ont commencé à travailler sur le développement d'un modèle encore plus riche. L'intuition est qu'en analysant les requêtes sous plusieurs angles, le système peut mieux comprendre ce que dit le spectateur.
Le papier, Apprentissage multitâche avec les réseaux neuronaux pour la plate-forme de divertissement de compréhension des requêtes vocales, a été présenté lors de la 24e conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données qui s'est tenue récemment au Royaume-Uni. La recherche a été entreprise par Jinfeng Rao, un doctorat diplômé de l'Université du Maryland, son conseiller Lin, et mentor Ferhan Ture, chercheur au Comcast Applied AI Research Lab.