Une équipe de recherche de l'Institut national d'informatique (NII/Tokyo, Japon) dont Xin Wang, Shinji Takaki et Junichi Yamagishi ont développé un modèle de filtre de source neuronale (NSF) pour les hautes vitesses, synthèse vocale de haute qualité. Cette technique, qui combine des algorithmes d'apprentissage profond récents et un modèle de production de parole classique datant des années 1960, est capable non seulement de générer des formes d'ondes vocales de haute qualité ressemblant étroitement à la voix humaine, mais aussi de conduire un apprentissage stable via des réseaux de neurones.
À ce jour, de nombreux systèmes de synthèse vocale ont adopté l'approche vocodeur, une méthode de synthèse de formes d'onde vocale qui est largement utilisée dans les réseaux de téléphonie cellulaire et d'autres applications. Cependant, la qualité des formes d'onde vocales synthétisées par ces méthodes est restée inférieure à celle de la voix humaine. En 2016, une société technologique étrangère influente a proposé WaveNet, une méthode de synthèse vocale basée sur des algorithmes d'apprentissage en profondeur, et a démontré sa capacité à synthétiser des formes d'onde vocales de haute qualité ressemblant à la voix humaine. Cependant, un inconvénient de WaveNet est la structure extrêmement complexe de ses réseaux de neurones, qui exigent de grandes quantités de données vocales pour l'apprentissage automatique et nécessitent un réglage des paramètres et diverses autres procédures laborieuses d'essais et d'erreurs à répéter plusieurs fois avant que des prédictions précises puissent être obtenues.
Aperçu et réalisations de la recherche
L'un des vocodeurs les plus connus est le vocodeur source-filtre, qui a été développé dans les années 1960 et reste largement utilisé aujourd'hui. L'équipe de recherche du NII a infusé la méthode conventionnelle du vocodeur source-filtre avec des algorithmes de réseau neuronal modernes pour développer une nouvelle technique de synthèse de formes d'ondes vocales de haute qualité ressemblant à la voix humaine. Parmi les avantages de cette méthode de source-filtre de neurones (NSF) se trouve la structure simple de ses réseaux de neurones, qui ne nécessitent qu'environ une heure de données vocales pour l'apprentissage automatique et peuvent obtenir des résultats prédictifs corrects sans réglage approfondi des paramètres. De plus, des tests d'écoute à grande échelle ont démontré que les formes d'onde vocales produites par les techniques NSF sont de qualité comparable à celles générées par WaveNet.
Parce que la base théorique de la NSF diffère des technologies brevetées utilisées par les entreprises TIC influentes à l'étranger, l'adoption des techniques NSF est susceptible de stimuler de nouvelles avancées technologiques dans la synthèse vocale. Pour cette raison, le code source mettant en œuvre la méthode NSF a été mis à disposition du public gratuitement, lui permettant d'être largement utilisé.