Présentation du service Cloud Text-to-Speech pour les développeurs

Crédit :CC0 Domaine Public

Le blog Google Cloud Platform a publié une annonce mardi, l'introduction de Cloud Text-to-Speech.

Dan Aharon, Chef de produit, IA cloud, mentionné, "Les développeurs nous ont dit qu'ils aimeraient ajouter la synthèse vocale à leurs propres applications, Aujourd'hui, nous apportons donc cette technologie à Google Cloud Platform avec Cloud Text-to-Speech."

Cloud Text-to-Speech est tout au sujet de la conversion texte-parole alimentée par l'apprentissage automatique.

En tant qu'API, a déclaré le site Web de Cloud Text-to-Speech, vous pouvez créer des interactions avec les utilisateurs, entre les applications et les appareils. Cloud Text-to-Speech prend en charge les applications ou les appareils qui peuvent envoyer une requête REST ou gRPC. Cela inclut les téléphones, PC, tablettes et appareils IoT (par exemple, voitures, téléviseurs, haut-parleurs).

Quelles applications réelles s'appliqueraient ? Les cas d'utilisation incluent l'automatisation du centre d'appels et les réponses interactives des appareils IoT.

Il a déclaré que Cloud Text-to-Speech aide déjà les clients à offrir une meilleure expérience à leurs utilisateurs finaux.

(Robert Hof de SiliciumANGLE a déclaré que "Plusieurs dizaines d'utilisateurs alpha l'ont essayé depuis novembre.")

Les clients incluent Cisco et Dolphin ONE. Ce dernier a intégré Cloud Text-to-Speech dans ses produits; leurs utilisateurs peuvent créer des « expériences naturelles de centre d'appels ».

Qu'est-ce que Google Cloud Platform ? Il s'agit d'une suite de services de cloud computing fonctionnant sur la même infrastructure que Google utilise en interne pour des produits tels que la recherche Google et YouTube. Maintenant, dit Frédéric Lardinois dans TechCrunch , "Les développeurs auront accès au même moteur de synthèse vocale développé par DeepMind que l'entreprise elle-même utilise actuellement pour son assistant et pour sa direction Google Maps."

Entrez dans l'architecture de réseau neuronal WaveNet, qui génère directement une forme d'onde audio brute.

Aharon a blogué, "Cloud Text-to-Speech comprend également une sélection de voix haute fidélité construites à l'aide de WaveNet, un modèle génératif pour l'audio brut créé par DeepMind. WaveNet synthétise une parole plus naturelle et, en moyenne, produit un son vocal que les gens préfèrent aux autres technologies de synthèse vocale."

Le Cloud Text-to-Speech intègre une technologie vocale avancée; Les recherches de Deep Mind sur les modèles d'apprentissage automatique pour générer un discours imitant les voix humaines ont été couronnées de succès. Le discours sonne naturel, et son équipe a affirmé avoir réduit l'écart avec les performances humaines de plus de 50 %.

Lardinois a souligné ce qui rend la contribution de WaveNet à la parole spéciale :

"Contrairement aux efforts précédents, WaveNet ne fait pas de synthèse vocale basée sur une collection de fragments de discours courts, qui a tendance à créer le genre de voix robotiques que vous connaissez sûrement. Au lieu, WaveNet modélise l'audio brut à l'aide d'un modèle d'apprentissage automatique pour créer un discours beaucoup plus naturel. »

Lardinois a également fourni un bref historique de WaveNet et de la façon dont il a abordé la vitesse de réponse très importante.

"Google a parlé pour la première fois de WaveNet il y a environ un an. Depuis, elle a déplacé ces outils vers une nouvelle infrastructure qui se trouve au-dessus des propres unités de traitement tensoriel de l'entreprise. Cela lui permet de générer ces formes d'onde audio 1, 000 fois plus rapide qu'avant, générer une seconde d'audio ne prend donc plus que 50 millisecondes."

Il permet aux développeurs de synthétiser un discours naturel avec 30 voix. De plus, il est disponible en plusieurs langues et variantes. Le site a déclaré qu'il prend en charge 32 voix en 12 langues et variantes.

(Cet écrivain l'a essayé en deux langues. Il a semblé excellent dans les deux tentatives.)

Frédéric Lardinois dans TechCrunch a souligné que les développeurs pourront personnaliser le pitch, débit de parole et gain de volume des fichiers MP3 ou WAV générés par le service.

Aharon dans le blog a fourni un lien pour les informations sur les prix et pour la documentation.

Le logiciel génère automatiquement des instructions de tricot pour les formes 3D

Un pont jusqu'à présent :le mégaprojet controversé de la Chine

Électronique