Deep Voice amélioré peut imiter n'importe quelle voix en quelques secondes

Approches d'adaptation du locuteur et d'encodage du locuteur pour la formation, clonage et génération audio. Crédit :arXiv : 1802.06006 [cs.CL]

Via le livre blanc qu'ils ont téléchargé sur le arXiv serveur de préimpression, une équipe de Baidu (la réponse de la Chine à Google) a annoncé une mise à niveau de son application de synthèse vocale appelée Deep Voice. Maintenant, au lieu de prendre une demi-heure ou plus pour analyser la voix d'une personne et la reproduire, le système peut le faire en moins d'une minute. Le système basé sur un réseau de neurones fait partie d'un effort de l'équipe de Baidu pour faire en sorte que les machines ressemblent davantage à des humains lorsqu'elles nous "parlent".

Il y a deux parties au système. La première consiste à enregistrer des échantillons de voix pour permettre au système d'apprendre à quoi ressemble la voix du sujet. La deuxième partie lit le texte défini par l'utilisateur à haute voix dans la voix du sujet.

Plusieurs groupes ont travaillé sur des projets visant à reproduire le son de la voix d'une personne, ostensiblement pour permettre aux assistants robotiques de ressembler à de véritables assistants humains. Ainsi, un programme qui convertit le texte en mots qui vous ressemblent, votre voisin, Donald Trump ou la reine d'Angleterre ne devraient pas offrir grand-chose en termes de produit final, bien que Baidu suggère qu'il pourrait être utilisé par des personnes qui ont perdu l'usage de leur voix. Au lieu, il est conçu comme un tremplin vers de plus grandes choses. Le nouveau système, les rapports de l'équipe, fonctionne de manière optimale lorsqu'on lui donne 100 échantillons de voix de cinq secondes. Il peut aussi manipuler une voix, permettre aux gens d'entendre comment ils pourraient sonner, par exemple, avec un accent britannique, ou en tant que personne du sexe opposé. Il s'améliore également dans l'imitation des voix, et est maintenant capable de tromper les logiciels de reconnaissance vocale 95 pour cent du temps - et un test humain a donné au système une note moyenne de 3,16 sur 4.

Mais, comme beaucoup dans la presse l'ont noté, la technologie pourrait causer des problèmes. Les interrogatoires enregistrés par la police pourraient devenir inutiles si n'importe qui avec un smartphone pouvait générer la même conversation. Il y a aussi le problème de l'usurpation d'identité. Si un voleur peut voler vos données et votre voix, vous pourriez ne jamais le récupérer. Ou envisagez que des agents politiques publient de faux enregistrements de politiciens ayant des conversations qui pourraient influencer une élection.

Le motoriste Rolls-Royce renoue avec les bénéfices

Une découverte liée au lithium pourrait prolonger la durée de vie de la batterie et améliorer la sécurité

Électronique