• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Google Duo audio boost ne vous laissera pas pendre au téléphone

    Architecture WaveNetEQ. Lors de l'inférence, nous "réchauffons" le réseau autorégressif en forçant le professeur avec l'audio le plus récent. Après, le modèle est fourni avec sa propre sortie comme entrée pour l'étape suivante. Un spectrogramme MEL d'une partie audio plus longue est utilisé comme entrée pour le réseau de conditionnement. Crédit :Google

    "C'est bon d'entendre ta voix, tu sais que ça fait si longtemps
    Si je ne reçois pas vos appels, alors tout va mal…
    Ta voix à travers la ligne me donne une sensation étrange"
    - Blondie, "Accroché au téléphone"

    En 1978, Debbie Harry a propulsé son groupe new wave Blondie au sommet des charts avec une histoire plaintive d'envie d'entendre la voix de son petit ami de loin et d'insister pour qu'il ne la laisse pas « pendre au téléphone ».

    Mais les questions se posent :et si c'était en 2020 et qu'elle parlait sur VOIP avec des pertes de paquets intermittentes, gigue audio, les retards du réseau et les transmissions de paquets hors séquence ?

    Nous ne le saurons jamais.

    Mais Google a annoncé cette semaine les détails d'une nouvelle technologie pour sa populaire application vocale et vidéo Duo, qui contribuera à assurer des transmissions vocales plus fluides et à réduire les écarts momentanés qui entravent parfois les connexions Internet. Nous aimerions penser que Debbie approuverait.

    Nous avons tous connu la gigue audio sur Internet. Il se produit lorsqu'un ou plusieurs paquets d'instructions comprenant un flux d'instructions audio sont retardés ou mélangés dans le désordre entre l'appelant et l'auditeur. Les méthodes utilisant des tampons de paquets vocaux et l'intelligence artificielle peuvent généralement lisser une gigue de 20 millisecondes ou moins. Mais les interruptions deviennent plus visibles lorsque les paquets manquants totalisent 60 millisecondes et plus.

    Google affirme que pratiquement tous les appels subissent des pertes de paquets de données :un cinquième de tous les appels perdent 3% de leur audio et un dixième perd 8%.

    Cette semaine, Les chercheurs de Google de la division DeepMind ont indiqué qu'ils avaient commencé à utiliser un programme appelé WaveNetEQ pour résoudre ces problèmes. L'algorithme excelle à combler les lacunes sonores momentanées avec des éléments vocaux synthétisés mais naturels. S'appuyant sur une bibliothèque volumineuse de données vocales, WaveNetEQ comble les lacunes sonores jusqu'à 120 millisecondes. De tels échanges de bits sonores sont appelés des dissimulations de perte de paquets (PLC).

    "WaveNetEQ est un modèle génératif basé sur la technologie WaveRNN de DeepMind, " Le blog AI de Google a rapporté le 1er avril « qui est entraîné à l'aide d'un vaste corpus de données vocales pour continuer de manière réaliste de courts segments de parole, ce qui lui permet de synthétiser entièrement la forme d'onde brute de la parole manquante ».

    Le programme a analysé les sons de 100 locuteurs dans 48 langues, se concentrer sur « les caractéristiques de la parole humaine en général, au lieu des propriétés d'une langue spécifique, " expliquait le rapport.

    En outre, l'analyse du son a été testée dans des environnements offrant une grande variété de bruits de fond pour aider à assurer une reconnaissance précise par les haut-parleurs sur les trottoirs achalandés de la ville, gares ou cafétérias.

    Tout le traitement WaveNetEQ doit s'exécuter sur le téléphone du récepteur afin que les services de cryptage ne soient pas compromis. Mais la demande supplémentaire sur la vitesse de traitement est minime, Google affirme. WaveNetEQ est "assez rapide pour fonctionner sur un téléphone, tout en offrant une qualité audio de pointe et un PLC au son plus naturel que les autres systèmes actuellement utilisés."

    Des échantillons de sons illustrant la gigue audio et l'amélioration avec WabeNetEQ sont publiés sur le rapport Google Blog.

    © 2020 Réseau Science X




    © Science https://fr.scienceaq.com