Cela peut sembler une bouchée, mais cela signifie vraiment beaucoup. Mozilla parle du « plus grand ensemble de données vocales transcrites du domaine public à ce jour ». Traduction :Plus de 14 ans, 000 personnes. En 18 langues. Sur près de 1, 400 heures (1, 368 pour être exact) de la voix enregistrée. Bienvenue à une initiative baptisée Common Voice.
C'est ce que disait l'annonce de Mozilla, sous la forme d'un blog jeudi de George Roter.
"Aujourd'hui, nous sommes ravis de partager notre premier ensemble de données multilingue avec 18 langues représentées, dont l'anglais, Français, Allemand et chinois mandarin (traditionnel), mais aussi par exemple gallois et kabyle. Tout à fait, le nouvel ensemble de données comprend environ 1, 400 heures de clips vocaux de plus de 42, 000 personnes."
Les contributeurs au projet ont des spécialités professionnelles qui vont des doctorants en reconnaissance vocale aux scientifiques en apprentissage automatique en passant par un professeur de linguistique informatique. En tant que tel, l'effort représente une communauté mondiale de contributeurs de voix ainsi que ce que Mozilla a qualifié de "volontaires passionnés".
Le but de Common Voice est d'aider à enseigner aux machines comment les vraies personnes parlent. En bref, il s'est transformé en une énorme collection de clips vocaux dans des dizaines de langues. Prochaine étape :l'ensemble de données complet sera disponible en téléchargement sur le site Common Voice.
Il semble que les contributeurs de l'équipe de Mozilla ont également résolu les inévitables problèmes. Le blog a mentionné ces points. "Les personnes qui contribuent voient non seulement des progrès par langue dans l'enregistrement et la validation, mais également des invites améliorées qui varient d'un clip à l'autre ; nouvelle fonctionnalité à revoir, réenregistrer, et sauter des clips en tant que partie intégrante de l'expérience ; la capacité de passer rapidement de la parole à l'écoute ; ainsi qu'une fonction pour refuser de parler pendant une session."
Cela semble amusant ou un bac à sable académique, mais en réalité, il existe des aspirations plus solides parmi ceux qui ont contribué à la construction de son corpus.
En 2019, Mariella Lune dans Engagé a remarqué que l'éventail des langues comprenait désormais le néerlandais, Hakha-Chin, Espéranto, Farsi, Basque, Espagnol, Français, Allemand, chinois mandarin (traditionnel), gallois et kabyle.
TechRadar c'est Olivia Tambini, mentionné, "En fournissant gratuitement une énorme bibliothèque de voix humaines dans une gamme de langues, Mozilla pourrait ouvrir les portes à des entreprises qui n'ont pas les ressources d'Apple, Amazone, et Google, pour développer leurs propres assistants vocaux."
Un autre avantage concerne Mozilla lui-même. Mariella Lune dans Engagé mentionné, "L'organisation elle-même prévoit d'utiliser les clips qu'elle collecte pour améliorer son Speech-to-Text, Moteurs Text-to-Speech et DeepSpeech."
Roter a dit, clair et simple, « Notre objectif est à la fois de lancer nous-mêmes des produits à commande vocale, tout en soutenant les chercheurs et les petits acteurs."
Notez que les droits de vantardise lui appartiennent étant le plus grand, pas le seul, ensemble de données du genre. Mozilla voulait que les visiteurs du site sachent que c'était le plus grand, pas le seul, et a également déclaré qu'avec le temps, les visiteurs du site peuvent « regarder sur cette page comme un hub de référence pour d'autres ensembles de données vocales open source ».
Si vous visitez le site Common Voice, vous obtenez le message de leur grande ambition. "Nous construisons, " dit Mozilla. Et que construisent-ils ? Un " open source, ensemble de données de voix multilingues que n'importe qui peut utiliser pour former des applications vocales."
Les contributeurs peuvent choisir de fournir des métadonnées telles que leur âge, sexe, et accent. Les clips vocaux sont à leur tour étiquetés avec des informations utiles dans l'entraînement des moteurs vocaux.
© 2019 Réseau Science X