Quelles sont les caractéristiques de la façon dont vous dites, "Bonjour, " (ou autre chose d'ailleurs) qui vous rend reconnaissable au téléphone ? Malgré la quantité croissante de littérature sur la qualité de la voix personnelle, on sait très peu de choses sur la façon de caractériser le son d'un haut-parleur individuel.
Deux chercheurs de l'UCLA à Los Angeles, Californie, Patricia Keating et Jody Kreiman, s'associent (comme ils l'ont fait plusieurs fois par le passé) pour appliquer les outils acoustiques à leurs recherches linguistiques, enquête sur cette question. Keating et Kreiman présenteront les résultats préliminaires de leurs recherches lors de la 172e réunion de l'Acoustical Society of America et de la 5e réunion conjointe avec l'Acoustical Society of Japan, tenue du 28 nov. au déc. 2, 2016, à Honolulu, Hawaii.
Essentiellement, Keating et Kreimen veulent découvrir comment mesurer le son des gens. "Il n'y a aucun moyen de quantifier ce que cela signifie, " a déclaré Kreiman. " Quand vous changez quelque chose de physique, pouvez-vous prédire à quoi cela ressemblera ?"
La voix d'une personne peut varier dans le temps en raison de son état émotionnel, santé, le contexte de la conversation, ou une foule d'autres facteurs qui rendent la quantification de cette mesure particulièrement difficile.
Un grand nombre de preuves de la phonétique, la psychologie cognitive et la neuropsychologie indiquent que les auditeurs organisent toute cette variabilité intra-locuteur en un prototype pour chaque locuteur – une représentation « moyenne » – et un ensemble d'écarts par rapport à ce prototype. Même une seule syllabe peut contenir suffisamment d'informations pour distinguer une voix d'une autre, mais il n'est pas encore clair quelles sont précisément les caractéristiques d'identification les plus importantes au sein d'un tel prototype, ou combien chaque caractéristique doit varier avant que la voix ne devienne méconnaissable.
"La qualité de la voix va vagabonder, " a déclaré Keating. "Nous examinons le moment où vous arrêtez de ressembler à vous-même et commencez à ressembler à quelqu'un d'autre."
Keating et Kreiman ont analysé numériquement les enregistrements de cinquante femmes, tous les locuteurs natifs de l'anglais, qui a lu cinq phrases deux fois sur trois jours différents. Cette analyse a examiné plusieurs paramètres acoustiques pour les sons de voyelles et de consonnes composant les phrases lues, comme la fréquence fondamentale, intensités des fréquences harmoniques les unes par rapport aux autres, et comment ils se comparent aux niveaux de bruit sous-jacents dans la voix.
Ces phrases ont fourni à chaque caractéristique une moyenne et une plage quantitatives, dont la collection formait une sorte de profil vocal d'identification potentiel. En comparant tous les locuteurs à cet ensemble de caractéristiques - le profil vocal d'une personne en particulier - en utilisant un ensemble aléatoire de leurs exemples de phrases, il pourrait être testé pour la précision de la distinction du locuteur correct et comparé à la façon dont d'autres ensembles de caractéristiques agissent pour distinguer une voix particulière.
Ce travail s'étend sur des travaux antérieurs que les deux ont menés à bien avec un échantillon de seulement trois locuteurs. La taille plus importante de l'échantillon permet de mieux comprendre quelles caractéristiques, et par quelle marge, rendre une voix reconnaissable méconnaissable. C'est pourquoi l'ensemble des échantillons était composé de locuteurs similaires, toutes les femmes et les anglophones natifs.
« Qui devrait être confus et dans quelles circonstances ? » demanda Kreiman. « Dans quelle mesure un changement acoustique est-il perceptible ? Regarder vers l'avant, répondre à ces questions peut aider à générer des prédictions sur la confusion dans le contexte des deux auditeurs humains, qui ont tendance à être capables de discerner de manière reconnaissable en quelques secondes, et algorithmes informatiques, qui nécessitent généralement des échantillons plus proches d'une minute.