Utiliser les mathématiques pour mélanger les notes de musique de manière transparente

Trevor Henderson dans la bibliothèque de disques du WMBR, La radio étudiante du MIT. Crédit :Mélanie Gonick, MIT

En musique, "portamento" est un terme utilisé depuis des centaines d'années, se référant à l'effet de glisser une note à une hauteur dans une note d'une hauteur inférieure ou supérieure. Mais seuls les instruments dont la hauteur peut varier en continu, comme la voix humaine, instruments à cordes, et trombones—peuvent produire l'effet.

Aujourd'hui, un étudiant du MIT a inventé un nouvel algorithme qui produit un effet de portamento entre deux signaux audio en temps réel. Dans les expériences, l'algorithme a fusionné de manière transparente divers clips audio, comme une note de piano glissant dans une voix humaine, et une chanson se fondant dans une autre. Son article décrivant l'algorithme a remporté le prix du « meilleur article étudiant » lors de la récente conférence internationale sur les effets audio numériques.

L'algorithme repose sur un "transport optimal, " un cadre basé sur la géométrie qui détermine les moyens les plus efficaces pour déplacer des objets - ou des points de données - entre plusieurs configurations d'origine et de destination. Formulé dans les années 1700, le cadre a été appliqué aux chaînes d'approvisionnement, dynamique des fluides, alignement d'images, modélisation 3D, infographie, et plus.

Dans le travail qui a pour origine un projet de classe, Trevor Henderson, maintenant étudiant diplômé en informatique, appliqué un transport optimal à l'interpolation des signaux audio ou au mélange d'un signal dans un autre. L'algorithme divise d'abord les signaux audio en brefs segments. Puis, il trouve le moyen optimal de déplacer les hauteurs de chaque segment vers les hauteurs de l'autre signal, pour produire le glissement en douceur de l'effet portamento. L'algorithme comprend également des techniques spécialisées pour maintenir la fidélité du signal audio lors de sa transition.

"Le transport optimal est utilisé ici pour déterminer comment mapper les hauteurs d'un son avec les hauteurs de l'autre, " dit Henderson, un organiste de formation classique qui joue de la musique électronique et a été DJ sur WMBR 88.1, La radio du MIT. "S'il s'agit de transformer un accord en un accord avec une harmonie différente, ou avec plus de notes, par exemple, les notes se sépareront du premier accord et trouveront une position pour glisser de manière transparente dans l'autre accord."

Selon Henderson, c'est l'une des premières techniques à appliquer un transport optimal à la transformation des signaux audio. Il a déjà utilisé l'algorithme pour construire un équipement qui assure une transition transparente entre les chansons de son émission de radio. Les DJ pourraient également utiliser l'équipement pour passer d'une piste à l'autre lors de performances en direct. D'autres musiciens pourraient l'utiliser pour mélanger instruments et voix sur scène ou en studio.

Le co-auteur de Henderson sur le papier est Justin Solomon, un professeur adjoint en développement de carrière X-Consortium au Département de génie électrique et d'informatique. Solomon, qui joue également du violoncelle et du piano, dirige le groupe de traitement des données géométriques du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) et est membre du Center for Computational Engineering.

Henderson a suivi la classe de Salomon, 6.838 (analyse de forme), qui charge les étudiants d'appliquer des outils géométriques comme le transport optimal aux applications du monde réel. Les projets des étudiants se concentrent généralement sur des formes 3D issues de la réalité virtuelle ou de l'infographie. Le projet d'Henderson a donc surpris Salomon. "Trevor a vu une connexion abstraite entre la géométrie et le déplacement des fréquences dans les signaux audio pour créer un effet de portamento, " dit Solomon. " Il est entré et sorti de mon bureau tout le semestre avec du matériel de DJ. Ce n'était pas ce que je m'attendais à voir, mais c'était assez amusant."

Crédit :Massachusetts Institute of Technology

Pour Henderson, ce n'était pas trop exagéré. "Quand je vois une nouvelle idée, Je demande, « Est-ce que cela s'applique à la musique ? » dit-il. « Alors, quand on parlait de transport optimal, Je me demandais ce qui se passerait si je le connectais à des spectres audio."

Une bonne façon de penser le transport optimal, Henderson dit, trouve "un moyen paresseux de construire un château de sable". Dans cette analogie, le cadre est utilisé pour calculer la manière de déplacer chaque grain de sable de sa position dans un tas informe à une position correspondante dans un château de sable, en utilisant le moins de travail possible. En infographie, par exemple, le transport optimal peut être utilisé pour transformer ou transformer des formes en trouvant le mouvement optimal de chaque point d'une forme à l'autre.

L'application de cette théorie aux clips audio implique quelques idées supplémentaires issues du traitement du signal. Les instruments de musique produisent du son par des vibrations de composants, selon l'instrument. Les violons utilisent des cordes, les cuivres utilisent de l'air à l'intérieur des corps creux, et les humains utilisent des cordes vocales. Ces vibrations peuvent être capturées sous forme de signaux audio, où la fréquence et l'amplitude (hauteur du pic) représentent des hauteurs différentes.

Classiquement, la transition entre deux signaux audio se fait avec un fondu, où un signal est réduit en volume tandis que l'autre augmente. l'algorithme de Henderson, d'autre part, fait glisser en douceur les segments de fréquence d'un clip à l'autre, sans décoloration du volume.

Faire cela, l'algorithme divise deux clips audio en fenêtres d'environ 50 millisecondes. Puis, il exécute une transformée de Fourier, qui transforme chaque fenêtre en ses composantes fréquentielles. Les composantes de fréquence à l'intérieur d'une fenêtre sont regroupées en « notes » synthétisées individuelles. Le transport optimal mappe ensuite la façon dont les notes dans la fenêtre d'un signal se déplaceront vers les notes dans l'autre.

Puis, un "paramètre d'interpolation" prend le relais. C'est essentiellement une valeur qui détermine où chaque note sera sur le chemin de sa hauteur de départ dans un signal à sa hauteur de fin dans l'autre. Changer manuellement la valeur du paramètre balayera les hauteurs entre les deux positions, produisant l'effet portamento. Ce paramètre unique peut également être programmé et contrôlé par, dire, un crossfader, un composant de curseur sur la table de mixage d'un DJ qui s'estompe en douceur entre les chansons. Pendant que le crossfader glisse, le paramètre d'interpolation change pour produire l'effet.

Dans les coulisses, deux innovations garantissent un signal sans distorsion. D'abord, Henderson a utilisé une nouvelle application d'une technique de traitement du signal, appelé "réaffectation de fréquence, " qui regroupe les groupes de fréquences pour former des notes simples qui peuvent facilement passer d'un signal à l'autre. Deuxièmement, il a inventé un moyen de synthétiser de nouvelles phases pour chaque signal audio tout en assemblant les fenêtres de 50 millisecondes, afin que les fenêtres voisines n'interfèrent pas les unes avec les autres.

Prochain, Henderson veut expérimenter en réinjectant la sortie de l'effet dans son entrée. Cette, il pense, pourrait automatiquement créer un autre effet de musique classique, "legato, " qui est une transition en douceur entre des notes distinctes. Contrairement à un portamento - qui joue toutes les notes entre une note de début et de fin - un legato effectue une transition transparente entre deux notes distinctes, sans capturer de notes entre les deux.

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.

Capteurs photovoltaïques pour l'Internet des objets

La peau artificielle pourrait aider à la rééducation et améliorer la réalité virtuelle

Électronique