Licence de Sciences Physiques
SYNTHÉTISEURS
MUSICAUX
Vibrations
Karine D. |
Sylvain D.
|
|
Ce texte a été rédigé par
II Méthode analogique et numérique
1 Le générateur de fréquences (VCO ou DCO)
5 L'enveloppe (EG : enveloppe generator)
IV Tables d’ondes et échantillonnage
V Synthèse par les modèles physiques
C Description de cette synthèse
1 Méthodologie classique de la modélisation physique
3 Synthèse de Mc Intyre,
Schumacher et Woodhouse
Remerciements
Nous tenons, avant toute chose, à remercier tous ceux qui nous ont permis d’apprendre et de comprendre les diverses synthèses sonores et plus particulièrement :
M. RODET Xavier : Professeur à l’université PARIS VI et responsable de l’équipe Analyse/Synthèse à l’IRCAM, pour sa patience lors des journées portes ouvertes de l’IRCAM.
M. GENDRE Claude : Chargé des cours concernant les techniques sonores dans un IUT de l’Université de PARIS V et auteur de " Les synthétiseurs, une nouvelle lutherie ".
M. FOURNEL Nicolas : Programmeur de VIRTUAL WAVES édité chez SYNOPTIC.
L’équipe de Cubic Team : Créatrice du player de module
CUBIC PLAYER qui dispose du plus impressionnant analyseur de spectre par
série de Fourier que nous ayons vu.
On peut distinguer trois types d’opérations fondamentales en audionumérique : la synthèse, le traitement et l’analyse sonore. La synthèse sonore a pour but la création d’un son, selon un algorithme ou une méthode particulière. Pour parvenir à ce résultat, les techniques sont légion et la concurrence que se portent tous les constructeurs de synthétiseurs donne naissance tous les mois à de nouveau types de synthèses.
Après une présentation succincte du son, nous allons décrire brièvement les synthétiseurs analogiques et expliquer les bases des méthodes numériques.
Ensuite, nous allons essayer au cours de ce rapport de décrire les techniques de synthèse les plus importantes, c’est-à-dire celles qui ont dominé (synthèse analogique, synthèse FM et distorsion de phase), qui dominent (tables d’ondes et échantillonnages) et qui vont dominer le marché (modèles physiques et guides d’ondes).
Un son est une vibration de l’air. Il est caractérisé par son amplitude (intensité) et sa fréquence (nombre de vibrations par seconde). Un son pur peut être représenté par une sinusoïde (cas d'un diapason ou d'un générateur de fréquences).
Le plus souvent, les sons sont très complexes. S'il s'agit d'un son périodique, c'est-à-dire si son évolution temporelle est la répétition d'un motif toujours identique, on peut le décomposer en une fréquence fondamentale (f) et un certain nombre d'harmoniques pairs ou impairs. Ces harmoniques sont des mouvements sinusoïdaux de fréquence 2f, 3f, 4f, 5f, etc...soit kf (k étant un nombre entier).
C'est le mathématicien Joseph Fourier (1768-1830) qui a énoncé, en 1822, le théorème fondamental concernant les vibrations sonores : "Toute forme de vibration régulière, si elle est périodique, peut être décomposée et toujours d'une seule manière, en un certain nombre de vibrations pendulaires de fréquences égales à 1, 2, 3, 4... n fois la fréquence fondamentale du mouvement donné".
Si le son n'est pas périodique, on peut distinguer deux cas :
b si le son est aléatoire : souffle, vent, etc... on ne peut plus le décomposer et toutes les fréquences sont mélangées. On sera donc en présence d'un bruit plus ou moins "coloré" suivant la gamme des fréquences concernées.
Jusqu'à l’apparition de l’électronique (invention de la triode par Lee de Forest en 1907), on utilisait uniquement des matières naturelles pour produire des sons : cordes, bois, métal, peau. Avec la mise au point des oscillateurs réalisés d’abord avec des lampes, puis des transistors et maintenant des circuits intégrés, on a pu créer des sons de synthèse à partir d’une fréquence fondamentale à laquelle on ajoute des harmoniques en proportions variables. C’est le principe de la synthèse additive. On s’aperçoit d’ailleurs qu’en ajoutant à une sinusoïde de fréquence f les harmoniques pairs et impairs (2f, 3f, 4f, 5f,...) avec un niveau décroissant, on arrive à obtenir un signal en "dent de scie". Par contre, si l’on se contente d’ajouter les harmoniques impairs jusqu'à l’infini, on obtient un signal carré.
En faisant l’opération inverse, c’est-à-dire en partant d’un signal en "dent de scie" ou d’un signal carré dont on supprimerait progressivement les harmoniques,on arriverait à différentes formes d’ondes se rapprochant des instruments réels.
II Méthode analogique
et numérique
Il faut faire la distinction entre les synthétiseurs ou orgues entièrement numériques et ceux qui possèdent seulement un DCO (oscillateur contrôlé de façon digitale) et un microprocesseur destiné à la transmission des informations du clavier. Ces derniers ne peuvent pas être considérés comme des appareils numériques puisque cette technique n'est pas utilisée directement pour la formation des sons.
- un générateur de fréquence (VCO ou DCO)
- un filtre pour les harmoniques
- un réglage d’amplification (VCA)
- un réglage du temps d’attaque (A : attack)
- un réglage du temps de décroissance (D : decay)
- un réglage du niveau de maintien (S : sustain)
- un réglage du temps d’extinction (R : release)
Tous les paramètres d'un synthétiseur sont contrôlés par une tension : il suffit donc d'agir sur un potentiomètre pour les faire varier. Les réglages des quatre derniers paramètres, c'est-à-dire l'enveloppe (ADSR), peuvent être appliqués à l'amplification (VCA), au filtre (VCF) ou même au VCO pour modifier la fréquence du générateur afin d'obtenir des effets intéressants. Sur les appareils les plus simples, on ne peut régler l'enveloppe que sur l'amplification et quelquefois, on ne peut intervenir que sur l'attaque, la décroissance et l'extinction (ADR), le sustain restant fixe. Il existe également des générateurs d'enveloppe ne comportant que l'attaque et l'extinction (AR).
On trouve souvent une autre forme d'onde : un signal impulsionnel rectangulaire dont le rapport cyclique peut être modifié soit de façon manuelle, soit par une tension issue du générateur d'enveloppe provenant du signal triangulaire d'un autre oscillateur, le LFO (Low Frequency Generator : générateur à basse fréquence). Cette modification, que l'on appelle en anglais PWM (Pulse Width Modulation : modulation de la largeur d'impulsion), donne la possibilité de créer des effets particuliers comme le phasing (déphasage) ou le chorus, effet de choeur ou d'ensemble réalisé à partir d'une fréquence très basse du LFO (environ 3 à 5 Hertz).
Un signal impulsionnel rectangulaire renferme des harmoniques pairs et impairs dont il manque une série suivant la largeur de l'impulsion. Par exemple, il manque les harmoniques 3, 6, 9, etc... quand l'impulsion est égale à 1 /3 (série n pour une impulsion égale à 1/n).
Sur certains synthétiseurs, il existe un autre générateur, le sub-oscillateur (sous-oscillateur), qui délivre un signal carré d'une octave (ou quelquefois de deux octaves) en dessous de la note jouée sur le clavier. On peut ainsi renforcer les basses en réglant le niveau de façon à mélanger les sons graves dans de justes proportions par rapport au VCO avec lequel il est toujours synchronisé.
On trouve généralement trois types de filtres : les filtres passe-bas (Lpf : Low Pass Filter), les filtres passe-haut (Hpf : High Pass Filter), les filtres passe-bande (Bpf : Band Pass Filter).
Il existe aussi le filtre inverse appelé coupe-bande.
Il suffit de diviser 1 Volt par 12 pour trouver la valeur que l'on doit ajouter à chaque note afin d'obtenir la tension suivante : soit 0,0833 Volt (progression linéaire). Ce qui donne les résultats :
do3 3 Volts f = 261,63 Hertz.
do3 dièse 3 + 0,0833 = 3,083 Volts f = 261,63 x 1,05946 = 277,18Hz
ré3 3,0833 + 0,0833 = 3,167 Volts f = 277,18 x 1,05946 = 293,65Hz
ré3 diése 3,1666 + 0,0833 = 3,250 Volts f = 293,65 x 1,05946 = 311,13Hz
mi3 3,2499 + 0,0833 = 3,333 Volts f = 311,13 x 1,05946 = 329,63Hz
fa3 3,3332 + 0,0833 = 3,416 Volts f = 329,63 x 1,05946 = 349,23Hz
etc... jusqu'au do6 qui correspond à une tension de 6 Volts (progression : do1 = 1Volt, do2 = 2Volts, do3 = 3 Volts, do4 = 4 Volts, do5 = 5 Volts, do6 = 6 Volts).
Rappelons que les "tempéraments" utilisés précédemment par les musiciens ne permettaient pas de composer dans tous les tons (en particulier en si bémol majeur et en si majeur). Il s'agissait en effet d'un tempérament inégal avec lequel les accords sonnaient faux dans certaines tonalités. C'est pourquoi Jean-Sébastien Bach a composé une suite de pièces de clavecin intitulée "le clavier bien tempéré" pour montrer qu'avec la nouvelle gamme de douze demi-tons égaux, on pouvait écrire dans tous les tons majeurs et mineurs. Les différents "préludes et fugues" sont donc classés suivant la progression des notes : do majeur, do mineur, do dièse majeur, do dièse mineur, ré majeur, ré mineur, etc...
Il suffit de multiplier ou de diviser chaque tension par 1.05946 pour obtenir la note suivante.
On a donc ainsi :
do3 1 Volt f = 261,63 Hertz.
do3 dièse 1 x 1,05946 = 1,059 Volt f = 277,18 Hertz.
ré3 1,05946 x 1,05946 = 1, 122 Volt f = 293,66 Hertz.
ré3 dièse 1, 12245 x 1,05946 = 1, 189, Volt f = 311,13 Hertz.
mi3 1,18919x 1,05946 = 1,260 Volt f = 329,63 Hertz.
fa3 1,25990 x 1,05946 = 1,335 Volt f = 349,23 Hertz.
etc... jusqu'au do6 qui correspond à une tension de 8 Volts. La progression est la suivante : do3 = 1 Volt, do4 = 2 Volts, do5 = 4 Volts, do6 = 8 Volts.
Bien entendu, un clavier au standard Volt/Octave ne peut pas commander un synthétiseur au standard Volt/Hertz à moins de prévoir entre les deux un amplificateur de tension spécial permettant la conversion d'un standard à l'autre. Pour faire fonctionner un synthétiseur à partir du clavier d'un autre appareil, il faut donc disposer des deux tensions CV et Trigger au même standard.
Dans tout ce qui précède, on a supposé que la touche
restait enfoncée assez longtemps (le contact étant fermé)
pour permettre le déroulement complet du cycle de l'enveloppe. Mais
dans la réalité, si le musicien joue une partition avec des
notes tenues (blanches, rondes), il relâche aussi rapidement certaine
notes (croches, double-croches). Dans ce cas, quand le contact de la touche
s'ouvre pendant l'une des deux premières phases, le cycle s'arrête
et on passe directement à l'extinction du son (release).
Quand une autre touche est enfoncée avant la fin de l'extinction, celle-ci s'arrête et le cycle recommence avec la nouvelle note jouée.
Enfin, si une nouvelle touche est pressée avant que les deux premières phases soient terminées, le cycle recommence à partir du niveau atteint par le son dû à la première touche.
Par contre avec les synthétiseurs polyphoniques, l'extinction continue même si une nouvelle touche est enfoncée avant que la première soit relâchée (dans la limite du nombre des voix : 6, 8 ou plus).
On peut appliquer le signal provenant du LFO au VCO (avec une onde sinusoïdale, on obtient un vibrato), au VCF (avec une onde sinusoïdale ou triangulaire un effet de Wha-Wha) et au VCA (avec une onde sinusoïdale on obtient un trémolo).
Il existe en général deux possibilités de réglages (par potentiomètres) :
- La vitesse de l'effet (rate en anglais) qui est en fait le réglage de la fréquence.
- Le retard (delay en anglais) qui permet par exemple de reproduire
le vibrato retardé des doigts sur les cordes d'un violon. Ce retard
varie de 0 seconde (effet instantané) à 10 ou 20 secondes
suivant les synthétiseurs.
L'onde carrée peut servir d'horloge ou de commande pour d'autres circuits de l'appareil et les dents de scie donnent la possibilité de créer des effets de modulation très spectaculaires.
Sur les synthétiseurs, il existe une commande appelée Portamento (glide en anglais : glissement) donnant la possibilité de créer un effet de déplacement progressif du son d'une note à l'autre comme le ferait un violoniste en faisant glisser son doigt le long d'une corde. L'effet se nomme "portamento" quand le son passe de façon continue par toutes les fréquences comprises entre deux notes et "glissando" quand on entend seulement les notes intermédiaires ce qui correspond au glissement du doigt d'un pianiste sur le clavier. On peut régler l'importance et la vitesse du "portamento" à l'aide d'un potentiomètre. Le circuit électronique provoquant ce phénomène est basé sur le temps de décharge d'un condensateur (constante de temps)
Il est bien évident qu'en essayant de reproduire les différents timbres à partir d'un seul oscillateur délivrant un signal en dents de scie dont les harmoniques ont une valeur constante, on aboutit obligatoirement à un son n'ayant rien de commun avec celui d'un instrument réel malgré l'apport d'un sub-oscillateur et l'utilisation des artifices de modulation que l'on peut ajouter : action du LFO, vibrato, chorus, etc...
On remarquera d'ailleurs que les premiers orgues électroniques avaient, un son plus riche que certains modèles actuels. Ils possédaient en effet un ou plusieurs générateurs séparés pour chaque note, de type analogique (à lampes ou à transistors), dont la fréquence dérivait légèrement au cours de l'utilisation à cause de la variation de capacité des condensateurs et des bobinages, variation due à la chaleur. Il se produisait alors un faible désaccord que l'on peut d'ailleurs obtenir sur certains synthétiseurs avec la commande " Detune " permettant de modifier la fréquence des oscillateurs, surtout s'ils sont du type digital (DCO) et par conséquent très stables.
Pour pouvoir se rapprocher au plus près de la réalité, il serait nécessaire de disposer de plusieurs générateurs par note et d'un circuit électronique capable de faire varier l'amplitude des harmoniques dans le temps pendant l'évolution du son, si courte soit-elle. Ceci n'est guère réalisable avec la synthèse analogique quand on veut rester dans des limites acceptables d'encombrement et de prix de revient. Par contre, grâce à la technique numérique, on dispose maintenant d'un système de calcul à grande vitesse donnant la possibilité de reconstituer un son avec précision, chaque valeur (quantification) correspondant à un instant t (vitesse d'échantillonnage).
La fréquence d'échantillonnage ayant été déterminée, on prélève à l'instant t1 un échantillon d'une valeur Q, codée en système binaire (quantification), que l'on bloque jusqu'à l'instant t2. On mesure la nouvelle valeur, puis on passe à l'instant t3 et ainsi de suite. On obtient une succession de paliers qui doivent être évidemment les plus rapprochés possible, ce qui revient à dire que plus le nombre d'échantillons calculés par seconde est élevé, meilleure est la reproduction du son. La fréquence d'échantillonnage doit en principe, d'après le théorème de Nyquist (énoncé dans un premier temps par Shanon), être le double de la fréquence la plus élevée que l'on doit reproduire. Si l'on augmente trop la fréquence d'échantillonnage, la complexité du système et par conséquent le coût augmente trop rapidement. On adopte donc en général une fréquence de 50000 Hz donnant une bonne reproduction jusqu'à 25 000 Hertz, cette limite étant suffisante pour un instrument de musique puisque les notes les plus aiguës ne dépassent pas 17000 Hertz (sans tenir compte des harmoniques qui deviennent inaudibles à partir de 20 000 Hertz).
Toutes les méthodes de synthèses décrites par la suite sont toutes utilisées grâce à des méthodes numériques (même si, à l’origine, la FM était une synthèse analogique).
III F.M. et distorsion de phase
Les amplitudes des harmoniques d'un son sont variables dans le temps. Cette modification temporelle du spectre a une grande importance dans le mécanisme du timbre et c'est l'impossibilité de faire varier le niveau relatif des harmoniques qui caractérise le son électronique de la technologie analogique.
En 1979, à l'université de Stanford, le docteur J. Chowning a mis au point un procédé qui permet une évolution temporelle du son de façon naturelle grâce à la modulation de fréquence (FM). Il a appliqué cette technique parfaitement maîtrisée en radio pour la fabrication d'un son de synthèse.
Cette technique fait appel à une fréquence porteuse et à une fréquence de modulation. Pour le son, ces deux fréquences appartiennent toujours à la gamme des sons audibles (de 20 Hz à 20000 Hz ) tandis que pour les radios elles varient autour de 100 MHz.
Ces deux fréquences sont produites dans des circuits électroniques appelés "opérateurs" qui renferment un oscillateur délivrant un signal sinusoïdal avec réglage possible de la fréquence (hauteur du son), un amplificateur et un générateur d’enveloppe.
La fréquence du signal de sortie peut être utilisée comme entrée de modulation ou de pitch d'un autre modulateur (ou même du même modulateur) ; ainsi les opérateurs sont soit porteurs soit modulateurs.
On peut distinguer les cas suivants :
En modifiant le rapport des fréquences entre le signal de l’opérateur modulateur et celui de l’opérateur porteur, on modifie l’onde résultante et l’amplitude des différents harmoniques varie naturellement au cours de l’évolution du son.
Voici divers rapports
à titre indicatif :
cuivre 1/1
bois 3/1
basson 5/1
anches (clarinette) 3/2
On peut même imaginer de nombreux opérateurs en cascade.
Lorsqu'on réinjecte le signal de sortie à l'entrée du même opérateur, on provoque une rétroaction (feed back).
On peut aussi utiliser les deux opérateurs en tant que porteurs :
Ce "montage" est utilisé pour la synthèse additive. C'est une synthèse de Fourier à petite échelle.
Il n'y a en effet aucun modulateur qui produise une "série d'harmonique". Il ne peut y avoir plus d'harmoniques qu'il n'y a d’opérateurs. De ce fait, les vrais instruments recrées par la synthèse additive, ont une sonorité beaucoup plus artificielle que ceux conçus par la FM.
On utilise tout de même cette technique pour créer des
sons d'orgues à tuyaux.
Chaque opérateur possède sa propre enveloppe. L’enveloppe appliquée à un opérateur modulateur change le timbre du son tandis que l’enveloppe appliquée à un opérateur porteur modifie le volume en fonction des réglages choisis.
Les brevets de cette technologie ont été achetés par la firme YAMAH. C'est pourquoi, à cette époque, les concurrents ont dû développer d'autres technologies. C'est le cas de CASIO qui a exploité la distorsion de phase, mais cette technique montre très vite ses limites. Au moment de la restitution d'un signal sonore, on provoque volontairement une distorsion de l'angle de phase. Quand le signal est lu de façon linéaire à une vitesse constante, l’onde sinusoïdale est reproduite sans distorsion. Par contre, on constate que l’on obtient une distorsion de l’angle d’origine quand on ne reproduit plus de façon linéaire l’angle de phase (en provoquant par exemple une accélération puis une décélération). Le signal est alors déformé et se rapproche d’un onde en dent de scie.
La modulation de fréquence demeure délicate dans son exploitation
à cause de la difficulté à contrôler tous les
paramètres qui en régissent son utilisation.
IV Tables d’ondes et échantillonnage
On peut se demander pourquoi chercher absolument des fonctions dont les solutions ressemblent aux ondes sonores de véritables instruments de musique alors qu’il serait si simple d’enregistrer chaque note d’un instrument de musique et que le fait d’appuyer sur la touche du synthétiseur déclenche simplement la lecture de la note, un peu comme un magnétophone. De plus, une fonction mathématique n’arrivera jamais à être aussi fidèle à la réalité qu’une note enregistrée.
Malheureusement, si cette théorie semble idéale, elle se heurte à de nombreuses difficultés matérielles. Premièrement, malgré la chute vertigineuse du prix de la mémoire grâce à la démocratisation du PC, la place requise pour enregistrer la totalité des notes d’un seul instrument est déjà énorme : en 16 bits à 44 kHZ, si chaque note dure deux secondes et qu’il y a 28 notes il faut déjà 44000´ 2´ 2´ 28=4,7 Méga octets. De plus, le musicien ne peut pas exploiter un instrument où les notes ont une seule durée (quel que soit le temps de pression de la touche) et la solution d’enregistrer la même note avec des durées différentes ne peut pas non plus satisfaire le musicien puisque c’est à lui de choisir la durée exacte de sa note et non pas à son instrument.
Pour palier à tous ces problèmes, les méthodes de synthèses par notes enregistrées utilise une grande variété de techniques :
- lecture en boucle,
- interpolation mathématique,
- filtre digital polyphonique.
Ce système porte aussi le nom de wave table ou table d’onde (à ne pas confondre avec guide d’onde), en effet, la mémoire contenant les notes contient un très grand nombre de segments de notes jouées et peut être considérée comme une " table " de sons qui peuvent être désignés et utilisés quand besoin est.
Les techniques de boucle et d’enveloppe sont les premières utilisées. Pour une grande partie d’instruments de musique, le son peut être découpé comme nous l’avons fait avec la synthèse FM (Attack-Decay-Sustain-Release). Il suffit donc après avoir joué la partie A et D de jouer en boucle la partie enregistrée correspondant à S, on peut d’ailleurs y appliquer une enveloppe pour diminuer petit à petit l’amplitude. Là aussi la théorie se heurte à un problème : il faut que la partie qui est jouée en boucle contienne un nombre entier de périodes de la fréquence fondamentale du son joué ; si ce n’est pas le cas, un changement de hauteur du son indésirable va apparaître quand la boucle va commencer. Souvent une seule période de la fréquence fondamentale suffit pour être jouée en boucle, mais lorsque l’instrument à un effet vibrato ou chorus naturel, il faut que la longueur enregistrée soit égale à un multiple de la période du vibrato ou du chorus. Mais tout ceci ne concerne pas les instruments de percussion qui sont joués eux d’une seule traite.
On peut aussi à partir d’une seule note enregistrée, produire les notes de hauteurs voisines. En prenant un do, si le pointeur qui pointe l’amplitude de l’onde sonore n’est pas incrémenté de un tout les d t mais est incrémenté de deux, la fréquence fondamentale sera doublée ; on obtient donc le do de l’octave supérieure. Mais ce n’est pas intéressant si on est limité à des incrémentations de nombre entier. Heureusement, grâce à des méthodes d’interpolation, on peut utiliser des incrémentations décimales. Prenons l’exemple d’une incrémentation de 1,5 : il faut d’abord séparer la partie entière de la partie décimale (en base binaire puisque le synthétiseur comme tous les ordinateurs fonctionne en mode binaire). Comme on peut le voir sur le dessin, l’incrémentation de l’adresse du pointeur précédent permet de savoir quelles sont les deux valeurs qui encadrent la valeur à jouer. Dans le cas présent, comme 0,5 est la moitié de 1, l’amplitude à jouer est la moyenne des deux amplitudes extrêmes. Dans le cas général l’amplitude S à jouer est S(n+K)=(1-K)*S(n)+K*S(n+1) où n est la partie entière de l’adresse et K la partie décimale (donc n+K l’adresse totale).
Mais il existe de nombreuses autres méthodes d’interpolation beaucoup plus sophistiquées qui permettent en plus de réduire la distorsion, mais ces techniques sont extrêmement gourmandes en puissance. C’est pourquoi certains synthétiseurs ont des notes enregistrées à des fréquences très nettement supérieures à 44 kHz, l’interpolation devient alors minime ; mais cette fois, l’inconvénient est que les notes enregistrées requièrent beaucoup de mémoire. Cette méthode n’est donc à employer que pour les instruments sensibles.
V Synthèse par les modèles physiques
Cette nouvelle famille de méthodes de synthèse est fondée sur la cause du son et non sur le son lui-même. Elles aboutissent à l’étude et à la représentation des dispositifs de production sonore.
En effet, on peut simuler les processus vibratoires produisant un son acoustique en programmant dans l’ordinateur la résolution des équations différentielles traduisant les lois physiques : c’est la synthèse par modèles physiques qui repose sur la description d’un signal acoustique comme résultant de l’interaction de structures mécanico-acoustiques.
D’autres pionniers du 19ème siècle (Mayer, Tyndall, Poynting, Thomson...) ont fabriqué des modèles simulant la physique d’instruments de musique, mais les progrès ont été lents au début du 20ème siècle. A partir de 1963, la recherche sur la synthèse par modèles physiques a été menée par Keefe, Park, Fletcher et Rossing. Puis Lejaren Hiller, James Beauchamp et Pierre Ruiz, de l’université de l’Illinois, ont été parmi les premiers à adapter des modèles physiques à la synthèse numérique de la musique. Ils se sont concentrés sur la synthèse des sons d’objets comme des cordes, des barres, des plaques et des membranes, mis en vibration par pincement et par percussions.
Un autre pionnier de la synthèse des modèles physiques, Ercolino Ferreti, a dirigé les travaux d’étudiants du MIT, de Harvard et de l’université de l’Utah dans les années 60 et 70. En 1967, encouragé par ses premiers résultats, Ferreti fonda une société appelée Ferreti-Lay qui commercialisait de la musique synthétisée par ordinateur. Mais, les techniques de modélisation physique demandent de telles capacités informatiques que de gros ordinateurs spécialisés étaient déjà saturés par la synthèse de deux ou trois voix. La société Ferreti-Lay fut dissoute en 1970. De nos jours, de nombreux chercheurs étudient le procédé de synthèse par modèles physiques qui est en voie d’évolution.
- Tout d’abord, la modélisation physique vise à savoir dans quelle mesure peut-on utiliser des modèles mathématiques pour représenter efficacement les mécanismes de production des sons des instruments existants.
- Puis, elle permet la synthèse informatique de sons d’instruments de musique existant réellement. Mais, elle offre également la possibilité de créer des sons d’instruments imaginaires simulés par logiciel qu’il serait impossible de fabriquer en raison de contraintes matérielles. Dans cette catégorie se classent des instruments fantasmagoriques dont les caractéristiques et la géométrie peuvent changer dans le temps (comme un violoncelle élastique qui grandirait ou rétrécirait au cours d’une phrase) ou des instruments impossibles comme un tambour dont la membrane ne peut être crevée quelle que soit la force avec laquelle on la frappe, ou une guitare dont les cordes sont aussi longues et aussi épaisses que les câbles d’un pont suspendu...
Le scientifique doit donc caractériser qualitativement le fonctionnement du système en faisant l’inventaire des différents phénomènes physiques dont il est le siège. Il élabore ensuite un modèle mathématique qui rend compte quantitativement de ces phénomènes à partir des lois de la mécanique et de l’acoustique.
La synthèse par modèles physiques repose donc essentiellement sur l’interaction entre l’excitateur et la résonateur. Une excitation est une action qui provoque une vibration, comme le frottement d’un archet, un coup de baguette ou un souffle d’air. La résonance est la réaction du corps d’un instrument à la vibration excitatrice. C’est l’interaction entre l’excitation et la résonance qui crée la variété et la subtilité des sons que nous entendons lors d’exécution par des musiciens virtuoses. C’est pourquoi la modélisation physique peut donner une idée du geste qui sous-tend l’émission de sons.
Il existe donc différents formalismes qui introduisent plusieurs approches mathématiques pour décrire les phénomènes physiques :
Ensuite, il convient de préciser les conditions limites auxquelles l’objet vibrant peut-être soumis. Il s’agit des valeurs des variables qui ne peuvent être dépassées. Les conditions limites permettent également de prendre en compte les cas où le système ne s’est pas totalement stabilisé après avoir reçu un apport d’énergie. L’état initial est également indiqué (par exemple, la position de départ d’une corde au repos). Ensuite, l’excitation est décrite sous formes d’algorithmes comme une source d’énergie affectant l’objet. Pour les instruments acoustiques, les principales sources d’excitation incluent les moyens de percussion (baguettes, maillets, marteaux de pianos), le souffle d’air dans l’anche de certains instruments à vents, et le frottement de l’archet sur les instruments à cordes.
Enfin, doit être mentionné le comportement transitoire qui est dû à des facteurs comme le frottement et la manière dont le son est rayonné et, qui constitue une limitation supplémentaire des conditions de vibrations indiquées.
On a ainsi déterminé le plus petit nombre de variables permettant de décrire avec exactitude l’état du phénomène modélisé (par exemple, pour le piano, on étudie la table d’harmonie, la caisse de résonance et les cordes par sympathie : la corde frappée fait vibrer ses voisines). À ce stade, on a un système d’équations assez compliqué qui représente le modèle physique de l’instrument et qui sont une description précise des lois régissant les variations temporelles des paramètres du système.
Si certaines catégories d’équations différentielles ont des solutions générales, bon nombre de systèmes d’équations interdépendantes employés dans le domaine de la modélisation physique ne peuvent cependant être résolus que selon une procédure itérative par approximations successives. Au fur et à mesure de la résolution mathématique, l’ordinateur trouve donc les valeurs de l’amplitude de l’onde sonore en fonction du temps. Après avoir été traitéés par le convertisseur analogique/numérique et le haut-parleur, ces valeurs constituent la variation temporelle de la pression de l’air au niveau de l’oreille de l’auditeur positionné à un endroit bien précis. En effet, on veut que l’auditeur entende le même son que s’il se trouvait devant un piano par exemple : dans ce cas, on cherche à ce que la solution trouvée représente un signal connu. Mais on peut désirer aussi créer de nouveaux sons.
En outre, on peut concevoir des instruments imaginaires tel que l’assemblage d’un tambour, d’une corde et d’une caisse de résonance par exemple : le programmateur divise cet instrument fantasmagorique en différentes parties et recherche un jeu d’équations pour chacune. Il en crée un également qui regroupe les interactions d’une partie du système sur une autre. En revanche, l’ordinateur ne sait déterminer les systèmes d’équations que pour des instruments virtuels constitués seulement de tubes et de dérivations dont la longueur reste discrète et s’il n’y a pas de coulissage.
Cette méthodologie classique est donc sous-tendue par un ensemble d’équations différentielles fondées sur le paradigme à masses et ressorts, modèles de structures vibrantes.
Dans ces travaux comme dans d’autre simulations plus récentes, les cordes sont modélisées de façon traditionnelle comme une série de masses discrètes reliées par des ressorts. Le modèle à masses et ressorts est utilisé depuis longtemps par les physiciens et acousticiens pour décrire de objets vibrants et les ondes qu’ils émettent. Dans ce paradigme à ressorts et masses, deux qualités essentielles des corps vibrants sont aussi prises en compte :
- leur densité, c’est à dire la masse par quantité unitaire du corps étudié. Dans le cas d’une corde, son poids peut donc être pris comme une densité.
- leur élasticité modélisée par les ressorts : si une partie quelconque du corps est déplacée par rapport à sa position d’équilibre, il apparaît immédiatement une force contraire qui tend à ramener le système à sa position stable. Si l’on perturbe l’état d’une corde, par exemple en la pinçant, ses parties déplacées exercent sur les parties adjacentes des forces qui les écartent de leur position d’équilibre, ce qui entraîne ensuite le déplacement de portions voisines, et ainsi de suite, en un processus appelé propagation des ondes. Du fait de la masse du corps, ses parties ne s’écartent pas toutes instantanément de leurs positions d’équilibre, mais avec un léger décalage. L’impulsion du pincement se propage donc le long de la corde à une vitesse particulière appelée célérité de l’onde.
Schéma 1
Schéma 2
Schéma 3
Cette figure est une représentation graphique d’une corde sous forme d’un certain nombre de masses identiques reliées par de petits ressorts. Si la première masse est déplacée vers la droite (schéma 1), cela comprime le premier ressort qui exerce alors une force sur la deuxième masse. Celle-ci se déplace alors à son tour vers la droite, ce qui comprime le deuxième ressort et ainsi de suite. Les déplacements des masses successives se font dans le sens de propagation de la perturbation (c’est à dire horizontalement), on parle d’onde longitudinale (schéma 2). La propagation d’ondes transversales se produit lorsque le déplacement initial est perpendiculaire au sens de propagation de l’onde (schéma 3).
C’est le principal type de vibration ondulatoire dans des cordes d’instruments de musique qui sont pincées, martelées ou frottées. Il existe aussi un autre type de vibration, torsion, mais il n’est généralement pas modélisé par la synthèse du son.
Schéma 2
Schéma 3
Ces schémas montrent que la représentation des cordes sous formes de série de masses reliées par des ressorts peut être étendue aux surfaces et volumes vibrants. Les surfaces peuvent être modélisées sous forme d’un réseau de masses reliées à plusieurs ressorts (schéma 1) ou encore comme des cercles concentriques dans le cas de la membrane d’un tambour (schéma 2). Les volumes, eux, prennent la forme d’un treillis (schéma 3) dans lequel les masses peuvent être connectées entre elles de six façons différentes.
- De plus, on pourrait faire une représentation qui permettrait de passer d’un instrument à l’autre de façon continue en réalisant un morphing du jeu d’équations.
- En outre, la division de la corde en une série de masses discrètes a pour avantage de permettre la modélisation du mode d’excitation (par exemple, un pincement) en un point donné de la corde sous forme d’application d’une force à une masse unique qui la transmet ensuite aux autres masses par l’intermédiaire des ressorts. Lorsqu’une corde a été pincée, sa forme à un instant particulier est déterminée par résolution d’un ensemble d’équations différentielles.
- Puis cette méthode est limitée par le fait que la plupart des instruments de musique ne peuvent être représentés que par des modèles très complexes qui conduisent à des systèmes couplés d’équations différentielles dont la résolution numérique s’avère extrêmement lourde et ne peut être effectuée en temps réel : en effet, l’ordinateur calcule le comportement vibratoire de l’instrument pour chaque instant t. Mais si le temps qu’il met à calculer est supérieur à l’écart entre deux instants t1 et t2 pour lesquels il calcule la valeur de l’onde sonore, le son obtenu ne sera pas celui qui était prévu. Pour que l’auditeur ait la sensation que le son synthétisé soit agréable, il faut que le temps de résolution des équations par l’ordinateur soit inférieur à l’inverse de la fréquence d’échantillonnage. C’est pourquoi pour contourner ce problème, les scientifiques travaillent parfois en temps différé : l’ordinateur ou le synthétiseur résout le système d’équation pour chaque instant t, puis il met chaque couple de valeurs (t ; amplitude de l’onde) en mémoire. Dans cette synthèse, on se heurte donc à la dualité de résolution fréquentielle et temporelle. Mais la puissance des ordinateurs n’est pas vraiment une barrière car de nouvelles stations informatiques de plus en plus perfectionnés sont créées régulièrement. Il suffit donc que les scientifiques soient patients s’ils se heurtent à un jeu d’équations très compliquées à résoudre.
- Ensuite, même si le chercheur a trouvé un jeu d’équations qui représente le modèle physique de l’instrument et dont la solution ressemble très fortement au son réel, il manquera toujours quelque chose pour que cette simulation soit parfaite. En effet la turbulence, qui intervient dans la propagation sonore, est un phénomène que les scientifiques n’arrivent pas à décrire dans les équations sauf pour des tuyaux. Ils rajoutent donc un bruit aléatoire qui essaie de ressembler le plus possible au son généré par ces phénomènes de turbulence en étudiant cette fois le son généré par l’instrument (grâce à un spectre de Fourier) et non pas directement l’instrument.
- En outre, les modèles physiques sont en général prisés par les musiciens. Mais ce sont des systèmes qui restent très difficile à contrôler : le musicien doit littéralement apprendre à en jouer en précisant des valeurs de paramètres dont la signification lui est parfois ésotérique.
- Enfin, cette approche classique de la synthèse par modèles physiques ne se prête pas à la modularité (il faut repartir de rien dès que l’on aborde un instrument nouveau) et sans un certain nombre de précautions, la résolution numérique peut diverger et donc donner des solutions erronées.
La synthèse modale caractérise chaque sous-structure comme un ensemble de données modales composé, d’une part de fréquences et coefficients d’amortissement de ses modes de résonance et, d’autre part, d’un ensemble de coordonnées représentant la forme du mode de vibration. La vibration générale instantanée d’un instrument peut donc être exprimée comme la somme des contributions de ses modes. Ces derniers, également appelés modes de résonance, sont aussi responsables de maxima observés dans les enveloppes spectrales des sons produits. Ainsi ce type de formalisme offre une représentation physique des systèmes plus directement relié à la perception.
Dans la réalisation d’Adrien, la vibration instantanée est décrite par un vecteur de N coordonnées associées à N points choisis de la structure. Ces coordonnées sont liées entre elles de telle sorte que les caractéristiques géométriques et mécaniques soient proches de celles de l’instrument. L’ensemble de N points est équivalent aux N ensembles correspondants de données modales. Un mode de vibration donné peut être décrit au moyen des déplacements relatifs des N points.
Pour des sous-structures simples, comme une corde non amortie, il est possible de trouver les données modales sous forme d’équations dans des documents de mécanique théorique. Dans le cas de structures vibrantes complexes, les données modales peuvent être obtenues par expérimentation sur des instruments réels.
Quant à ses avantages, elle est plus souple que le paradigme à masses et ressorts, en raison de la modularité des sous-structures modales. En effet, la synthèse modale divise les mécanismes de production du son en sous-structures vibrantes. Il est ainsi possible d’en ajouter ou d’en ôter pour créer des effets de synthèse variables dans le temps, comme " l’agrandissement " ou le " rétrécissement " de la taille d’un instrument. Mais ces changements de paramètres ne peuvent pas être effectués de manière continue. Dans la simulation, on n’a pas accès à la continuité : c’est un comportement chaotique que l’on contourne par l’élaboration d’états métastables (entre deux états stables).
De plus, la synthèse modale permet aussi de faire des interpolations de timbre entre un instrument et une autre en combinant les sous-structures de façon non naturelle.
Après avoir étudié plusieurs instruments, ces trois chercheurs ont donc décrit une méthode de synthèse efficace : la synthèse MSW.
Son avantage est que les paramètres de commande sont liés à ceux qu’exploitent les musiciens.
Nous allons donc d’abord présenter la théorie qui sous-tend l’approche de Mc Intyre, Schumacher et Woodhouse. Puis, nous effectuerons une description générale de la technique de synthèse MSW.
Ainsi, dans le modèle MSW d’une clarinette, l’excitation non linéaire est causée par un souffle dans l’embouchure de la clarinette, dans laquelle l’anche agit comme une sorte d’interrupteur qui ouvre et ferme alternativement l’arrivée d’air dans le tuyau résonant (la perce de la clarinette). Cette action est causée par des variations de la pression dans l’embouchure. Au début, l’anche est légèrement entrouverte, mais le souffle d’air introduit crée une pression qui la ferme. Cela permet alors à l’air de sortir de l’embouchure pour entrer dans la perce et s’échapper ensuite de la clarinette, ce qui rouvre l’embouchure. L’anche convertit donc un souffle d’air régulier en une série de bouffées dont la fréquence est déterminée par la longueur effective de la perce, qui varie avec l’ouverture et la fermeture des trous. Autrement dit, à l’intérieur de la perce, les ondes résonnent aux hauteurs que peut produire la clarinette. Du fait de sa masse et de sa rigidité, la perce l’emporte presque totalement sur l’anche en ce qui concerne la détermination de la hauteur. Cette interaction entraîne une rétroaction entre le résonateur et l’excitateur (voir figure ci-après).
Dans le modèle MSW des cordes frottées, la commutation non linéaire se produit lorsque le frottement de l’archet " capture " la corde un bref moment jusqu’à ce qu’elle glisse et soit " relâchée " par l’archet. Puis ce frottement se reproduit et la corde est à nouveau " prisonnière " et ainsi de suite. Dans une flûte ou un tuyau d’orgue, l’excitation non linéaire est causée par le mouvement alternatif du jet d’air de part et d’autre du biseau. Lorsque cette pression atteint un niveau élevé, la force de sa libération l’emporte sur le jet d’air entrant et provoque une brève interruption de l’arrivée d’air dans le tuyau.
Dans ces trois cas (bois, cordes frottées et tuyaux), l’excitation est un mécanisme de commutation non linéaire qui envoie une onde transitoire de type impulsionnel dans la partie linéaire de l’instrument. Celle-ci agit comme un filtre qui arrondit la forme de l’onde afin de produire le timbre caractéristique de l’instrument.
Le son produit par le modèle MSW n’est pas tellement réaliste par suite des multiples simplifications opérées à des fins d’efficacité et de généralité. Il demande à être considérablement affiné pour obtenir des modèles convaincants de sons d’instruments réels.
L’élément de base d’un guide d’ondes est une paire de lignes de retard numériques. Chaque ligne de retard contient une onde qui se propage dans le sens inverse de l’autre et revient par réflexion jusqu’au centre une fois qu’elle a atteint l’extrémité de la ligne. Les mouvements de l’onde de bas en haut du guide d’ondes le font résonner à des fréquences liées à ses dimensions. Si le guide d’ondes présente une torsion, un changement de taille ou recoupe un autre guide d’ondes, son schéma de résonance s’en trouve modifié. La voix et les instruments traditionnels comme les cuivres, les bois et les instruments à cordes peuvent être simulés à l’aide d’oscillateurs qui excitent un réseau de guide d’ondes.
Dans la simulation de cuivres ou de bois, chaque section du tuyau de l’instrument est simulée par un guide d’onde. L’anche, ou l’embouchure, qui sert d’excitateur, est modélisée soit par un simple oscillateur à consultation de tables, soit par un oscillateur non linéaire plus complexe qui excite le réseau de guides d’ondes.
L’oscillateur non linéaire est modélisé sous forme de mécanisme masses-ressorts-amortisseurs. Ce même système (oscillateur non linéaire excitant un réseau de guide d’ondes) peut être appliqué à la synthèse des cordes, dans laquelle l’oscillateur non linéaire modélise l’interaction entre l’archet et la corde.
En unissant plusieurs guides d’ondes par des raccords de diffusion (qui
envoient l’énergie à tous les guides d’ondes connectés),
en ajoutant des filtres aux points stratégiques et en insérant
des jonctions non linéaires qui excitent le réseau de guides
d’ondes, des chercheurs ont réalisé des modèles d’instruments
de musique réels.
En conclusion, la modélisation physique (synthèse centrée sur l’observation des causes et aboutissant à la représentation des dispositifs de production sonore) représente une énorme ressource potentielle pour la synthèse du son.
Mais, bien qu’elle ait fait l’objet d’un intérêt constant en synthèse de la parole et en informatique musicale, elle demeure pour l’instant peu utilisée dans un contexte de production.
En outre, pour l’instant les ordinateurs ne savent résoudre qu’un nombre restreint de systèmes d’équations obtenus en simplifiant l’instrument : les solutions génèrent donc fréquemment des sons qui ressemblent à ceux d’instruments de musique, mais qui ne sont pas forcément d’un très grand réalisme. De plus, pour chaque instrument simulé, il reste beaucoup de travail au musicien pour savoir jouer de cet instrument.
Mais la recherche sur la synthèse par modèles physiques
est en voie d’évolution.
Certaines caractéristiques de sons acoustiques sont si difficiles à cerner qu’il est utopique de penser reproduire fidèlement ces sons par des synthétiseurs, même si les modélisations physiques actuelles s’en approchent. Il manquera toujours cette " chaleur " propres aux instruments réels.
Pourtant, les synthétiseurs se sont imposés comme de vrais instruments, avec un son souvent reconnaissable suivant les marques et dont les possibilités n’ont que peu à voir avec les instruments acoustiques conventionnels. C’est pourquoi de nombreux musiciens qui considèrent le synthétiseur comme un simple piano pas très cher et de mauvaise qualité, mais qui à l’avantage d’être portable, n’utilisent pas le quart du potentiel de cet instrument.
A l’heure actuelle, de nombreuses voies passionnantes sont explorées,
mais elles n’ont pas encore donné de résultats très
exploitables (et les constructeurs de synthétiseurs préfèrent
rester très discrets sur leurs sujets de recherche). On peut espérer
que la synthèse sonore fractale, la synthèse sonore par automates
cellulaires et la synthèse sonore par réseaux neuronaux seront
les techniques qui donneront naissance aux timbres du prochain millénaire...