Études supérieures - Les enseignements - Plateforme Temps Réel - Atelier Son - Cours en ligne -

L’audionumérique, principe, normes

Introduction

L’audionumérique est le terme générique qui désigne la transformation d’une onde acoustique (par essence continue) en signal ou fichier lisible par un ordinateur ou un enregistreur numérique (mD ou DAT), codé sous forme de 0 ou de 1. Cette opération permet de rendre un son utilisable sur un système informatique, mais aussi le stocker et le transmettre.

Principe technique

Une onde acoustique (variation périodique de la pression de l’air) est captée en général à l’aide d’un microphone.
Les surpressions et dépressions locales de l’air, produites par la propagation du son, produisent des mouvements sur la membrane du microphone. Ces mouvements génèrent un courant électrique par induction magnétique.
C’est ce courant, ou plus précisément ses variations dans le temps qui constituent le signal.

Le microphone transforme ainsi un signal de pression acoustique en signal électrique proportionnel à cette pression.

La valeur d’un signal analogique s’exprime en volts (c’est une tension variable de l’ordre du mV) qui change à tout instant, de manière continue. Un signal numérique, en revanche, se traduit par des « 0 » et des « 1 » : c’est une suite de nombres binaires.

Comment convertir un signal électrique en un signal numérique ?

Les convertisseurs, circuits intégrés spécialisés dans cette tâche, procèdent comme suit : ils mesurent, à intervalles réguliers, la valeur du signal analogique (sa tension) et transforment aussitôt cette valeur en un nombre binaire. Cette opération s’appelle échantillonnage ou « sampling » (à ne pas confondre avec le « sample » musical qui est un fragment de son, enregistré, puis répété) .
Ces convertisseurs fonctionnent dans le sens analogique>numérique puis le sens numérique>analogique. Les objets ADC et DAC que l’on retrouve dans les environnements mAX et PD pilotent directement les convertisseurs de ce type présents sur votre ordinateur ou votre carte son externe.

Fréquence d’échantillonnage et quantification

Pour traduire le plus fidèlement possible le signal analogique, il faudra prendre un très grand nombre de mesures. Autrement dit, plus la fréquence d’échantillonnage sera élevée, plus la traduction numérique sera proche de l’original analogique. Pour les applications audio, cette fréquence d’échantillonnage doit être au moins égale au double de la fréquence maximale du signal analogique, plus 10 %.

Si par exemple ce signal a une fréquence maximale de 1 kHz (voix humaine...), la fréquence d’échantillonnage devra être, au minimum, de 2,1 kHz. Pour de la musique, il faudra une fréquence d’échantillonnage minimale supérieure à 12 kHz environ, mais la haute fidélité (puisque notre oreille perçoit des fréquences de 20 kHZ) réclame 44,1 kHz.

Le deuxième point important concerne le nombre de bits disponibles pour le codage numérique.

Chacun des chiffres (« 0 » ou « 1 ») constituant un nombre binaire est un bit. Si on n’utilise qu’un seul et unique bit, on n’obtiendra que deux valeurs : 0 et 1. Si les nombres binaires sont codés sur deux bits, on double la « gamme » de valeurs, qui comprendra les valeurs 00, 01, 10 et 11. Codons maintenant sur quatre bits : le nombre de valeurs atteint alors 16, soit 2 puissance 4.

Chaque fois que le convertisseur procède à une mesure de la tension du signal analogique, il transforme la valeur trouvée en un nombre binaire. Il est clair que ce nombre binaire sera beaucoup plus précis s’il est codé sur 4 bits plutôt que sur 2 bits. Et il le sera encore davantage, à l’évidence, s’il est codé sur 8 ou 16 bits...

Il y a une corrélation entre la plage dynamique enregistrable et la résolution du son enregistré Ainsi, pour un signal codé en 8 bits, on aura 48 dB, un signal de 16 bits, on aura 96 dB, 20 bits, on aura 120 dB.
20 bits est le standard professionnel.
On obtient une conversion de qualité correcte à partir de 8 bits lorsqu’il s’agit de numériser un son musical, mais la hi-fi nécessite 16 bits.
Voici, à partir d’une portion de signal sinusoïdal, une série de conversions de l’analogique (le signal rouge, à gauche) vers le numérique. Observons l’influence conjuguée de la fréquence d’échantillonnage et de l’augmentation du nombre de bits de codage.

Dans le premier exemple, le signal est échantillonné (mesuré) sept fois et codé sur trois bits, d’où 8 valeurs différentes possibles. Le résultat, en bleu, donne une « image » pour le moins sommaire de la portion de sinusoïde...

Dans le deuxième exemple, la fréquence d’échantillonnage est doublée (on mesure le signal 13 fois au lieu de sept) et le codage se fait sur quatre bits (16 valeurs différentes possibles). Le résultat, en vert, est nettement meilleur mais encore assez éloigné de la sinusoïde d’origine...

Doublons à nouveau la fréquence d’échantillonnage (25 mesures au lieu de 13), tout en conservant un codage sur quatre bits : on obtient alors une numérisation beaucoup plus satisfaisante, mais encore imparfaite.

Dans le quatrième et dernier exemple, la fréquence reste la même, mais le codage se fait désormais sur cinq bits (32 valeurs possibles). La courbe des valeurs obtenues se rapproche de la courbe du signal d’origine.

En augmentant la fréquence d’échantillonnage et la résolution, on obtient un son proche de son original.
L’inconvénient de fréquences et de résolutions élevées est le poids des fichiers générés.
Pour un fichier audio mono d’une minute échantillonné à 44100 Hz :
n = 1 canal x 60 secondes X 44100 samples/seconde = 2 646 000 échantillons.
Pour mémoire, une valeur de référence : 10mo/ mn pour un son stéréo à 441000 Hz, 16 bits.

Quels avantages à la numérisation d’un signal ?

Les signaux électriques binaires peuvent être régénérés, c’est à dire que les bruits parasites ou les distorsions peuvent être éliminées.
La bande passante et la dynamique du signal sont augmentées.
Les convertisseurs Analogiques/Numériques/Analgiques, produits en grande série, assurent une reproduction du son relativement équivalente d’un appareil à l’autre.
Les fichiers obtenus sont facilement transformables, duplicables,...

Le divers formats audio

les formats audio sont en général du type auto-décrit, c’est à dire que le fichier contient un en-tête qui décrit les particularités du codage (échantillonnage, nbr de canaux, type de compression, etc.). Le choix du format est lié à l’utilisation qui sera faite du fichier (transfert sur lecteur mP3, montage audio « musical », post-production vidéo, streaming, podcasting,...)

Formats non compressés :

AIFF (AudioInterchangefileFormat /.aif) est à l’origine développé par Apple, ce format permet une grande variété de codage de fréquences et résolutions d’échantillonnage. Utilisé pour le mixage et l’encodage des données destinées au CD audio
(44100 Hz, 16 bit, stéréo interleaved).

WAVE (.wav) est le format natif des systèmes Windows, caractéristiques identiques à l’AIFF

- µLaw (.au) est le format audio UNIX, il est codé sur 8 bits, la qualité audio est donc réduite.

- QUICKTImE, méta-format Apple qui permet d’encapsuler, de compresser et d’interfacer l’accès à divers types de média permet de lire et de traiter les formats les plus courants : AIFF, WAV, AU, mP3, etc....

- mOD (.mod) ce format est proche du mIDI dans son principe à la différence près qu’il inclus les échantillons sonores utilisés dans la partition. Utilisé dans l’environnement « Reason »

- Rich music Format (.rmf), développé par Headspace pour la diffusion web, ce format permet d’encapsuler les échantillons audio, les données mIDI et les données d’arrangement à l’intérieur d’un seul fichier. La restitution est faite par un plug-in (beatnik).

Formats compressés :

ce sont en principe des fichiers de type AIF, WAV ou AU auxquels on à appliqué un algorithme de compression. Les trois principales normes de codecs sont :

mACE : très rapide, elle ne demande pas beaucoup de ressources processeur. Facteurs de compression de 3:1 ou 6:1, la qualité réduite, seuls les fichiers 8 bits sont supportés. L’environnement macintosh la propose à l’enregistrement de tout fichier faisant appel au format quicktime. Utile uniquement pour sons système.

- mPEG audio : (mp2, mp3) cette norme garantit une bonne qualité et permet des taux de compression importants allant jusqu’à un facteur de 12:1. (format très répandu sur le web, Ipod, mini-Disc). Utilise le principe de masquage de fréquences.

Ogg Vorbis, format d’encodage sous licence libre

Ces deux derniers formats, Ogg ou mP3, sont ceux à utiliser dans la perspective d’émettre un flux de stream avec vos sons.

Le mIDI (musical Instruments Digital Interface) n’est pas à proprement parler un format audio mais un système complet d’interface et d’édition numérique.
Un document mIDI contient une description d’un morceau de musique sous la forme d’une partition. Celle-ci inclut des indications sur la hauteur, la durée, la modulation, etc.... ainsi que l’attribution d’un instrument.

Le document midi est un format texte, il est donc extrêmement compact. les informations qu’il contient permettent de synthétiser la musique sur tout instrument conforme à cette norme : synthé, piano etc.... ou en recourant à un synthétiseur du type quicktime.

Le format midi offre une alternative à la diffusion de musique. La qualité de reproduction du morceau est liée au synthétiseur utilisé.
Un éditeur midi permet de travailler directement sur la partition musicale.

Exemple d’éditeur de partitions mIDI sous environnement maxmSP.

Exemple de branchement de plusieurs machines synchronisées par la norme mIDI

Les possibles restitution du son numérique

Une fois numérisé, le son peur être édité, corrigé (Protools, audacity, PD, maxmSP,...). Il pourra ensuite être encodé sur CD ou autre support pour être ré-écouté sur un autre système de diffusion, un baladeur mP3, ou bien être encodé pour être diffusé sur le web.
Il peut aussi être diffusé directement par l’ordinateur qui l’a numérisé par le procédé inverse. On fait appel à un convertisseur numérique-analogique (le DAC sous max ou PD) qui ré-interprête les suites de chiffres contenues dans le fichier. Ce son peut être lu dans son format d’origine ou bien être diffusé sur plusieurs sorties d’une même carte audio. On peut même le faire se déplacer d’un haut-parleur à l’autre, en utilisant des programmes dits de « spatialisation » de type Spat de L’Ircam ou Holophon d GmEm. Ces programmes combines la possibilités de diffuser un son sur plusieurs sorties ainsi que des principes psychoacoustiques pour faire entendre des trajectoires entièrement programmées.

sources provenant essentiellement du web



ESAAix - École supérieure d’art d’Aix-en-Provence - http://www.ecole-art-aix.fr