Historique: Principes de l audionumerique
Aperçu de cette version: 36
- «
- »
Avant propos : cet article explicatif des principes de l'audio-numérique provient d'un fil de discussion sur le forum de LinuxMAO.
Depuis l'apparition des principes de l'informatique, il est vite apparu qu'il était intéressant d'utiliser ce nouvel outil dans le traitement du son. On peut dater l'apparition de ce principe le jour où le premier système informatique à poussé son premier BEEP.
L'oreille humaine n'est sensible qu'à une vibration de l'atmosphère, de l'air quoi! C'est un système très efficace mais qui a de fortes limitations !!! Il ne fonctionne qu'entre 20Hz (Hertz), les sons très graves, et 20000Hz (20kHz), les sons très aigus. Elle ne peut pas percevoir les infra-basses qui sont les fréquences inférieures à 20 Hz ou les fameux ultrasons, au delà de 20 kHz alors que certains animaux le peuvent. L'ordinateur, lui, ne se soucie que des 0 et des 1 ; il n'a donc en théorie aucune limitation. Quant à l'enceinte acoustique, elle n'est qu'assez peu réceptive à ces sollicitations, et ne vibre que pour la fée électricité et ses douces ondulations. Il a donc été nécessaire de réussir à faire cohabiter ces 3 énergumènes. On appellera Analogique la vibration de l'air qui fait bouger les tympans, et les enceintes. On appellera Numérique l'afflux des saints octets et leurs armées de Bits qui inondent nos insatiables processeurs et disques durs.
Il a donc fallu réussir à transformer la douce vibration de l'air qui chatouille nos tympans en bits disciplinés défilant à la queue-leu-leu. Une mission où une interface chaise/clavier à été nécessaire, j'ai cité l'être humain et son cerveau fertile mais peu performant dans les phases de calculs brut, mais doué d'une imagination sans limites. Il a donc été décidé qu'il faudrait trancher !!! on s'est donc employé à faire trancher des signaux analogique aux ordinateurs.
Le signal analogique sous forme d'onde électrique est découpé en tranches régulières, on appelle ça l'échantillonnage. On appelle la fréquence d'échantillonnage le nombre de tranches qu'on découpera chaque secondes :
Par exemple : 44100 Hz = 44100 tranches par secondes. C'est par ailleurs la fréquence utilisée pour les CD Audio.
Ces tranches sont codées sur des octets composés de bits (0 ou 1). Plus le nombre de bits est élevé, plus le nombres de valeurs possible est élevé, il y aura donc moins d'approximations de conversion et une meilleure plage de dynamique. On appelle cela la résolution.
On considère une résolution de 16 Bits comme standard en audionumérique car utilisée pour les CD Audio, mais cela est amené à changer dans le futur avec l'apparition de nouveaux supports. On préférera une résolution plus élevée lors des prises de son afin de permettre une conversion plus précise. Il est à noter que les logiciels de traitement de signal travaillent pour la plupart en interne avec une résolution de 32 Bits afin d'éviter les approximations pendant le traitement.
Ce qui nous fait rentrer dans l'ère moderne audio-numérique.
De manière générale il faut comprendre qu'enregistrer un signal réel en un signal numérique est un procédé qui abime le son. Un enregistrement audio-numérique ne sera jamais qu'une approximation du signal réel. Nous avons donc intérêt à travailler avec des valeurs supérieures afin d'être au plus proche du signal réel, quitte à ré-échantillonner plus tard à des fréquences et résolutions inférieures adaptées au support de diffusion utilisé (CD, DVD, Blue ray, SACD, DAT, mp3...). L'intérêt de telles pratiques est d'avoir un rendu précis et surtout, moins d'approximation de calcul dans les traitements de signaux numériques (DSP*).
Pour l'audio, on pourra utiliser un multiple de 44,1 kHz (généralement 88,2 kHz), afin de n'avoir qu'à diviser par un nombre entier lors des calculs de ré-échantillonnage finaux et éviter donc d'arrondir les résultats de calcul.
Pour la Vidéo, on pourra utiliser un multiple de 48kHz (généralement 96 kHz, voir 192 kHz), pour les même raisons.
J'en vois un qui lève la main au fond à côté du radiateur ???
Concrètement, on utilisera pour convertir une signal analogique en information numérique, un bête composant électronique appelé convertisseur.
Il en existe 2 types :
Selon leurs caractéristiques, ils pourront atteindre des fréquences d'échantillonnage plus ou moins élevées.
Ces composants sont très sensibles à la qualité des composants externes qui sont nécessaires à leur fonctionnement ainsi qu'à la qualité de la fréquence d'horloge qui lui est imposée. On pourra ainsi retrouver les mêmes convertisseurs dans des matériels de différentes gammes et qui sonneront plus ou moins bien en fonction du soin apporté à ces paramètres.
On trouvera ces composants dans TOUS les appareils de technologies numériques qui produisent ou captent un son. De votre téléphone portable à votre ordinateur, en passant par votre lecteur MP3, jusqu'aux convertisseurs haute gamme utilisés dans les plus grands studios.
Il nous reste à parler d'une chose : les formats. On parle souvent de mp3, de flac, de ogg vorbis, d'aiff, de wav, etc... Il s'agit en fait du principe d'enregistrement du signal (aussi appelé codec) dans un fichier informatique qui donne aux fichiers leur nom et leur extension (on dit "un mp3"). Ben oui, une fois qu'on a obtenu un signal audio-numérique, il faut bien pouvoir le stocker !
La première méthode consiste à l'enregistrer tel quel. Idée simple qui fonctionne. En revanche niveau place ce n'est pas terrible : une minute de musique au format CD (2 voies 16 bits, stéréo, à 44100 Hz) représente environ 10,5 Mo ! C'est beaucoup trop gros, avec de telle performance, on remplirait vite nos disques durs.
Une méthode pour réduire cette taille est de changer les paramètres du signal. Si l'on passe en mono (1 seule voie), le fichier aura une taille de 5,25 Mo. Si l'on réduit la résolution 16 bits stéréo à 8 bits stéréo, idem. Mais vous l'avez compris, ce n'est pas vraiment ce que l'on souhaite faire. Ça reviendrait à dire que pour enregistrer de la musique dans un fichier, il faudrait réduire grandement la qualité du son !
Pour compenser ce problème a été inventé la compression. C'est un peu le même principe que la compression en ZIP ou RAR mais adapté à l'audio-numérique : on va chercher à faire rentrer un maximum d'informations dans un fichier plus petit que ce qui est nécessaire. Dans notre cas, faire que une minute de musique représente moins que 10,5 Mo sans que l'auditeur n'entende pas de dégradation.
La compression peut être appliquée sur chaque paramètre d'enregistrement (résolution et fréquence d'échantillonnage). Il est possible de compresser du 16bits/44,1kHz tout comme du 24bits/48kHz voire du 24bits/96kHz.
Il existe deux grands principes de compression :
Pour expliquer la compression à perte, je vais utiliser la description qui en est fait sur la page mp3 de wikipedia : il s'agit d'un algorithme de compression audio capable de réduire drastiquement la quantité de données nécessaire pour restituer de l'audio, mais qui, pour l'auditeur, ressemble à une reproduction du son original non compressé, c'est-à-dire avec perte de qualité sonore significative mais acceptable pour l'oreille humaine.
Voila la phrase est un peu longue mais très claire si on la lit deux fois. 😀
Le paramètre de débit, en bits/seconde, permet de gérer l'efficacité de la compression. Plus le débit est faible, plus le fichier est petit mais plus la dégradation devient forte et audible.
La compression sans perte est non destructive. Si l'on décompresse le fichier, on obtient exactement le même signal audio-numérique qu'avant compression. L'efficacité de compression est donc moins grande mais la restitution est parfaite et il n'y a aucune dégradation.
Il reste deux formats très connus mais que je n'ai pas encore cité : le wav et l'aiff. En fait ce ne sont pas des formats à proprement parler car un wav peut très bien être encodé en mp3, en wma ou autre. Il s'agit en fait seulement d'un format conteneur utilisé sous Windows principalement et non pas d'un format de compression. Toutefois il est généralement associé au format PCM, tout comme l'aiff qui est lui utilisé sous Mac.
Cette page va être intégrée dans un dossier plus général sur le son, l'enregistrement et la mao : le dossier son.
INTRODUCTION
Depuis l'apparition des principes de l'informatique, il est vite apparu qu'il était intéressant d'utiliser ce nouvel outil dans le traitement du son. On peut dater l'apparition de ce principe le jour où le premier système informatique à poussé son premier BEEP.
- problématique
L'oreille humaine n'est sensible qu'à une vibration de l'atmosphère, de l'air quoi! C'est un système très efficace mais qui a de fortes limitations !!! Il ne fonctionne qu'entre 20Hz (Hertz), les sons très graves, et 20000Hz (20kHz), les sons très aigus. Elle ne peut pas percevoir les infra-basses qui sont les fréquences inférieures à 20 Hz ou les fameux ultrasons, au delà de 20 kHz alors que certains animaux le peuvent. L'ordinateur, lui, ne se soucie que des 0 et des 1 ; il n'a donc en théorie aucune limitation. Quant à l'enceinte acoustique, elle n'est qu'assez peu réceptive à ces sollicitations, et ne vibre que pour la fée électricité et ses douces ondulations. Il a donc été nécessaire de réussir à faire cohabiter ces 3 énergumènes. On appellera Analogique la vibration de l'air qui fait bouger les tympans, et les enceintes. On appellera Numérique l'afflux des saints octets et leurs armées de Bits qui inondent nos insatiables processeurs et disques durs.
PRINCIPE
Il a donc fallu réussir à transformer la douce vibration de l'air qui chatouille nos tympans en bits disciplinés défilant à la queue-leu-leu. Une mission où une interface chaise/clavier à été nécessaire, j'ai cité l'être humain et son cerveau fertile mais peu performant dans les phases de calculs brut, mais doué d'une imagination sans limites. Il a donc été décidé qu'il faudrait trancher !!! on s'est donc employé à faire trancher des signaux analogique aux ordinateurs.
Le signal analogique sous forme d'onde électrique est découpé en tranches régulières, on appelle ça l'échantillonnage. On appelle la fréquence d'échantillonnage le nombre de tranches qu'on découpera chaque secondes :
Par exemple : 44100 Hz = 44100 tranches par secondes. C'est par ailleurs la fréquence utilisée pour les CD Audio.
Ces tranches sont codées sur des octets composés de bits (0 ou 1). Plus le nombre de bits est élevé, plus le nombres de valeurs possible est élevé, il y aura donc moins d'approximations de conversion et une meilleure plage de dynamique. On appelle cela la résolution.
On considère une résolution de 16 Bits comme standard en audionumérique car utilisée pour les CD Audio, mais cela est amené à changer dans le futur avec l'apparition de nouveaux supports. On préférera une résolution plus élevée lors des prises de son afin de permettre une conversion plus précise. Il est à noter que les logiciels de traitement de signal travaillent pour la plupart en interne avec une résolution de 32 Bits afin d'éviter les approximations pendant le traitement.
Les différentes fréquences d'échantillonnage.
À l'age de pierre numérique, on ne pouvait ni traiter ni stocker de grandes quantités d'information. On utilisait des fréquences d'échantillonnage et des résolutions faibles, comme par exemple :
Au niveau du son, cela crée des distorsions. Pour vous donner une idée, pensez à une gameboy ou au son qui sort de votre téléphone qui lui correspond à peu près à 8000 Hz 8 bits. Pas terrible pour écouter de la musique !! ... puis est venue la résolution 16 bits ... Pour finalement arriver à : 44100 Hz, 16 Bits (tient, voila notre CD Audio) |
Voir aussi La norme audio définie pour le travail vidéo est de 48 kHz, aussi utilisée pour les DAT (Digital Audio Tape) |
Ce qui nous fait rentrer dans l'ère moderne audio-numérique.
De manière générale il faut comprendre qu'enregistrer un signal réel en un signal numérique est un procédé qui abime le son. Un enregistrement audio-numérique ne sera jamais qu'une approximation du signal réel. Nous avons donc intérêt à travailler avec des valeurs supérieures afin d'être au plus proche du signal réel, quitte à ré-échantillonner plus tard à des fréquences et résolutions inférieures adaptées au support de diffusion utilisé (CD, DVD, Blue ray, SACD, DAT, mp3...). L'intérêt de telles pratiques est d'avoir un rendu précis et surtout, moins d'approximation de calcul dans les traitements de signaux numériques (DSP*).
Pour l'audio, on pourra utiliser un multiple de 44,1 kHz (généralement 88,2 kHz), afin de n'avoir qu'à diviser par un nombre entier lors des calculs de ré-échantillonnage finaux et éviter donc d'arrondir les résultats de calcul.
Pour la Vidéo, on pourra utiliser un multiple de 48kHz (généralement 96 kHz, voir 192 kHz), pour les même raisons.
- DSP : un Digital Signal Processing (Traitement digital de signal) est un programme informatique qui traite un échantillon sonore afin d'en modifier les propriétés. On les trouve sous forme de greffons (plugins) ou dans des environnements matériel numériques (cartes DSP, multi-effets numériques, etc ...), dans des tables de mixage numérique, dans votre baladeur MP3, votre téléviseur, des pédales d'effet de guitare, etc ...
note olivier 20 nov : le DSP n'est pas forcément un programme, une puce peut faire du traitement DSP. Le P de DSP possède 2 significations : processor ou processing, voir DSP. ça peut être bien de fusionner les infos d'ici dans celle du glossaire, non ?
Les convertisseurs
J'en vois un qui lève la main au fond à côté du radiateur ???
Concrètement, on utilisera pour convertir une signal analogique en information numérique, un bête composant électronique appelé convertisseur.
Il en existe 2 types :
- Les CAN (Convertisseur Analogique/Numérique), ADC (Analogue to Digital Converter) en anglais, qui convertira un signal analogique en informations numériques.
- Les CNA (j'ai vraiment besoin d'écrire dans ces parenthèses ???), DAC en anglais, qui convertira des informations numériques en un signal analogique.
Selon leurs caractéristiques, ils pourront atteindre des fréquences d'échantillonnage plus ou moins élevées.
Ces composants sont très sensibles à la qualité des composants externes qui sont nécessaires à leur fonctionnement ainsi qu'à la qualité de la fréquence d'horloge qui lui est imposée. On pourra ainsi retrouver les mêmes convertisseurs dans des matériels de différentes gammes et qui sonneront plus ou moins bien en fonction du soin apporté à ces paramètres.
On trouvera ces composants dans TOUS les appareils de technologies numériques qui produisent ou captent un son. De votre téléphone portable à votre ordinateur, en passant par votre lecteur MP3, jusqu'aux convertisseurs haute gamme utilisés dans les plus grands studios.
Les formats
Il nous reste à parler d'une chose : les formats. On parle souvent de mp3, de flac, de ogg vorbis, d'aiff, de wav, etc... Il s'agit en fait du principe d'enregistrement du signal (aussi appelé codec) dans un fichier informatique qui donne aux fichiers leur nom et leur extension (on dit "un mp3"). Ben oui, une fois qu'on a obtenu un signal audio-numérique, il faut bien pouvoir le stocker !
La première méthode consiste à l'enregistrer tel quel. Idée simple qui fonctionne. En revanche niveau place ce n'est pas terrible : une minute de musique au format CD (2 voies 16 bits, stéréo, à 44100 Hz) représente environ 10,5 Mo ! C'est beaucoup trop gros, avec de telle performance, on remplirait vite nos disques durs.
Une méthode pour réduire cette taille est de changer les paramètres du signal. Si l'on passe en mono (1 seule voie), le fichier aura une taille de 5,25 Mo. Si l'on réduit la résolution 16 bits stéréo à 8 bits stéréo, idem. Mais vous l'avez compris, ce n'est pas vraiment ce que l'on souhaite faire. Ça reviendrait à dire que pour enregistrer de la musique dans un fichier, il faudrait réduire grandement la qualité du son !
Pour compenser ce problème a été inventé la compression. C'est un peu le même principe que la compression en ZIP ou RAR mais adapté à l'audio-numérique : on va chercher à faire rentrer un maximum d'informations dans un fichier plus petit que ce qui est nécessaire. Dans notre cas, faire que une minute de musique représente moins que 10,5 Mo sans que l'auditeur n'entende pas de dégradation.
La compression peut être appliquée sur chaque paramètre d'enregistrement (résolution et fréquence d'échantillonnage). Il est possible de compresser du 16bits/44,1kHz tout comme du 24bits/48kHz voire du 24bits/96kHz.
Il existe deux grands principes de compression :
- la compression à perte ou destructeur : le mp3, le ogg vorbis, le ATRAC 3, le wma, le pcm, ...
- la compression sans perte aussi appelée lossless : le flac, le wavpack, le wma lossless, ...
Pour expliquer la compression à perte, je vais utiliser la description qui en est fait sur la page mp3 de wikipedia : il s'agit d'un algorithme de compression audio capable de réduire drastiquement la quantité de données nécessaire pour restituer de l'audio, mais qui, pour l'auditeur, ressemble à une reproduction du son original non compressé, c'est-à-dire avec perte de qualité sonore significative mais acceptable pour l'oreille humaine.
Voila la phrase est un peu longue mais très claire si on la lit deux fois. 😀
Le paramètre de débit, en bits/seconde, permet de gérer l'efficacité de la compression. Plus le débit est faible, plus le fichier est petit mais plus la dégradation devient forte et audible.
La compression sans perte est non destructive. Si l'on décompresse le fichier, on obtient exactement le même signal audio-numérique qu'avant compression. L'efficacité de compression est donc moins grande mais la restitution est parfaite et il n'y a aucune dégradation.
Il reste deux formats très connus mais que je n'ai pas encore cité : le wav et l'aiff. En fait ce ne sont pas des formats à proprement parler car un wav peut très bien être encodé en mp3, en wma ou autre. Il s'agit en fait seulement d'un format conteneur utilisé sous Windows principalement et non pas d'un format de compression. Toutefois il est généralement associé au format PCM, tout comme l'aiff qui est lui utilisé sous Mac.
L'avenir
Cette page va être intégrée dans un dossier plus général sur le son, l'enregistrement et la mao : le dossier son.