• Aucun résultat trouvé

Le pr´esent rapport contient les d´etails du travail qui a ´et´e effectu´e, struc-tur´e de la mani`ere suivante :

– Le chapitre 2 d´ecrira plus en d´etails le probl`eme de la transcription au-tomatique. On y retrouvera ´egalement un survol des travaux accomplis dans ce domaine ainsi qu’une explication de la port´ee de ce travail.

– Le chapitre 3 d´efinira l’approche qui a ´et´e utilis´ee au cours de ce travail et proposera un ´ech´eancier.

– Le chapitre 4 d´ecrira chacune des diff´erentes techniques employ´ees. Il d´ecrira ´egalement, pour chacune d’elles, le fondement th´eorique derri`ere la technique, les objectifs de son utilisation, les d´etails ou probl`emes d’implantation s’il y a lieu pour finalement donner les r´esultats de l’em-ploi de cette technique.

– Le chapitre 5 synth´etisera les r´esultats obtenus et les comparera `a diff´erents outils que l’on peut qualifier de «produits finis» de TAM.

En somme, apr`es cette br`eve introduction du sujet et l’´elaboration du plan du travail, on peut maintenant passer `a une d´efinition plus ´elabor´ee du probl`eme trait´e, ce qui sera fait dans le chapitre suivant.

3Traduction libre de«Search By Humming».

2 Probl´ ematique

Ce chapitre donnera une description un peu plus approfondie du probl`eme de la transcription automatique de musique, des travaux d´ej`a effectu´es sur le sujet ainsi que la port´ee de ce travail.

2.1 Description du probl` eme

Tel que mentionn´e en introduction, la TAM est un probl`eme qui est diffi-cile `a automatiser, entre autres parce qu’il requiert un certain niveau d’« in-tuition» ou d’«instinct»musical ainsi que la synth`ese et la compr´ehension d’une multitude de sources potentielles d’information.

Afin d’arriver `a aborder un probl`eme aussi complexe, l’auteur divise le probl`eme de TAM en deux sous-probl`emes : la conversion du signal num´erique en un ensemble de notes, puis la conversion de l’ensemble de notes en une partition.

2.1.1 Signal num´erique vers ensemble de notes

L’entr´ee d’un syst`eme de TAM est un simple signal sonore num´erique, sous la forme d’un ensemble de nombres en virgule flottante. Chacun de ces nombres repr´esente l’intensit´e du signal `a un temps donn´e. Il est extrˆeme-ment difficile de tirer de l’information utile pour la TAM `a partir de cette repr´esentation. En fait, pratiquement la seule information qui peut ˆetre tir´ee de cette repr´esentation a trait au rythme, car les maximums d’intensit´e cor-respondent g´en´eralement `a des notes jou´ees.

Toutefois, cette repr´esentation d’un signal ne permet pas d’obtenir de l’information sur la hauteur des notes jou´ees. Il existe une autre mani`ere de repr´esenter un signal qui s’av`ere tr`es int´eressante pour la TAM. En effet, il est possible de repr´esenter tout signal num´erique comme la somme de sinuso¨ıdes de diff´erentes fr´equences. Comme la hauteur per¸cue d’une note (ce qui dis-tingue un Do d’un R´e par exemple) est directement reli´ee `a sa fr´equence, cette repr´esentation est tr`es prometteuse pour la TAM. La fa¸con de passer d’une repr´esentation `a l’autre sera abord´ee plus loin.

Les principaux d´efis de cette ´etape d’extraction d’un ensemble de notes sont :

– Identifier la bonne hauteur de la note, peu importe si elle est tr`es grave ou tr`es aig¨ue.

– Identifier avec pr´ecision le d´ebut et la fin des notes.

– Reconnaˆıtre plusieurs notes jou´ees en mˆeme temps.

– Distinguer plusieurs notes jou´ees en mˆeme temps des harmoniques d’une mˆeme note.

– Reconnaˆıtre des effets particuliers `a un intrument, comme le «bend»

`a la guitare.

Ainsi, on peut donc tenter de r´esoudre la premi`ere partie du probl`eme, c’est-`a-dire chercher, `a partir du signal num´erique de d´epart, `a obtenir la liste des notes qui composent la m´elodie transcrite. Apr`es cette ´etape, on aura donc un ensemble de notes pour chacune desquelles on a le moment de d´epart, la dur´ee, puis ´eventuellement d’autres informations comme l’intensit´e ou l’application d’un effet quelconque. Il est donc possible, `a partir de cette liste de notes, de«rejouer»la m´elodie transcrite. Si cette partie de la trans-cription s’est bien d´eroul´ee, la m´elodie reproduite devrait ˆetre en tout point semblable `a la m´elodie originale. Cette liste constitue d´ej`a de l’information tr`es pr´ecieuse pour un musicien cherchant `a transcrire une m´elodie. Toute-fois, il reste encore beaucoup de travail pour arriver `a obtenir une v´eritable partition.

2.1.2 Ensemble de notes vers partition

En effet, bien que la liste de notes constitue un bon d´epart et permette de rejouer la m´elodie, on est encore bien loin d’avoir une partition musicale.

Il reste une seconde ´etape qui consiste `a extraire une certaine structure de l’ensemble de notes pour arriver `a une partition.

Les feuilles de musique repr´esentent une m´elodie d’une mani`ere tr`es struc-tur´ee. On n’y retrouve pas que la dur´ee et la hauteur de chaque note, mais

´egalement la notion de mesures et de temps (ainsi que les fractions et les multiples de temps). Comme la musique est une forme d’art, cette structure n’a pas n´ecessairement la rigidit´e qui faciliterait l’organisation de la liste de notes, car le r´esultat d’une pi`ece musicale suit bien souvent les fantaisies de

l’interpr´etation du musicien. Ainsi, de nombreux cas rendent l’extraction de la partition plus difficile :

– Le rythme change (acc´el´ere ou d´ec´el`ere) au cours de la pi`ece.

– Une br`eve variation de structure se produit : le musicien tient une note un quart de temps de plus qu’un m´etronome lui aurait permis, ce qui fait que le syst`eme croit que toutes les notes suivantes sont d´ecal´ees d’un quart de temps, ce qui rend la partition difficile `a lire et cette derni`ere ne refl`ete pas la v´eritable structure de la pi`ece. L’annexe B montre un exemple de ce d´ecalage.

– La multitude d’interpr´etations possibles peut causer des probl`emes : interpr´eter un rythme comme ´etant du 3/4, du 4/4, du 6/8 ou mˆeme du 7/44 changera compl`etement l’allure de la partition produite.

Il n’est donc pas trivial de passer d’une liste de notes `a une partition.

Cette seconde ´etape constitue une autre partie complexe du probl`eme de TAM.

2.1.3 R´ealit´e

Bien qu’il puisse sembler logique de proc´eder d’abord `a la conversion du signal en une liste de notes et de dur´ees, puis de convertir cette liste en une partition, cette approche ne correspond pas du tout `a la fa¸con dont un musicien (humain) travaille. Effectivement, l’ˆetre humain proc´ederait `a ces deux ´etapes d’une mani`ere non pas s´equentielle, mais plutˆot parall`ele.

L’identification des notes et de la structure n’est donc pas s´epar´ee en tˆaches distinctes : le r´esultat de l’une donne de l’information utile `a l’autre. De plus, l’ˆetre humain utilise une panoplie d’autres sources d’information, telles que la connaissance de l’artiste ou du style de musique de la pi`ece `a transcrire.

Ce type de synth`ese que le cerveau humain semble en mesure de faire relativement facilement constitue un mod`ele de solution extrˆemement com-plexe pour un syst`eme informatique. Aborder la TAM avec cette approche

4Cette notation sert `a d´ecrire la composition d’une mesure. Le premier nombre indique le nombre de notes ou de temps par mesure, tandis que le second nombre indique la dur´ee de ce temps : 1 correspond `a une ronde (4 temps), 2 `a une blanche (2 temps), 4 `a une noire (1 temps), 8 `a une croche (1/2 temps), etc. Ainsi, 3/4 signifie que chaque mesure

Fig. 1 – Conversion d’une repr´esentation `a l’autre

plutˆot bas´ee sur l’intelligence artificielle d´eborde du cadre de ce travail, tel qu’il le sera d´ecrit plus loin dans ce chapitre. Toutefois, la mani`ere qu’ont les musiciens de proc´eder `a la TAM constitue une piste int´eressante.

Finalement, la figure 1 montre le passage d’une repr´esentation `a l’autre.

A noter qu’il est beaucoup plus facile de passer d’une repr´esentation `a l’autre` en allant de droite `a gauche plutˆot que de gauche `a droite. Pour faire une analogie informatique, le passage de droite `a gauche est comparable `a la conversion d’un fichier de code source en un ex´ecutable (facilement automa-tisable, il s’agit du travail du compilateur, de l’assembleur et de l’´editeur de liens) alors que le passage de gauche `a droite se compare `a la conversion d’un ex´ecutable `a un fichier de code source, suite `a un d´esassemblage (beaucoup plus difficilement automatisable, car des informations sont manquantes et doivent ˆetre d´eduites).

Documents relatifs