• Aucun résultat trouvé

2.5 Les extraits musicaux

2.5.6 L’identit´ e du chanteur

La question « Lequel, parmi ces N artistes connus dans notre base de donn´ees, est en train de chanter ? » Il s’agit d’un probl`eme ferm´e, les artistes sont connus `a l’avance, on dispose la plupart du temps d’exemples de leur voix, que ce soient des exemples solos ou accompagn´es.

Historique - Analyse des capacit´es humaines Les premiers travaux, notamment men´es par Cleveland [Cle77], ou encore Bloothooft et al. [BR88] se sont attach´es `a carac- t´eriser le timbre de chaque voix. Similairement `a la d´efinition du timbre des instruments, le timbre d’une voix est d´efini comme « la caract´eristique de la voix qui distingue une voix d’une autre quand la hauteur de la note et la voyelle chant´ee sont les mˆemes ». Ces ´etudes se basent sur l’hypoth`ese implicite que chaque voix est caract´eris´ee par un timbre unique, qui est fonction des caract´eristiques physiologiques de la personne.

Cependant, une ´etude de 2001, men´ee par Erickson et al. [EPH01] s’int´eresse `a la capacit´e humaine de distinguer les voix (et donc les timbres), en fonction de la hauteur de la note chant´ee. Il n’est pas ´evident a priori que deux personnes dont les voix sont per¸cues comme diff´erentes pour une certaine note, ne seront pas confondues pour une autre note. Les auteurs m`enent l’exp´erience suivante : pr´esentons `a un auditeur trois notes (A, B et C). Deux d’entre elles (A et B) sont chant´ees par la mˆeme personne, la troisi`eme (C) est chant´ee par quelqu’un d’autre. L’auditeur doit retrouver l’intrus. Il s’av`ere que plus les notes A et B sont ´eloign´ees en terme de hauteur, et plus les performances de l’auditeur sont faibles. Si les notes A et B sont ´eloign´ees de deux tons (Sol4 et Si4), le taux de r´eussite est presque de 100 %. Par contre, si les notes sont ´eloign´ees de plus d’une octaves (Do4 et Fa5, ou encore La3 et La5), le taux de r´eussite tombe en dessous de 50 %, voire mˆeme en dessous de 33 % (valeur qui correspond au hasard). Il semblerait que le timbre soit variable en fonction de la hauteur de la note chant´ee.

Enfin, pour conclure cet historique, nous notons, comme le font tr`es justement remar- quer Nwe et al. [NL07b] que le probl`eme de l’identification du chanteur dans les musiques commerciales29 est compliqu´e par le fait que le chant est tr`es souvent accompagn´e par des

instruments de musique. M´ethodes actuelles

Les recherches peuvent sch´ematiquement ˆetre s´epar´ees en deux cat´egories distinctes : les ´etudes sur le chant solo, et celles portant sur le chant accompagn´e, contexte certes plus r´ealiste, mais aussi a priori nettement plus difficile !

Dans tous les travaux concernant le chant accompagn´e, le sch´ema g´en´eral pour la phase de reconnaissance est le suivant :

1. Extraction des zones de chant (l’´etat de l’art pour cette tˆache est pr´esent´e dans la partie 4.2). Il est `a noter cependant que dans ce cadre, trouver toutes les zones de chant n’est pas forc´ement indispensable. La recherche de pr´ecision est privil´egi´ee sur celle du rappel pour ´evaluer la pertinence de l’algorithme mis en œuvre dans cette premi`ere ´etape.

2. ( ´Etape facultative) S´eparation de sources.

3. Extraction de param`etres sur les zones de chant. 4. Classification.

Les travaux s’int´eressant au chant solo excluent naturellement les deux premi`eres ´etapes de leurs algorithmes.

S’inspirant des nombreux travaux r´ealis´es en identification du locuteur, Zhang [Zha03] applique un sch´ema classique : le signal est caract´eris´e par les param`etres « phares » du

traitement de la parole, les MFCC, ainsi que par des LPC. Berenzweig et al. [BEL02] utilisent ´egalement comme param´etrisation les MFCC, tout en admettant qu’il y a sˆu- rement de meilleurs param`etres `a trouver, puisqu’il s’agit ici de chant et non de parole. Kim et Whitman[KW02] param´etrisent le signal avec des LPC ou des « Wraped Linear Prediction models ».

D’autres param`etres ont depuis ´et´e ´etudi´es : le vibrato (voir partie 4.3.1) avec sa fr´equence, sa stabilit´e, sa r´egularit´e, par Nwe et Li [NL07b], l’enveloppe spectrale [BW04] et la « Composite Transfert Function » (les fr´equences et amplitudes instantan´ees des partiels pr´esents dans le signal) par Bartsch et Wakefield [WB03].

Il y a naturellement, et ce dans tous les algorithmes que nous avons recens´es dans la litt´erature, une phase d’apprentissage de mod`eles pour chacun des chanteurs. Cet appren- tissage peut se faire sur des zones de chant s´electionn´ees manuellement [Zha03], ou sur des extraits musicaux entiers [KW02].

Pour la mod´elisation de chaque chanteur, les outils les plus utilis´es sont les GMM [Zha03, KW02] et les SVM [KW02], mais Nwe et Li [NL07b] proposent par exemple d’utiliser des HMM, qui permettent de prendre en compte l’´evolution temporelle des param`etres.

Enfin, Maddage et al. [MXW04] proposent, de fa¸con tr`es pertinente, d’am´eliorer leur syst`eme en tenant compte, pour l’´etape de regroupement, non seulement des similarit´es de la voix, mais ´egalement des similarit´es de style. En effet, les chanteurs (ou groupes de musique) ont souvent un style musical « `a eux ». Berenzweig et al. ´evoquent [BEL02] d’ailleurs l’« effet album » : comme il y a une certaine homog´en´eit´e musicale (instruments, styles. . . ) au sein d’un album, il faut prendre garde `a ce que le classifieur reconnaisse bien le chanteur, et non l’album !

Performances Dans le cas du chant solo, le corpus est « fait maison », les enregistre- ments sont faits en studio. Cela offre la possibilit´e d’avoir la mˆeme m´elodie (ou la mˆeme phrase) chant´ee par plusieurs personnes [WB03]. Dans le cas du chant accompagn´e, le corpus est compos´e d’extraits commerciaux.

Les performances actuelles sont de l’ordre de 15 `a 20 % d’erreur, pour l’identification de chanteurs solo. Pour l’identification du chanteur accompagn´e, Nwe et Li [NL07b] at- teignent 16 % d’erreur. Ces r´esultats peuvent paraˆıtre surprenants, puisqu’il semble aussi facile d’identifier un chanteur solo qu’accompagn´e. Il faut cependant se rappeler que les corpora ne sont pas du tout les mˆemes : dans le cas de chanteurs solo, un certain nombre de personne chantent les mˆemes extraits, alors que pour le chant accompagn´e, il s’agit d’extraits commerciaux. Ainsi, l’« effet album » peut exister dans le deuxi`eme cas, mais pas dans le premier.

Vers l’identification de plusieurs chanteurs Nous tenons `a citer ici une derni`ere ´etude, r´ealis´ee par Tsai et al. [TLL08], qui cherche `a identifier deux chanteurs intervenant

au cours d’un mˆeme morceau (simultan´ement ou non). La musique contenant des paroles ne se r´esume pas `a des morceaux contenant un seul chanteur, il peut y avoir plusieurs voix, qu’elles soient de mˆeme importance ou que l’une soit pr´edominante. Pour simplifier le probl`eme, les auteurs s’int´eressent `a des duos a capella. Apr`es avoir d´etermin´e si l’extrait est `a une ou deux voix, ils cherchent le meilleur mod`ele pour repr´esenter l’extrait. Dans le cas de chant solo, ils poss`edent un mod`ele par chanteur. Dans le cas des duos, ils ont besoin d’un mod`ele pour chacune des paires possibles. Comme il n’est pas toujours possible de r´eunir dans la base d’apprentissage des exemples de chant a capella pour toutes les paires, ils cherchent `a cr´eer artificiellement ces mod`eles, `a partir des donn´ees dont ils disposent pour chacun des chanteurs a capella.

Les tests sont effectu´es sur une base de donn´ees contenant des duos vocaux non accom- pagn´es. Lorsque les m´elodies et paroles de test sont toutes diff´erentes, de mˆeme que celles de l’apprentissage, 71 % des chanteurs, et 43 % des paires de chanteurs sont correctement identifi´es.