• Aucun résultat trouvé

Autres strat ´egies pour la transcription musicale audiovisuelle

audiovisuelle

Nous introduisons et comparons `a pr´esent diverses variantes du syst`eme pr´esent´e et ´evalu´e dans ce chapitre.

8.3.1

Variations sur la segmentation

8.3.1.1

Intervention d’un op ´erateur humain

Nous avons privil´egi´e jusqu’ici les approches enti`erement automatiques, envisageant les applica- tions d’indexation. Pour les applications d’interaction musicien/machine ou d’aide `a l’apprentissage, il est possible de requ´erir l’intervention de l’utilisateur pour la calibration du syst`eme. Trois niveaux d’implication peuvent ˆetre d´efinis :

Validation de la segmentation, et association des r ´egions aux instruments L’utili- sateur d´esigne sur une image les ellipses correctes parmi celles extraites automatiquement. Dans de telles approches de segmentation supervis´ee par un utilisateur humain, les coˆuts associ´es `a une fausse acceptation et un faux rejet sont asym´etriques : dans le premier cas, l’utilisateur doit juste d´esigner une ellipse incorrecte, tandis que dans le second cas, il doit dessiner l’ellipse manquante. Il peut donc s’av´erer plus efficace d’assouplir les crit`eres d´efinis en 7.1.4 pour le filtrage des ellipses. L’utilisateur d´esigne ensuite l’instrument associ´e `a chaque r´egion.

Segmentation manuelle L’utilisateur d´esigne successivement, pour chaque instrument, la r´egion de l’image associ´ee `a l’instrument consid´er´e – en la peignant sur une image de r´ef´erence. L’int´erˆet d’une segmentation enti`erement manuelle est qu’elle ne contraint pas la forme de la r´egion d’int´erˆet. L’utilisateur peut par exemple inclure non pas seulement le sommet, mais aussi le corps (le fˆut) de l’instrument, de mani`ere `a disposer d’un crit`ere de mouvement plus robuste : une frappe est d´etect´ee quand le corps de l’instrument est mis en mouvement.

Nous avons ´evalu´e cette approche de segmentation manuelle, avec le syst`eme de d´etection pr´esent´e dans ce chapitre3. Les r´esultats sont donn´es dans la deuxi`eme partie de la table 8.3. Notons

tout d’abord que la grosse caisse est partiellement visible sur les s´equences film´ees depuis l’angle 1 – cela permet donc sa transcription `a partir de la modalit´e vid´eo seule. Cependant, la transcription est bien moins robuste qu’`a partir de la modalit´e audio – causant ´egalement une d´egradation des per- formances en fusion audio/vid´eo. En dehors du cas de la grosse caisse, les tr`es bonnes performances offertes par la fusion par r`egle disjonctive sugg`erent la compl´ementarit´e des informations extraites par les d´etecteurs audio et vid´eo. L’am´elioration de la qualit´e de la segmentation b´en´eficie le plus `a la caisse claire et la hi-hat, dont les scores de transcription vid´eo sont meilleurs. En cons´equence, pour ces instruments, les meilleures performances sont obtenues par fusion (et non plus `a partir de l’audio seul). Le cas des toms et des cymbales est surprenant : les performances obtenues avec le proc´ed´e de segmentation automatique sont meilleures qu’avec une segmentation manuelle. Cette situation peut s’expliquer par le fait que des ellipses invalides, ou mal ajust´ees aux bords de l’instrument peuvent am´eliorer la d´etection du mouvement de l’instrument ou la pr´esence d’une baguette sur l’instrument.

3Notre but initial ´etant principalement d’´evaluer comment les erreurs introduites aux ´etapes de segmentation et d’asso-

FIG. 8.4 – Segmentation manuelle d ´etaill ´ee

Cela sugg`ere l’utilisation de r´egions ´etendues incluant la baguette ou les avant-bras du batteur lors de la frappe.

Segmentation d ´etaill ´ee L’utilisateur d´esigne, `a travers une interface similaire `a celle utilis´ee pr´ec´edemment deux r´egions par instrument : une r´egion correspondant `a la surface de l’instrument, et une r´egion autour de l’instrument o`u est susceptible d’ˆetre d´etect´e un mouvement lors du jeu de l’instrument. Par exemple, pour une cymbale, cette r´egion inclut le voisinage de la cymbale par o`u arrive la baguette, et le voisinage du poignet du batteur dans la posture qu’il adopte pour frapper la cymbale. Un exemple de segmentation (montr´e dans l’interface utilis´ee pour la r´ealiser) est donn´e dans la figure 8.4. Un attribut suppl´ementaire mesurant la quantit´e de mouvement dans cette r´egion est ainsi disponible, et peut ˆetre utilis´e de la mˆeme fac¸on que les deux autres attributs d´efinis en 8.1.1. La d´etection d’une frappe exige alors les trois conditions suivantes : intersection de la baguette dans la r´egion, mouvement dans la r´egion, et mouvement dans la r´egion p´eriph´erique peu avant la frappe.

Segmentation par le jeu d’une s ´equence de r ´ef ´erence Dans ce cas, l’utilisateur doit jouer une s´equence de r´ef´erence permettant la calibration. Il peut soit s’agir d’une phrase dont la partition est connue, ou d’une s´equence o`u chaque instrument est isol´ement jou´e – phrase pour laquelle on peut supposer que la classification audio est parfaite. La segmentation s’effectue alors par la m´ethode d´ecrite en 7.2.3.

8.3.2

Variations sur le proc ´ed ´e de reconnaissance

Classifieurs supervis ´es locaux Nous avons justifi´e en 6.3 notre motivation `a former des attri- buts simples permettant une transcription par d´etection des pics : L’emploi d’un classifieur supervis´e n’est pas possible, puisque les attributs extraits d´ependent de la s´equence consid´er´ee et de la confi- guration de la batterie utilis´ee – il est donc impossible d’apprendre un mod`ele “universel” du jeu de la batterie.

Autres strat´egies pour la transcription musicale audiovisuelle

Cependant, si la s´equence `a traiter est suffisamment longue, et que nous disposons d’une trans- cription de r´ef´erence d’une de ses parties, nous pouvons apprendre un classifieur local, entraˆın´e sur, et pour, la batterie utilis´ee dans la s´equence.

Une telle approche a d´ej`a ´et´e utilis´ee dans le cas de la transcription audio par Sandvold et al. dans [SGH04], ou dans [GR05c], afin de disposer d’un syst`eme de transcription sp´ecialis´e pour la batterie `a transcrire.

Dans le cadre de la transcription vid´eo, l’int´erˆet d’un tel classifieur est multiple. Tout d’abord, il rend inutile la tˆache d’association des r´egions aux instruments – lors de la phase d’apprentissage le classifieur associ´e `a chacun des instruments identifiera le poids optimal des attributs calcul´es sur chacune des r´egions ; cette ´etape peut en outre ˆetre facilit´ee par des m´ethodes de s´election d’attributs, telles celles pr´esent´ees en 4.4.2. Par ailleurs, nous nous sommes restreints jusqu’ici `a des choix d’at- tributs facilitant la d´etection de frappes par recherche de pics. Les classifieurs pouvant impl´ementer des r`egles de d´ecision plus complexes qu’un simple seuil (ou conjonction de seuils), d’autres attri- buts peuvent ˆetre extraits et consid´er´es, par exemple les moyennes, variances, et moments d’ordre sup´erieur des coordonn´ees des points consid´er´es comme formant l’avant-plan.

Deux d´emarches sont possibles pour utiliser des classifieurs supervis´es :

– Une pr´e-segmentation temporelle de la s´equence par d´etection de pics dans les attributs de mouvement (par analogie avec la d´etection d’onsets), suivie du calcul d’un unique vecteur d’attributs par segment. Dans ce cas, les attributs calcul´es peuvent ˆetre int´egr´es sur diff´erentes plages temporelles comme r´ealis´e dans [GR05a] : les attributs li´es au mouvement de l’instru- ment sont int´egr´es sur toute la longueur du segment, tandis que ceux li´es au mouvement des baguettes sont int´egr´es sur un voisinage du d´ebut du segment. La reconnaissance s’effectue alors par classification supervis´ee de ces vecteurs d’attributs. Les d´eveloppements relatifs au choix d’une taxonomie, d’une approche discriminative vs explicative, des attributs et des pa- ram`etres des classifieurs pr´esent´es au chapitre 4 s’appliquent sans modification `a ce probl`eme. Notons que lorsque cette approche est suivie, l’int´egration des informations audio et vid´eo peut s’effectuer de fac¸on pr´ecoce, en entraˆınant le classifieur local sur des vecteurs d’attributs incluant `a la fois des param`etres audio et vid´eo. Dans les exp´eriences r´ealis´ees en [GR05a] (reproduit dans l’annexe C), c’est cette m´ethode de fusion qui a donn´e les r´esultats les plus satisfaisants, par rapport `a la fusion d’un classifieur local vid´eo et d’un classifieur audio uni- versel (entraˆın´e sur une base diverse).

– Une segmentation/reconnaissance simultan´ee par l’emploi de mod`eles temporels (HMM par exemple). Un nouvel avantage des classifieurs locaux apparaˆıt alors : ils permettent l’appren- tissage d’un mod`ele de l’´evolution temporelle des attributs propre `a la batterie consid´er´ee. Par contraste, le syst`eme de d´etection pr´esent´e en 8.1 utilise des mod`eles temporels d´efinis a priori.

Soulignons toutefois quelques unes des limites de cette approche :

– La s´equence de r´ef´erence utilis´ee pour l’apprentissage du classifieur local doit ˆetre suffisam- ment longue pour permettre l’apprentissage. Des mod`eles explicatifs comme les GMM ou les HMM poss`edent de nombreux param`etres, et requi`erent donc un volume de donn´ees d’appren- tissage consid´erable. Par opposition, les approches discriminatives (en particulier les m´ethodes `a noyaux) sont plus robustes lorsque les observations sont peu nombreuses4.

– Ces m´ethodes exigent que la distribution d’un attribut (conditionnellement au jeu/non-jeu d’un instrument) soit constante au cours du temps. C’est le cas uniquement lorsque les conditions de prise de vue sont stables, ce qui exclut l’usage de telles m´ethodes sur des s´equences dont l’´eclairage ou l’angle de prise de vue varient.

Reconnaissance it ´erative Disposer d’une transcription de r´ef´erence facilite `a la fois la seg- mentation et l’association des r´egions aux instruments, et permet l’apprentissage et l’utilisation de classifieurs locaux comme vu pr´ec´edemment. Comment faire lorsqu’une telle transcription n’est pas disponible ? Nous sugg´erons l’emploi d’un processus de reconnaissance it´erative, dans lequel une premi`ere transcription est obtenue enti`erement automatiquement, soit en utilisant un classifieur audio

seul (si le signal audio est de bonne qualit´e, et si l’accompagnement musical n’est pas pr´edominant), ou un classifieur audiovisuel utilisant une segmentation et une calibration automatique. Cette trans- cription peut alors ˆetre consid´er´ee comme r´ef´erence pour la segmentation, la calibration, ou l’ap- prentissage d’un classifieur local. Ce proc´ed´e peut ˆetre it´er´e, en utilisant la transcription produite `a l’´etape pr´ec´edente comme r´ef´erence pour l’identification des r´egions. Ce processus est similaire aux approches utilis´ees en transcription audio, convergeant it´erativement vers une transcription et un mod`ele d’instruments, l’un optimis´e par rapport `a l’autre.

8.3.3

Quelles solutions choisir ?

Nous r´esumons dans la table 8.4 et dans cette section nos discussions relatives aux conditions d’utilisation des m´ethodes d´ecrites dans ce chapitre et au chapitre pr´ec´edent.

Les contraintes relatives `a l’utilisation des classifieurs locaux ont d´ej`a ´et´e pr´esent´ees : une trans- cription de r´ef´erence doit ˆetre disponible, et les attributs calcul´es doivent avoir une interpr´etation constante au long de la s´equence.

Dans les situations o`u l’angle de vue ne varie pas au cours du temps, l’utilisation d’une segmen- tation par recherche des r´egions maximisant l’information mutuelle avec la r´ef´erence est souhaitable d`es qu’une r´ef´erence est disponible. Par ailleurs, la pr´esence d’un op´erateur humain ou la disponi- bilit´e d’une transcription de r´ef´erence permet de simplifier la tˆache d’association des r´egions aux instruments. Cette association peut ´egalement ˆetre faite implicitement par le classifieur local, ou par l’´etape de s´election d’attributs qui a pr´ec´ed´e son apprentissage.

Consid´erons maintenant le cas des s´equences o`u l’angle de prise de vue varie continˆument au cours du temps. Dans le cas o`u une transcription enti`erement automatique est souhait´ee, la seg- mentation doit ˆetre effectu´ee trame `a trame par une m´ethode automatique (d´etection d’ellipses), et les r´egions extraites doivent ˆetre appari´ees. Une approche concurrente consisterait `a utiliser des contours actifs (snakes) suivant la r´egion. Dans le cas o`u un op´erateur humain est pr´esent, une telle segmentation peut ˆetre manuellement initialis´ee, et suivie trame `a trame. La segmentation des ba- guettes ne peut plus se faire par segmentation arri`ere-plan fixe/avant-plan en mouvement, puisqu’ici l’arri`ere-plan apparaˆıt en mouvement. Si les mouvements de cam´era sont lents, on peut envisager une compensation du mouvement par mise en correspondance des images successives.

Quoi qu’il en soit, l’interpr´etation diff´erente qu’auront les attributs au cours du temps exclut l’usage de classifieurs locaux – la d´etection des frappes devra se faire par recherche des pics. Reste `a d´efinir quelle strat´egie adopter pour l’association des r´egions aux instruments. En absence d’une s´equence de r´ef´erence, la recherche du couplage maximal sur crit`eres de compatibilit´e avec l’au- dio (et la couleur, si l’´eclairage est stable) doit ˆetre envisag´ee. Si une transcription de r´ef´erence est disponible, la compatibilit´e avec cette r´ef´erence, plutˆot qu’avec la transcription audio peut ˆetre consid´er´ee. Notons que mˆeme dans le cas o`u l’angle de prise de vue change, une interface ad´equate peut permettre `a un op´erateur humain d’annoter les r´egions avec l’instrument qui leur est associ´e.

8.4

Conclusion

Nous avons pr´esent´e dans ce chapitre une m´ethode de d´etection des frappes de batterie `a partir d’une segmentation de la s´equence en r´egions (chaque r´egion est associ´ee `a un instrument), et en arri`ere-plan/avant-plan : Des param`etres mesurant l’intensit´e de mouvement dans chaque r´egion, et le degr´e d’intersection de la baguette et de la r´egion sont form´es, la d´etection est ensuite effectu´ee en recherchant des pics dans les fonctions qu’ils d´efinissent. Nous avons par la suite trait´e le probl`eme de la fusion de cette analyse vid´eo avec le produit d’une transcription audio. Avant toute fusion, il est n´ecessaire d’identifier quel instrument de la batterie est associ´e `a chacune des r´egions. Nous avons `a cet effet propos´e deux crit`eres : un crit`ere de couleur, utilisant une SVM pour discriminer les instruments selon leur apparence, et un crit`ere de compatibilit´e avec la transcription audio. Ces deux crit`eres sont combin´es, et d´efinissent un graphe dont un couplage maximal fournit une association optimale des instruments aux r´egions. La fusion entre l’audio et la vid´eo est alors possible, par

Conclusion R ´ef ´er ence ? ´ Eclairage v ariable ? Inter v ention humaine ? Mouv ements de cam ´era ?

Segmentation des instruments Analyse vid´eo Association r´egions/instruments

◦ ◦ ◦ ◦ Ellipses + couleur sur mod`ele du fond D´etection Couplage maximal, compatibilit´e avec l’audio et la couleur

• ◦ ◦ ◦ Inf. mutuelle avec la r´ef´erence D´etection Selon r´ef´erence

Inf. mutuelle avec la r´ef´erence Classifieur local S´election d’attributs

◦ • ◦ ◦ Ellipses, sur moyenne des trames D´etection Couplage maximal, compatibilit´e avec l’audio

• • ◦ ◦ Inf. mutuelle avec la r´ef´erence D´etection Selon r´ef´erence

◦ ◦ • ◦ Manuelle D´etection Par op´erateur humain

• ◦ • ◦ Par r´ef´erence ou manuelle D´etection Selon r´ef´erence ou op´erateur humain

Par r´ef´erence ou manuelle Classifieur local S´election d’attributs

◦ • • ◦ Manuelle D´etection Selon op´erateur humain

• • • ◦ Par r´ef´erence ou manuelle D´etection Selon r´ef´erence ou op´erateur humain

◦ ◦ ◦ • Ellipses + couleur, suivi de r´egion D´etection Couplage maximal, compatibilit´e avec l’audio et la couleur • ◦ ◦ • Ellipses + couleur, suivi de r´egion D´etection Couplage maximal, compatibilit´e avec la r´ef´erence et la couleur

◦ • ◦ • Ellipses, suivi de r´egion D´etection Couplage maximal, compatibilit´e avec l’audio

• • ◦ • Ellipses, suivi de r´egion D´etection Couplage maximal, compatibilit´e avec la r´ef´erence

◦ ◦ • • Manuelle, suivi de r´egion D´etection Op´erateur humain

• ◦ • • Manuelle, suivi de r´egion D´etection Couplage maximal, compatibilit´e avec la r´ef´erence et la couleur ; ou op´erateur humain

◦ • • • Manuelle, suivi de r´egion D´etection Op´erateur humain

• • • • Manuelle, suivi de r´egion D´etection Couplage maximal, compatibilit´e avec la r´ef´erence ; ou

op´erateur humain

TAB. 8.4 – Choix recommand ´e de m ´ethodes de segmentation, de d ´etection de frappes et d’association r ´egions/instruments, selon le sc ´enario d’utilisation

l’application d’une r`egle disjonctive – qui suppose que chaque modalit´e fournit une information fiable et compl´ementaire.

L’´evaluation est effectu´ee sur un ensemble de s´equences tir´ees de la base ENST-drums, pour diff´erentes combinaisons de modalit´es. Pour la plupart des instruments, les meilleures performances sont obtenues avec des classifieurs unimodaux. En particulier, le jeu des toms et cymbales, pour lesquels une taxonomie d´etaill´ee a ´et´e utilis´ee, est plus efficacement transcrit `a partir de la modalit´e vid´eo. L’apport de la fusion n’est significatif que pour la caisse claire. Outre la difficult´e inh´erente `a la tˆache de d´etection vid´eo des frappes, une partie des erreurs commises par le syst`eme s’explique par les erreurs de segmentation, et les erreurs d’association r´egions/instruments. De mani`ere `a ´evaluer la contribution de ces erreurs, les exp´eriences ont ´et´e r´ep´et´ees en utilisant une segmentation manuelle des r´egions. Dans ce cas, les performances optimales sont obtenues par fusion. Une d´ecouverte surprenante est que pour certains instruments (toms et cymbales), une segmentation automatique imparfaite conduit `a de meilleurs r´esultats qu’une segmentation manuelle.

Nous avons enfin discut´e quelques variantes possibles de notre syst`eme, utilisant d’autres m´ethodes de segmentation ou de classification. En particulier, la disponibilit´e d’une s´equence de r´ef´erence ou l’intervention d’un op´erateur humain facilitent les tˆaches de segmentation et d’association instru- ments/r´egions. Dans le cas o`u une s´equence de r´ef´erence est disponible, l’apprentissage de clas- sifieurs locaux peut ˆetre envisag´ee, permettant l’emploi de m´ethodes d’apprentissage statistiques ´eprouv´ees. Nous avons ´egalement pr´esent´e une m´ethode it´erative de transcription, dans laquelle une premi`ere transcription (audio ou audiovisuelle) est utilis´ee comme r´ef´erence pour la segmentation ou l’apprentissage. Si nous n’avons pu, faute de temps, ´evaluer cette m´ethode sur la base ENST-drums, nous avons ´evalu´e sa pertinence dans une ´etude pr´eliminaire publi´ee dans [GR05a]. Pour r´esumer nos discussions sur la robustesse de chacune des m´ethodes ´evoqu´ees `a diff´erentes situations d’usage, nous avons sugg´er´e un choix de m´ethodes adapt´ees `a chaque sc´enario d’utilisation, qui peut servir de cadre `a des d´eveloppements et ´evaluations exp´erimentales futures.

Publications li ´ees `a ce chapitre

Les m´ethodes de d´etection et fusion introduites dans ce chapitre, ainsi que les r´esultats des exp´eriences r´ealis´ees, ont ´et´e publi´es dans [MGOR07]. Notre ´etude pr´eliminaire du probl`eme de la transcription audiovisuelle de s´equences vid´eo de jeu de batterie, utilisant une approche bas´ee sur l’apprentissage supervis´e de mod`eles locaux, a ´egalement fait l’objet d’un article [GR05a].

Conclusion de la partie II

Le probl`eme de la transcription automatique de sc`enes musicales audiovisuelles est atypique, et peu trait´e dans la litt´erature. Nos propositions de solutions, pour une application concr`ete, constituent donc l’une des contributions originales de cette th`ese. Malgr´e les similarit´es apparentes entre la transcription musicale audiovisuelle et les probl`emes de la reconnaissance des gestes et postures ou le traitement audiovisuel de la parole, les solutions propos´ees `a ces probl`emes ne s’appliquent que peu ou mal `a la transcription musicale audiovisuelle. Parmi les raisons expliquant cet ´echec, nous avons soulign´e en particulier l’impossibilit´e de formuler des mod`eles universels des gestes et des param`etres extraits de la s´equence vid´eo – ces param`etres et mod`eles d´ependant de l’angle de prise