• Aucun résultat trouvé

D´ etections pour l’alignement du conducteur sur le flux

Partie II La programmation d’une chaˆıne de t´ el´ evision

Chapitre 10 ´ Evaluation du mod` ele et des pr´ edictions

1.2 D´ etections pour l’alignement du conducteur sur le flux

Puisque les segments qui composent un Morning Caf´e sont h´et´erog`enes et puisque nous n’avons pas de guide de programmes pour diminuer le nombre de chemins possibles dans le graphe, les d´etecteurs que nous devons employer doivent ˆetre plus sp´ecifiques. La nature d’une tranche horaire facilite le travail : dans le cadre du Morning Caf´e, les jingles publicitaires sont tous identiques et sont constitu´es par un extrait du g´en´erique. De mˆeme, les g´en´eriques du flash d’information, de la m´et´eo et du trafic routier sont identiques `a chaque fois. Il est ainsi possible de reconnaˆıtre chacun de ces jingles pour caract´eriser les transitions possibles entre ces parties de la tranche horaire. Nous allons pr´esenter dans cette section les diff´erents d´etecteurs utilis´es.

D´etection et reconnaissance de jingles sonores

Le processus de reconnaissance des jingles sonores peut se d´ecomposer en trois modules fr´equents dans les probl`emes de reconnaissance des formes (Pinquier et Andr´e-Obrecht, 2006) :

Chapitre 12. Structuration d’´emissions et de tranches horaires

Fig. 55: Syst`eme de reconnaissance des jingles

dans un premier temps le document audio passe par un module de pr´etraitement, puis par un module de d´etection et enfin par un module de reconnaissance (voir figure 55).

Fig. 56: Analyse spectrale

Le pr´etraitement acoustique consiste en une analyse spectrale du signal afin de le repr´esenter sous forme de vecteurs ; autrement dit, `a partir d’un signal, il s’agit d’obtenir les informations pertinentes pour la tˆache souhait´ee (Pinquier, 2004). Dans un premier temps, les aigus du signal audio sont accentu´es, puis le signal est d´ecoup´e en fenˆetres de Hamming de 32 ms avec un recouvrement de 16 ms. Les coefficients spectraux sont alors cr´e´es `a la suite du calcul des ´

energies dans 28 filtres, apr`es le module de la FFT (Transform´ee de Fourier rapide) et une pond´eration triangulaire (filtrage). Le vecteur repr´esentatif d’une trame est ainsi constitu´e de ses 28 coefficients spectraux et de son ´energie.

Fig. 57: Comparaison du jingle de r´ef´erence et du flux audio

Chaque jingle est repr´esent´e par sa signature qui consiste en une s´equence de N vecteurs spectraux, o`u N est le nombre de trames analys´ees. La d´etection consiste ainsi `a trouver cette s´e- quence dans le flux audio ; pour cela, les vecteurs d’information sont extraits du flux et compar´es `

a ceux du jingle de r´ef´erence par une distance euclidienne. `A chaque comparaison, la s´equence de vecteurs adjacents du flux est d´ecal´ee de S vecteurs (voir figure 57).

Les s´equences se pr´esentant comme de bonnes candidates sont obtenues en s´electionnant les distances euclidiennes minimales (voir figure 58). Pour affiner cette s´election, nous calculons la moyenne M de ces distances. Si la distance courante est inf´erieure `a M2, alors cette distance correspond `a une bonne s´equence candidate. La figure 58 montre un exemple de distances eu- clidiennes obtenues par comparaison d’un jingle de r´ef´erence avec trois minutes d’un flux audio. Dans un premier temps, cinq minima sont s´electionn´es. Les deux premiers correspondent bien

1. Structuration d’une tranche horaire

Fig. 58: Exemple de distances euclidiennes issues de la comparaison d’un jingle avec trois minutes de flux (Pinquier, 2004)

`

a un jingle de r´ef´erence. En revanche, les trois derniers minima montrent bien la pr´esence d’un jingle mais qui n’est pas le jingle recherch´e.

Chapitre 12. Structuration d’´emissions et de tranches horaires

Afin de reconnaˆıtre le jingle de r´ef´erence parmi les s´equences candidates, (Pinquier et Andr´e- Obrecht, 2004) propose de caract´eriser la largeur des pics (figure 58). Ainsi, pour chacun des pics correspondant `a un minimum local, il faut calculer :

– la valeur courante h du minimum local ;

– la largeur L du pic `a la hauteur H, o`u H est la hauteur du pic o`u l’on calcule sa largeur (voir figure 59).

Classification clip musical ou non clip

Fig. 60: Module de classification en clip musical ou non clip

Nous nous sommes int´eress´es `a un autre d´etecteur qui nous permettra d’extraire un clip musical du plateau de l’´emission principale. Nous rentrons ainsi dans le domaine de la d´etection de la musique. La figure 60 pr´esente un aper¸cu de la m´ethode.

On retrouve trois modules similaires `a ceux employ´es dans le d´etecteur d’applaudissements de (Pinquier et Andr´e-Obrecht, 2005) : un module de pr´etraitement (voir section 1.2), un module d’apprentissage et un module de classification.

Fig. 61: Apprentissage du syst`eme de classification

Afin de repr´esenter les ´el´ements du signal audio comme des clips musicaux ou des non-clips, deux mod`eles de m´elanges de lois gaussiennes sont n´ecessaires (GMM). Les GMM sont des outils probabilistes qui n´ecessitent un apprentissage supervis´e soign´e. L’apprentissage des param`etres des GMM est g´en´eralement r´ealis´e par un algorithme EM qui se d´eroule en deux ´etapes. La premi`ere est une initialisation du mod`ele par Quantification Vectorielle (algorithme VQ) fond´ee sur l’algorithme de Lloyd (Lloyd, 1982). La seconde phase est une optimisation des param`etres du m´elange de gaussiennes. Toutefois, le nombre de gaussiennes dans les GMM est `a d´eterminer de fa¸con empirique (voir section 1.3). Cette fois-ci, les trames sont repr´esent´ees par un vecteur constitu´e `a partir d’une analyse cepstrale.

1. Structuration d’une tranche horaire

La classification des segments du flux audio en clip ou non-clip se fait en plusieurs ´etapes `

a partir des deux mod`eles. Au d´ebut, on proc`ede `a une classification de trame de 10 ms en calculant la log-vraisemblance entre chaque vecteur d’information et chacun des mod`eles. Les vecteurs sont class´es en fonction du mod`ele qui leur attribue le plus haut score. Compte tenu de la taille des trames, deux ´etapes d’int´egration temporelle suivent la premi`ere phase. Dans un premier temps, les segments adjacents class´es de la mˆeme fa¸con sont fusionn´es. Ensuite, une phase de lissage est n´ecessaire pour supprimer les segments consid´er´es comme des clips musicaux de moins de 10 secondes.

Reconnaissance du plateau de l’´emission principale

Le probl`eme du d´etecteur employ´e pour la d´etection des clips musicaux est qu’il est bas´e uniquement sur le flux audio de la tranche horaire. Ainsi, si le clip d´emarre en arri`ere-plan alors que les chroniqueurs du Morning Caf´e sont toujours film´es, ce plan sera class´e comme faisant partie du clip. Pour ´eviter ce genre d’erreurs, nous avons introduit un d´etecteur de plateaux. En effet, le plateau de l’´emission principale du Morning Caf´e se distingue visuellement du reste par ses couleurs vives (voir figure 62).

Dans un premier temps, nous utilisons le d´etecteur de(( cuts )) introduit `a la section 1.1 (page 160). Nous repr´esentons ensuite l’image-cl´e de chaque plan par un vecteur `a trois composantes : la luminosit´e moyenne et la teinte des deux couleurs dominantes (dans le domaine de couleurs HSL).

`

A partir d’un ´echantillon d’images issues de plateaux du Morning Caf´e, nous avons constitu´e un vecteur de r´ef´erence α. Afin de d´eterminer si un plan appartient `a un plateau ou non, nous v´erifions la distance euclidienne entre le vecteur repr´esentatif de ce plan et le vecteur α. Si cette distance est inf´erieure `a un seuil δ estim´e exp´erimentalement, le plan est consid´er´e comme un plateau.

Fig. 62: Diff´erentes vues du plateau de Morning Caf´e

Documents relatifs