• Aucun résultat trouvé

Chapitre 1. Identification audio par empreinte

1.4 Méthode de Shazam

Une autre approche, soutenue par la société Shazam, s’appuie sur un algorithme d’étude des pics sinusoïdaux [Wang, 2003]. Il s’agit dans cette méthode de trouver et de caractériser les variations d’amplitudes locales à partir d’une analyse du spectre à court terme. Cette méthode est intégrée à une application commerciale dédiée à l’identification de morceaux de musique [Wang, 2006].

1.4.1 Vecteur de représentation acoustique et empreinte

Les échantillons, issus du signal audio numérisé, permettent de retourner les trames utiles pour le calcul d’une analyse spectrale par un fenêtrage avec recouvrement et une transformation de Fourier. Une segmentation par plages de fréquence du spectre ainsi obtenu permet de définir des zones d’analyse sur le plan temps-fréquence. Pour chacune de ces zones, les variations d’amplitude spectrale les plus fortes sont recherchées et considérées comme des points d’intérêt. Ces points d’intérêt correspondent alors à des attaques ou des relâchements sinusoïdaux (Figure 1.6). Un seuil de sélection sur ces variations d’amplitude est ajouté afin de conserver un nombre restreint de points d’intérêt. Afin de représenter les zones du spectre de fréquence de manière uniforme, un seuil différent est utilisé selon les bandes de fréquence considérées [Ogle et al., 2007].

Les points d’intérêts sélectionnés sont combinés deux à deux pour augmenter l’apport d’information et la capacité de discrimination du vecteur de représentation du signal audio [Betser, 2008]. Ainsi, des paires de points d’intérêt sont formées pour calculer un vecteur de représentation acoustique du signal audio. A partir de deux points d’intérêt de couple fréquence-temps ' , ( et '%, %(, le vecteur de représentation qui leur est associé est obtenu par le triplet ' , '%, % (. L’information temporelle représentée par n’est pas exploitée afin de s’affranchir de la contrainte du temps absolu. Ainsi seul le temps relatif à la distance entre les moments d’apparition des deux points d’intérêt est conservé dans le vecteur de représentation.

Dans la méthode de Shazam, l’algorithme de création d’empreinte audio forme des paires de points d’intérêt en tenant compte de contraintes d’association. Ces contraintes limitent le choix d’appariement à une sélection de points d’intérêt dans le voisinage du point d’intérêt utilisé comme référence autant sur le plan temporel que fréquentiel. Considérant un point d’intérêt de fréquence-temps ', (, les vecteurs de représentation formés à partir des paires associées à ce point d’intérêt sont choisis de la façon suivante :

- limiter les candidats à l’appariement à un horizon temporel ) 1, ∆ + et à un horizon fréquentiel )' ∆', ' ∆'+,

- conserver seulement les , candidats contenant les plus grandes valeurs d’énergie.

La recherche de points d’intérêt pour l’appariement s’effectue uniquement sur les évènements acoustiques postérieurs au point d’intérêt de référence. Cette contrainte permet d’empêcher la sélection de doublons et les appariements avec une différence temporelle nulle.

La valeur , du nombre de candidats retenus est définie par le système en fonction du nombre de vecteurs de représentation désirés avec un même point d’intérêt de référence (en général, , 10) [Wang, 2003].

fréquence (Hz)

temps (s)

Figure 1.6 : Recherche des points d'intérêt (méthode de Shazam) [Wang, 2003]

Les empreintes sont dans ce cas des segments de vecteurs de représentation. Ces empreintes sont formées par la concaténation d’un nombre fixe de vecteurs adjacents issus du même instant temporel ou non. Similairement à la méthode de Philips, l’accès à ces vecteurs de représentation dans la base de référence est assuré par un tableau d’indexation. Une table de hachage permet alors d’obtenir une correspondance des vecteurs de représentation sous la forme de sous-empreintes. A ce moment, une opération de quantification scalaire permet de représenter chacune des trois valeurs réelles d’un vecteur de représentation sur un nombre limité de bits. Une sous-empreinte peut être définie par exemple sur 20 bits en attribuant 8 bits pour la valeur de fréquence du premier point d’intérêt, 6 bits pour la valeur de fréquence du second point d’intérêt et 6 bits pour l’intervalle temporel entre les moments d’apparition de ces points d’intérêt [Ellis, 2009]. Chaque entrée du tableau d’indexation contient alors une liste de références aux empreintes contenant le vecteur de représentation retournant la sous-empreinte et son moment d’apparition. Ainsi cette liste de références est composée d’objets définis sous la forme de couples &, ( où & est la valeur d’index de l’empreinte dans la base de référence et le moment d’apparition du vecteur de représentation à l’intérieur de l’empreinte (Figure 1.5, page 21).

1.4.2 Distance entre empreintes et identification

La distance entre empreintes est définie selon la concordance de l’histogramme des décalages temporels entre les moments d’apparition des vecteurs de représentation similaires qui composent ces empreintes. Ces vecteurs sont considérés similaires s’ils partagent les mêmes valeurs de empreinte correspondant. Lors de l’identification d’un signal audio, les sous-empreintes obtenues à partir des vecteurs de représentation sont calculés sur le signal à analyser pour un intervalle de temps donné. Compte-tenu du segment obtenu par la concaténation de ces vecteurs, l’identification est alors réalisée pour chaque vecteur de représentation temps-fréquence ' , '%, % ( au temps de la manière suivante :

- sélectionner dans le tableau d’indexation les objets constituant la liste de référence de même valeur que la sous-empreinte correspondante,

- pour chaque objet sélectionné &, (, calculer le décalage temporel - , - conserver l’empreinte & comme candidat.

Puis dans un second temps, les vecteurs de représentation du signal audio à identifier sont comparés pour chacune des empreintes & candidates :

- calculer l’histogramme des décalages temporels - entre l’empreinte & candidate et le segment de vecteurs du signal analysé,

- valider l’identification du segment par l’empreinte & candidate si cet histogramme présente une vraisemblance supérieure à un seuil donné.

Durant l’étape d’identification audio, la comparaison par rapport aux empreintes de la base de référence s’effectue par une mesure de distance directement à partir des sous-empreintes. En effet, ces sous-empreintes obtenues par la fonction de hachage choisie conservent les caractéristiques des vecteurs de représentation acoustique du signal audio [Wang, 2003]. Le choix d’une telle sous-empreinte permet donc non seulement de réduire l’espace de recherche mais également de mesurer la distance entre empreintes. Cette mesure de distance est assurée par la correspondance des valeurs de fréquence des points d’intérêt conservés et le calcul du décalage temporel de leur moment d’apparition.