Nany BERTIN
Mémoire pour le Master de Sienes et Tehnologies
Université Pierre et Marie Curie
Mention SDI, Spéialité MIS, Parours ATIAM
sous la diretion d'Alain de CHEVEIGNÉ
Equipe Audition
Département d'Etudes Cognitives, ENS
Laboratoire de Psyhologie Expérimentale, CNRS, UMR 8581
Mars-Juin 2005
Remeriements 5
Résumé 7
Avant-propos 9
1 Introdution : l'indexation audio et ses appliations 11
1.1 Qu'est-e que l'indexationaudio? . . . . . . . . . . . . . . . . . . 11
1.2 Shéma d'un système d'indexation. . . . . . . . . . . . . . . . . . 13
1.3 Appliations de l'indexation . . . . . . . . . . . . . . . . . . . . . 15
1.3.1 Navigation etvisualisation . . . . . . . . . . . . . . . . . . 15
1.3.2 Classiationdes sons . . . . . . . . . . . . . . . . . . . . 15
1.3.3 Reherhe d'un extrait, identiation . . . . . . . . . . . . 16
1.3.4 Protetion de lapropriété intelletuelle . . . . . . . . . . . 16
1.4 Desripteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Critères de hoix . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Exemplesde desripteurs . . . . . . . . . . . . . . . . . . . 18
2 Salabilité 21 2.1 Le onept de salabilité . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1 Intérêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Dénition . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Desripteurs salables. . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1 Opérations de remise à l'éhelle . . . . . . . . . . . . . . . 23
2.2.2 Exemplesde desripteurs salables . . . . . . . . . . . . . 25
2.2.3 Struturede données . . . . . . . . . . . . . . . . . . . . . 26
3 Algorithmes de reherhe dans des bases de données sonores 29 3.1 Introdution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Reherhe exhaustive . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Reherhe ative . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4 L'algorithme de reherhe hiérarhique 35
4.1 Prinipe de la reherhe hiérarhique . . . . . . . . . . . . . . . . 35
4.2 Reherhe hiérarhique basée sur leshistogrammes. . . . . . . . . 36
4.3 Réalisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3.1 Indexation . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3.2 Reherhe multi-éhelles . . . . . . . . . . . . . . . . . . . 39
4.3.3 Phase nale . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Expériene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.1 Tâhe expérimentale . . . . . . . . . . . . . . . . . . . . . 41
4.4.2 Base de données . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.3 Requêtes-test . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.4 Algorithmesde référene . . . . . . . . . . . . . . . . . . . 42
4.5 Résultats. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5.1 Métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5.2 Vitesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.3 Préision ettauxde rappel . . . . . . . . . . . . . . . . . . 44
4.6 Analyse des propriétés de l'algorithme . . . . . . . . . . . . . . . 44
4.6.1 Pouvoirde disrimination . . . . . . . . . . . . . . . . . . 44
4.6.2 Inuene des seuils . . . . . . . . . . . . . . . . . . . . . . 46
4.7 Perspetives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Conlusion 51
Bibliographie 55
Entout premierlieu, j'aimeraisremerier Alainde Cheveigné, mon direteur
de stage, de m'avoir proposé de le rejoindre. Enthousiaste, disponible (même à
desmilliersde kilomètres!),ilm'alaissé unegrandeautonomiedetravailtout en
sahant rester présent quand il lefallait.
Meri àtoutel'équipeAudition pour lahaleureuse ambianede travaildans
lelaboratoire:Danetses péripéties immobilières,Danieletses mésaventures au
troisièmeétage, Maria et son regard frais et salutaire sur nos mauvaises manies
françaises! Tous ontpermis defaire dee stage un momentnon seulement péda-
gogiquement protable mais aussi agréableet humainementrihe.
J'aimerais également remerier partiulièrement Denis Matignon pour son
soutienlorsde maandidature,l'année passée.
Enn, jeprote de ette oasion pour remerier lesenseignants etétudiants
du Master ATIAM pour ette année à la hauteur de mes rêves d'adolesente.
Sans oublier tous les herheurs de l'IRCAM, ayant fait naître ma voation lors
des journées Portes Ouvertes de 1995, pour leur passion ommuniative, leur
enthousiasme,leurpatiene,leursenouragements,leursonseils.C'esten grande
partiegrâe à euxque j'ai pu arriver jusqu'iiaujourd'hui.
Ce doument dérit la mise au point d'un algorithme de reherhe eae
dans lesdonnées sonores, fondé sur lanotion de salabilité.
Pours'adapteràlaroissaneexponentielledelaquantitédedonnées sonores,
etombattrelesdiultésdemanipulationquien résultent,lesmétadonnéesuti-
liséespour l'indexationaudiodoivent êtresalables. Lasalabilitéest déniepar
lapossibilitépourlesmétadonnéesd'êtreinstantiéesàn'importequelleéhelle,et
d'êtreonverties de façon ordonnée d'unerésolution ne vers une résolution plus
grossière.Lesmétadonnées salablespermettentde mettreaupoint desoutils de
visualisationetde reherhe viables àtrès grandeéhelle.
L'objetif du travail de stage était, en prenant pour aquise la ontrainte
de salabilité,de démontrer que les métadonnées qui respetent ette ontrainte
supportent eaement les opérations de reherhe dans les très grandes bases
de données, la visualisationet la navigation, et. Nous avons réussi à mettre au
point un algorithme très eae de reherhe dans une base de données sonores
quidémontre à la fois la ompatibilitédes strutures salables ave la reherhe
d'informationmusiale,et legain apporté par leur utilisation.
Lefateurd'aélérationparrapportàunalgorithmereprésentatifdel'étatde
l'art(l'algorithmede reherhe ative de Kashinoetal.,2003)atteint30pour
desbasesgrandes.Deplusefateurroîtavelatailledelabase,equionstitue
unepropriétéprometteusepour lessystèmesde reherhe d'informationmusiale
futurs, quiauront àgérer des données largementplus massives qu'aujourd'hui.
L'équipe d'aueil
J'ai eetué mon stage au sein de l'équipe Audition : psyhophysique, mo-
délisation, neurosienes. Cette jeune équipe possède une double aliation: au
Département d'Etudes Cognitives (DEC) de l'ENS 1
et au Laboratoire de Psy-
hologieExpérimentale 2
(LPE, UMR CNRS 8581).
L'équipe ompte atuellement quatre membres statutaires et un membre at-
tahé. Ellepossèdedéjàdenombreuses ollaborationsinternes,internationaleset
universitaires.
Lesreherhes del'équipeportentmajoritairementsurlesbasniveauxdetrai-
tementauditifde l'informationaoustique. Diérentsthèmessontétudiésàl'aide
d'approhes distintes et omplémentaires : psyhophysique, életrophysiologie,
modélisation omputationnelle, neuroimagerie, audiologie, et neuropsyhologie.
Le point entralde es reherhes onsisteen la mise en évidene et l'étude des
méanismespériphériques(ohlée, nerfauditif)etentraux(tronérébral, or-
tex) impliqués dans l'analyse et l'intégration temporelles réalisées à diérentes
éhelles (de la miroseonde à plusieurs seondes) par le système auditif. Ces
étudessont majoritairementappliquées à laompréhension des apaités d'ana-
lysedesènesauditives,dealuld'attributsauditifs(telsquehauteurettimbre),
de atégorisationdes sons, de reonnaissane de laparole oude pereption de la
musique hez des sujets entendants, ou malentendants appareillés ou implantés.
Des appliations dans le domaine des algorithmes et des prothèses et implants
sont développées et testées dans leadre de es reherhes.
L'équipe possède également des liens ave le milieu hospitalier. Un Groupe-
mentdeReherheen AudiologieExpérimentaleetClinique(GRAEC)dirigépar
leséquipesAudition etPsyholinguistique du LPEfédère plusieurs servies hos-
pitaliersParisiensd'ORLetdeNeurologie(7hpitaux)etplusieursindustrielsde
laprothèse auditive et de l'implantohléaire.Des reherhes plus liniques sur
1
DEC,45rued'Ulm,75230Parisédex05;Direteur:Pr.D.Andler;andlerhippo.ens.fr;
Tél:01.44.32.36.50;Fax:01.44.32.36.10
2
UFR-Institut de Psyhologie, Université René Desartes Paris 5, 71 avenue Edouard
Vaillant, 92774 Boulogne Billanourt édex; Direteur : K. O'Regan - DR1 CNRS : ore-
ganidf.ext.jussieu.fr;Tél.01.55.20.59.26;Fax: 01.55.20.58.54
la surditéet l'intelligibilitédans le bruit sont menéesdans le adre du GRAEC.
Sujet du stage
Le sujet du stage m'a été présentéainsi :
Le stageviseàexplorer leonept desalabilitédes données d'in-
dexation de doumentssonores. Laloide Moore (sous un de ses ava-
tars) prévoit que levolume des données (sur leweb, sur les supports
destokage)augmenteexponentiellement.Enomparaison,labande
passante ognitive etomportementale de l'utilisateur varie peu. Il
enrésulteunediultéroissantepournavigueretmanipulerlesdon-
nées sonores. Le onept de métadonnée a été inventé en réponse à
e onstat, mais lesmétadonnées elles-mêmessuivent aussiune rois-
sane exponentielle, e qui risque de reproduire le même problème.
La salabilité des métadonnées est une propriété qui leur permet de
s'adapter à ette roissane. Les métadonnées salables ont une ré-
solution ajustable, et permettent ainsi de onstruire des strutures
d'indexation hiérarhiquesqui failitentla navigationetlareherhe.
Il s'agit d'implémenter un petit ensemble de desripteurs de signal
(spetre, fréquene fondamentale, et.), sous formesalable, et d'ex-
plorerlespossibilitésqu'ellesorentpourlanavigationetlareherhe
de données (sur disque ou sur web).
Déroulement du stage
Lapremière phasedu stageaonsistéàmettreenplae unoutil d'indexation
(extrationetremiseàl'éhelle)utilisantdes desripteurssalables,ettesterleur
utilité sur une appliation simple de visualisation.
Laseondephases'estportéesurlamiseaupointd'unalgorithmedereherhe
performant,utilisantlesmultipleséhellesdisponiblespourunmêmedesripteur,
dans le adre d'un appliation de loalisation d'un ourt extrait dans une base
de données. Cette phase a été l'oasion d'étudier diérentes approhes et algo-
rithmes du domaineditde Musi Information Retrieval.
Enn, et algorithme a été intégré dans un outil de visualisation et de re-
herhes de doublons dans une grande base de données sonore.
An de souligner l'apport prinipal de mon travail, le présent doument ne
suit pashronologiquemente déroulement.J'aiainsi hoisid'insister sur lamise
Introdution : l'indexation audio et
ses appliations
1.1 Qu'est-e que l'indexation audio?
L'opérationd'indexationviseà ajouter àun ontenu desdonnées supplémen-
tairesquipermettentdelassereontenuetdelemanipuler.Cesdonnéessupplé-
mentaires apportent une informationsur les données brutes qu'elles onernent;
on les appellemétadonnées. Plus onises ou mieux struturées que les données
de départ,elles visentà failiter leur manipulation.
Deux exemples historiques : le livreet la bibliothèque
Deux exemples permettent de saisir intuitivement en quoi onsiste l'indexa-
tion :l'index d'un livre, etl'étiquetage des livresdans une bibliothèque.
L'indexation d'un texte onsiste à repérer dans elui-i ertains mots ou ex-
pressions signiatifs,et à réerun lienentre es termeset le texte original.Par
exemple, les pages d'index d'un livre reprennent les termes signiatifs appa-
raissant dans le livre, et les relient aux pages du livre où es termes (ou leurs
synonymes) apparaissent.Cei failitepour leleteurlaloalisationdespages ou
setions où l'on mentionne un sujet partiulier. De même, la table des matières
d'un livreest une forme(assez grossière) d'indexation.
Le seond exemple est le système de lassement des ouvrages d'une biblio-
thèque. L'étiquette aoléeau livre apporte une information onisepermettant
de le loaliser : outre par exemple, les trois premières lettres du nom de l'au-
teur, un ode hiré pourra signaler la atégorie (littérature, histoire, poésie...),
un sous-ode préiser ette atégorie (littératures de langue française, anglaise,
allemande...).L'ensemble de es données indexe la bibliothèque entière.
Indexation audio
Le as de lamusique est évidemmentdiérentde elui du texte. Lamusique,
les sons ne ontiennent pas une signiation univoque et onsensuelle, tel outel
moreau pourra être jugé triste ou gaipar deux auditeurs. Siertaines informa-
tionsobjetivespeuvent luiêtre attahées, ommeun titreoulenom del'artiste,
es informationsneserontpas forémentsusantes pourlesmanipulationsqu'on
souhaiteenfaire.Tandisquelaquantitédemusiquedisponibleneessederoître,
onaenpartiulierbesoinde desriptionspouvantêtreproduitesetomprisespar
des mahines.
Indexation manuelle vs. indexation par le ontenu
La typologie des diérentes sortes d'indexation repose sur la manière de les
produire.Ondistinguel'indexationéditoriale de l'indexationparleontenu.
Lesmétadonnées éditoriales sontproduitesmanuellement.Lesplus ourantes
sont le titre du moreau, le titre de l'album qui le ontient, l'artiste, mais on
peut y ajouter un grand nombre d'autres informations. Outre des informations
fatuelles(date,lieud'enregistrement...)onpeutimagineruneétiquettede genre
(rok, életro, baroque...) oud'autres informationssubjetives.
A l'inverse, les métadonnées basées sur le ontenu sont extraites automati-
quement,àpartirdu signalaudiolui-même;e sont desmétadonnées objetives.
Des exemples de telles métadonnées sontdonnés dans lasetion 1.4.
L'indexation textuelle pose des problèmesd'homogénéité des desriptions,de
on-sensus sur lestermes,etsurtoutde oûtde prodution. Eneet, produitesà
lamain par des experts, elles sontoûteuses etpeu reprodutibles. Compte-tenu
de la roissaneexponentielle du volumede données, etteapprohe ne peut pas
sure.
L'avantage prinipal de l'indexation par le ontenu est son aratère auto-
matique :lesalgorithmesd'extration fontionnentsans intervention humaineet
produisent des métadonnées uniformes et ables. A supposer qu'on dispose de
desripteurs quiprédisentdes attributs pereptifstels queletimbre,es desrip-
teurs remplaeraient avantageusement des étiquettes verbales subjetives et peu
reprodutibles.
L'indexation par le ontenu présente ependant de nombreux problèmes qui
sont autant de dés pour la reherhe. Par exemple, dans les as d'appliations
qui néessitent de reherher des sons similaires (et non seulement identiques),
l'indexationdoitavoirunepertinenepsyhoaoustique,anquedeuxdouments
pereptivementprohessoientdéritspardes desripteursde valeurssemblables.
Un simple hashage du signal serait sensible à la moindre diérene entre des
signaux très similaires pour l'auditeur. L'indexation par le ontenu renontre
également le problème de l'inter-opérabilitédes systèmes; sa normalisation fait
[12, 10, 11℄.
Bienqu'ilsoittrèsdiérentdespréédents,ilparaîtintéressantdementionner
un troisième type d'indexation, évoqué notamment dans [29℄ qui le baptise in-
dexationulturelle.Ils'agitiid'utiliserlesinformationsfourniesparleontexte,
l'environnement. En réalité e terme reouvre deux hoses : des systèmes basés
sur des informations olletées auprès des utilisateurs (par exemple leurs pro-
ls)etsur un ltrageollaboratif;des systèmesolletantdes informationsde
o-ourrene (par exemple grâe aux moteursde reherhe sur Internet).
1.2 Shéma d'un système d'indexation
La gure 1.1 résume et illustre les diérentes étapes d'un système d'indexa-
tion. Ces étapes ne sont pas toutes obligatoires et de nombreux hoix peuvent
être faitsà haque étape. Quelquesexemples sont ités ii.
Le système se déompose en deux parties : une partie frontale (en anglais
front-end) qui est lapartie aoustique et traitement du signal du système, et
unepartiede modélisation des indexobtenus,visantàobtenirunedesription
plus oniseet organisée.
Lors de laphase frontale, diérentes étapes sont réalisées. Unpré-traitement
peutêtre appliquéausignalaoustique suivantsa natureinitiale(une onversion
analogique-numérique,uneonversiondefréquened'éhantillonnage,unltrage
destinéàsimulerunéventuelanal...).Ensuite,lesignalestrégulièrementfenêtré,
à une période telle qu'on peut raisonnablement espérer que le signal soit quasi-
stationnaire sur une fenêtre (intervalles de quelques milliseondes). Les fenêtres
etleur reouvrement sont hoisies de manière à limiter lesproblèmes de dison-
tinuité. Chaque trame donnera lieu ensuite à un veteur aoustique (feature
vetor) dérivant la trame. Les étapes suivantes, de transformation et d'extra-
tion, sont spéiquement dévolues au alul de e veteur. Les transformations
sont généralement un passage à une représentation temps-fréquene ou temps-
éhelle.Ellesont pour but de réduirelaredondane oud'obtenir une desription
plus aisément manipulable lors des étapes ultérieures. Les étapes d'extration
sont très diverses tant du point de vue du résultat que des algorithmes déployés
pour lesobtenir. Enn, une étape de traitement supplémentaire peut ompléter
ettephaseen vued'améliorerlasémantiquedu veteurousonutilisationfuture,
par exemple une normalisation.
L'étape suivante de modélisation, a pour but prinipal, si elle a lieu, de ré-
duire ladimension de l'espae des veteurs aoustiques (feature spae) ou de les
organiser dans un modèle ompat faisant sens. Selon que les données sont xes
ou que l'on peut en rajouter au fur et à mesure, les transformations ne seront
pas toutes possibles. Elles vont de transformationslinéaires omme l'analyse en
omposantes prinipales (ACP), l'analyse disriminante linéaire (LDA) ou des