• Aucun résultat trouvé

Indexation scalable de documents sonores

N/A
N/A
Protected

Academic year: 2022

Partager "Indexation scalable de documents sonores"

Copied!
55
0
0

Texte intégral

(1)

Nany BERTIN

Mémoire pour le Master de Sienes et Tehnologies

Université Pierre et Marie Curie

Mention SDI, Spéialité MIS, Parours ATIAM

sous la diretion d'Alain de CHEVEIGNÉ

Equipe Audition

Département d'Etudes Cognitives, ENS

Laboratoire de Psyhologie Expérimentale, CNRS, UMR 8581

Mars-Juin 2005

(2)
(3)

Remeriements 5

Résumé 7

Avant-propos 9

1 Introdution : l'indexation audio et ses appliations 11

1.1 Qu'est-e que l'indexationaudio? . . . . . . . . . . . . . . . . . . 11

1.2 Shéma d'un système d'indexation. . . . . . . . . . . . . . . . . . 13

1.3 Appliations de l'indexation . . . . . . . . . . . . . . . . . . . . . 15

1.3.1 Navigation etvisualisation . . . . . . . . . . . . . . . . . . 15

1.3.2 Classiationdes sons . . . . . . . . . . . . . . . . . . . . 15

1.3.3 Reherhe d'un extrait, identiation . . . . . . . . . . . . 16

1.3.4 Protetion de lapropriété intelletuelle . . . . . . . . . . . 16

1.4 Desripteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.4.1 Critères de hoix . . . . . . . . . . . . . . . . . . . . . . . 17

1.4.2 Exemplesde desripteurs . . . . . . . . . . . . . . . . . . . 18

2 Salabilité 21 2.1 Le onept de salabilité . . . . . . . . . . . . . . . . . . . . . . . 21

2.1.1 Intérêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1.2 Dénition . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2 Desripteurs salables. . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.1 Opérations de remise à l'éhelle . . . . . . . . . . . . . . . 23

2.2.2 Exemplesde desripteurs salables . . . . . . . . . . . . . 25

2.2.3 Struturede données . . . . . . . . . . . . . . . . . . . . . 26

3 Algorithmes de reherhe dans des bases de données sonores 29 3.1 Introdution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2 Reherhe exhaustive . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.4 Reherhe ative . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

(4)

4 L'algorithme de reherhe hiérarhique 35

4.1 Prinipe de la reherhe hiérarhique . . . . . . . . . . . . . . . . 35

4.2 Reherhe hiérarhique basée sur leshistogrammes. . . . . . . . . 36

4.3 Réalisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.3.1 Indexation . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.3.2 Reherhe multi-éhelles . . . . . . . . . . . . . . . . . . . 39

4.3.3 Phase nale . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.4 Expériene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.4.1 Tâhe expérimentale . . . . . . . . . . . . . . . . . . . . . 41

4.4.2 Base de données . . . . . . . . . . . . . . . . . . . . . . . . 41

4.4.3 Requêtes-test . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.4.4 Algorithmesde référene . . . . . . . . . . . . . . . . . . . 42

4.5 Résultats. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.5.1 Métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.5.2 Vitesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.5.3 Préision ettauxde rappel . . . . . . . . . . . . . . . . . . 44

4.6 Analyse des propriétés de l'algorithme . . . . . . . . . . . . . . . 44

4.6.1 Pouvoirde disrimination . . . . . . . . . . . . . . . . . . 44

4.6.2 Inuene des seuils . . . . . . . . . . . . . . . . . . . . . . 46

4.7 Perspetives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Conlusion 51

Bibliographie 55

(5)

Entout premierlieu, j'aimeraisremerier Alainde Cheveigné, mon direteur

de stage, de m'avoir proposé de le rejoindre. Enthousiaste, disponible (même à

desmilliersde kilomètres!),ilm'alaissé unegrandeautonomiedetravailtout en

sahant rester présent quand il lefallait.

Meri àtoutel'équipeAudition pour lahaleureuse ambianede travaildans

lelaboratoire:Danetses péripéties immobilières,Danieletses mésaventures au

troisièmeétage, Maria et son regard frais et salutaire sur nos mauvaises manies

françaises! Tous ontpermis defaire dee stage un momentnon seulement péda-

gogiquement protable mais aussi agréableet humainementrihe.

J'aimerais également remerier partiulièrement Denis Matignon pour son

soutienlorsde maandidature,l'année passée.

Enn, jeprote de ette oasion pour remerier lesenseignants etétudiants

du Master ATIAM pour ette année à la hauteur de mes rêves d'adolesente.

Sans oublier tous les herheurs de l'IRCAM, ayant fait naître ma voation lors

des journées Portes Ouvertes de 1995, pour leur passion ommuniative, leur

enthousiasme,leurpatiene,leursenouragements,leursonseils.C'esten grande

partiegrâe à euxque j'ai pu arriver jusqu'iiaujourd'hui.

(6)
(7)

Ce doument dérit la mise au point d'un algorithme de reherhe eae

dans lesdonnées sonores, fondé sur lanotion de salabilité.

Pours'adapteràlaroissaneexponentielledelaquantitédedonnées sonores,

etombattrelesdiultésdemanipulationquien résultent,lesmétadonnéesuti-

liséespour l'indexationaudiodoivent êtresalables. Lasalabilitéest déniepar

lapossibilitépourlesmétadonnéesd'êtreinstantiéesàn'importequelleéhelle,et

d'êtreonverties de façon ordonnée d'unerésolution ne vers une résolution plus

grossière.Lesmétadonnées salablespermettentde mettreaupoint desoutils de

visualisationetde reherhe viables àtrès grandeéhelle.

L'objetif du travail de stage était, en prenant pour aquise la ontrainte

de salabilité,de démontrer que les métadonnées qui respetent ette ontrainte

supportent eaement les opérations de reherhe dans les très grandes bases

de données, la visualisationet la navigation, et. Nous avons réussi à mettre au

point un algorithme très eae de reherhe dans une base de données sonores

quidémontre à la fois la ompatibilitédes strutures salables ave la reherhe

d'informationmusiale,et legain apporté par leur utilisation.

Lefateurd'aélérationparrapportàunalgorithmereprésentatifdel'étatde

l'art(l'algorithmede reherhe ative de Kashinoetal.,2003)atteint30pour

desbasesgrandes.Deplusefateurroîtavelatailledelabase,equionstitue

unepropriétéprometteusepour lessystèmesde reherhe d'informationmusiale

futurs, quiauront àgérer des données largementplus massives qu'aujourd'hui.

(8)
(9)

L'équipe d'aueil

J'ai eetué mon stage au sein de l'équipe Audition : psyhophysique, mo-

délisation, neurosienes. Cette jeune équipe possède une double aliation: au

Département d'Etudes Cognitives (DEC) de l'ENS 1

et au Laboratoire de Psy-

hologieExpérimentale 2

(LPE, UMR CNRS 8581).

L'équipe ompte atuellement quatre membres statutaires et un membre at-

tahé. Ellepossèdedéjàdenombreuses ollaborationsinternes,internationaleset

universitaires.

Lesreherhes del'équipeportentmajoritairementsurlesbasniveauxdetrai-

tementauditifde l'informationaoustique. Diérentsthèmessontétudiésàl'aide

d'approhes distintes et omplémentaires : psyhophysique, életrophysiologie,

modélisation omputationnelle, neuroimagerie, audiologie, et neuropsyhologie.

Le point entralde es reherhes onsisteen la mise en évidene et l'étude des

méanismespériphériques(ohlée, nerfauditif)etentraux(tronérébral, or-

tex) impliqués dans l'analyse et l'intégration temporelles réalisées à diérentes

éhelles (de la miroseonde à plusieurs seondes) par le système auditif. Ces

étudessont majoritairementappliquées à laompréhension des apaités d'ana-

lysedesènesauditives,dealuld'attributsauditifs(telsquehauteurettimbre),

de atégorisationdes sons, de reonnaissane de laparole oude pereption de la

musique hez des sujets entendants, ou malentendants appareillés ou implantés.

Des appliations dans le domaine des algorithmes et des prothèses et implants

sont développées et testées dans leadre de es reherhes.

L'équipe possède également des liens ave le milieu hospitalier. Un Groupe-

mentdeReherheen AudiologieExpérimentaleetClinique(GRAEC)dirigépar

leséquipesAudition etPsyholinguistique du LPEfédère plusieurs servies hos-

pitaliersParisiensd'ORLetdeNeurologie(7hpitaux)etplusieursindustrielsde

laprothèse auditive et de l'implantohléaire.Des reherhes plus liniques sur

1

DEC,45rued'Ulm,75230Parisédex05;Direteur:Pr.D.Andler;andlerhippo.ens.fr;

Tél:01.44.32.36.50;Fax:01.44.32.36.10

2

UFR-Institut de Psyhologie, Université René Desartes Paris 5, 71 avenue Edouard

Vaillant, 92774 Boulogne Billanourt édex; Direteur : K. O'Regan - DR1 CNRS : ore-

ganidf.ext.jussieu.fr;Tél.01.55.20.59.26;Fax: 01.55.20.58.54

(10)

la surditéet l'intelligibilitédans le bruit sont menéesdans le adre du GRAEC.

Sujet du stage

Le sujet du stage m'a été présentéainsi :

Le stageviseàexplorer leonept desalabilitédes données d'in-

dexation de doumentssonores. Laloide Moore (sous un de ses ava-

tars) prévoit que levolume des données (sur leweb, sur les supports

destokage)augmenteexponentiellement.Enomparaison,labande

passante ognitive etomportementale de l'utilisateur varie peu. Il

enrésulteunediultéroissantepournavigueretmanipulerlesdon-

nées sonores. Le onept de métadonnée a été inventé en réponse à

e onstat, mais lesmétadonnées elles-mêmessuivent aussiune rois-

sane exponentielle, e qui risque de reproduire le même problème.

La salabilité des métadonnées est une propriété qui leur permet de

s'adapter à ette roissane. Les métadonnées salables ont une ré-

solution ajustable, et permettent ainsi de onstruire des strutures

d'indexation hiérarhiquesqui failitentla navigationetlareherhe.

Il s'agit d'implémenter un petit ensemble de desripteurs de signal

(spetre, fréquene fondamentale, et.), sous formesalable, et d'ex-

plorerlespossibilitésqu'ellesorentpourlanavigationetlareherhe

de données (sur disque ou sur web).

Déroulement du stage

Lapremière phasedu stageaonsistéàmettreenplae unoutil d'indexation

(extrationetremiseàl'éhelle)utilisantdes desripteurssalables,ettesterleur

utilité sur une appliation simple de visualisation.

Laseondephases'estportéesurlamiseaupointd'unalgorithmedereherhe

performant,utilisantlesmultipleséhellesdisponiblespourunmêmedesripteur,

dans le adre d'un appliation de loalisation d'un ourt extrait dans une base

de données. Cette phase a été l'oasion d'étudier diérentes approhes et algo-

rithmes du domaineditde Musi Information Retrieval.

Enn, et algorithme a été intégré dans un outil de visualisation et de re-

herhes de doublons dans une grande base de données sonore.

An de souligner l'apport prinipal de mon travail, le présent doument ne

suit pashronologiquemente déroulement.J'aiainsi hoisid'insister sur lamise

(11)

Introdution : l'indexation audio et

ses appliations

1.1 Qu'est-e que l'indexation audio?

L'opérationd'indexationviseà ajouter àun ontenu desdonnées supplémen-

tairesquipermettentdelassereontenuetdelemanipuler.Cesdonnéessupplé-

mentaires apportent une informationsur les données brutes qu'elles onernent;

on les appellemétadonnées. Plus onises ou mieux struturées que les données

de départ,elles visentà failiter leur manipulation.

Deux exemples historiques : le livreet la bibliothèque

Deux exemples permettent de saisir intuitivement en quoi onsiste l'indexa-

tion :l'index d'un livre, etl'étiquetage des livresdans une bibliothèque.

L'indexation d'un texte onsiste à repérer dans elui-i ertains mots ou ex-

pressions signiatifs,et à réerun lienentre es termeset le texte original.Par

exemple, les pages d'index d'un livre reprennent les termes signiatifs appa-

raissant dans le livre, et les relient aux pages du livre es termes (ou leurs

synonymes) apparaissent.Cei failitepour leleteurlaloalisationdespages ou

setions l'on mentionne un sujet partiulier. De même, la table des matières

d'un livreest une forme(assez grossière) d'indexation.

Le seond exemple est le système de lassement des ouvrages d'une biblio-

thèque. L'étiquette aoléeau livre apporte une information onisepermettant

de le loaliser : outre par exemple, les trois premières lettres du nom de l'au-

teur, un ode hiré pourra signaler la atégorie (littérature, histoire, poésie...),

un sous-ode préiser ette atégorie (littératures de langue française, anglaise,

allemande...).L'ensemble de es données indexe la bibliothèque entière.

(12)

Indexation audio

Le as de lamusique est évidemmentdiérentde elui du texte. Lamusique,

les sons ne ontiennent pas une signiation univoque et onsensuelle, tel outel

moreau pourra être jugé triste ou gaipar deux auditeurs. Siertaines informa-

tionsobjetivespeuvent luiêtre attahées, ommeun titreoulenom del'artiste,

es informationsneserontpas forémentsusantes pourlesmanipulationsqu'on

souhaiteenfaire.Tandisquelaquantitédemusiquedisponibleneessederoître,

onaenpartiulierbesoinde desriptionspouvantêtreproduitesetomprisespar

des mahines.

Indexation manuelle vs. indexation par le ontenu

La typologie des diérentes sortes d'indexation repose sur la manière de les

produire.Ondistinguel'indexationéditoriale de l'indexationparleontenu.

Lesmétadonnées éditoriales sontproduitesmanuellement.Lesplus ourantes

sont le titre du moreau, le titre de l'album qui le ontient, l'artiste, mais on

peut y ajouter un grand nombre d'autres informations. Outre des informations

fatuelles(date,lieud'enregistrement...)onpeutimagineruneétiquettede genre

(rok, életro, baroque...) oud'autres informationssubjetives.

A l'inverse, les métadonnées basées sur le ontenu sont extraites automati-

quement,àpartirdu signalaudiolui-même;e sont desmétadonnées objetives.

Des exemples de telles métadonnées sontdonnés dans lasetion 1.4.

L'indexation textuelle pose des problèmesd'homogénéité des desriptions,de

on-sensus sur lestermes,etsurtoutde oûtde prodution. Eneet, produitesà

lamain par des experts, elles sontoûteuses etpeu reprodutibles. Compte-tenu

de la roissaneexponentielle du volumede données, etteapprohe ne peut pas

sure.

L'avantage prinipal de l'indexation par le ontenu est son aratère auto-

matique :lesalgorithmesd'extration fontionnentsans intervention humaineet

produisent des métadonnées uniformes et ables. A supposer qu'on dispose de

desripteurs quiprédisentdes attributs pereptifstels queletimbre,es desrip-

teurs remplaeraient avantageusement des étiquettes verbales subjetives et peu

reprodutibles.

L'indexation par le ontenu présente ependant de nombreux problèmes qui

sont autant de dés pour la reherhe. Par exemple, dans les as d'appliations

qui néessitent de reherher des sons similaires (et non seulement identiques),

l'indexationdoitavoirunepertinenepsyhoaoustique,anquedeuxdouments

pereptivementprohessoientdéritspardes desripteursde valeurssemblables.

Un simple hashage du signal serait sensible à la moindre diérene entre des

signaux très similaires pour l'auditeur. L'indexation par le ontenu renontre

également le problème de l'inter-opérabilitédes systèmes; sa normalisation fait

(13)

[12, 10, 11℄.

Bienqu'ilsoittrèsdiérentdespréédents,ilparaîtintéressantdementionner

un troisième type d'indexation, évoqué notamment dans [29℄ qui le baptise in-

dexationulturelle.Ils'agitiid'utiliserlesinformationsfourniesparleontexte,

l'environnement. En réalité e terme reouvre deux hoses : des systèmes basés

sur des informations olletées auprès des utilisateurs (par exemple leurs pro-

ls)etsur un ltrageollaboratif;des systèmesolletantdes informationsde

o-ourrene (par exemple grâe aux moteursde reherhe sur Internet).

1.2 Shéma d'un système d'indexation

La gure 1.1 résume et illustre les diérentes étapes d'un système d'indexa-

tion. Ces étapes ne sont pas toutes obligatoires et de nombreux hoix peuvent

être faitsà haque étape. Quelquesexemples sont ités ii.

Le système se déompose en deux parties : une partie frontale (en anglais

front-end) qui est lapartie aoustique et traitement du signal du système, et

unepartiede modélisation des indexobtenus,visantàobtenirunedesription

plus oniseet organisée.

Lors de laphase frontale, diérentes étapes sont réalisées. Unpré-traitement

peutêtre appliquéausignalaoustique suivantsa natureinitiale(une onversion

analogique-numérique,uneonversiondefréquened'éhantillonnage,unltrage

destinéàsimulerunéventuelanal...).Ensuite,lesignalestrégulièrementfenêtré,

à une période telle qu'on peut raisonnablement espérer que le signal soit quasi-

stationnaire sur une fenêtre (intervalles de quelques milliseondes). Les fenêtres

etleur reouvrement sont hoisies de manière à limiter lesproblèmes de dison-

tinuité. Chaque trame donnera lieu ensuite à un veteur aoustique (feature

vetor) dérivant la trame. Les étapes suivantes, de transformation et d'extra-

tion, sont spéiquement dévolues au alul de e veteur. Les transformations

sont généralement un passage à une représentation temps-fréquene ou temps-

éhelle.Ellesont pour but de réduirelaredondane oud'obtenir une desription

plus aisément manipulable lors des étapes ultérieures. Les étapes d'extration

sont très diverses tant du point de vue du résultat que des algorithmes déployés

pour lesobtenir. Enn, une étape de traitement supplémentaire peut ompléter

ettephaseen vued'améliorerlasémantiquedu veteurousonutilisationfuture,

par exemple une normalisation.

L'étape suivante de modélisation, a pour but prinipal, si elle a lieu, de ré-

duire ladimension de l'espae des veteurs aoustiques (feature spae) ou de les

organiser dans un modèle ompat faisant sens. Selon que les données sont xes

ou que l'on peut en rajouter au fur et à mesure, les transformations ne seront

pas toutes possibles. Elles vont de transformationslinéaires omme l'analyse en

omposantes prinipales (ACP), l'analyse disriminante linéaire (LDA) ou des

(14)

Taille de la fenêtre Type de fenêtre Overlap

MFCC Energie

Fréquence fondamentale

Quantification vectorielle Histogrammes

GMM, HMM...

Pré−traitement Fenêtrage Transformation

Extraction Post−traitement

Modélisation

Conversion mono Conversion A/N Décimation Bancs de filtre

TFD Ondelettes

Décorrélation Normalisation

FRONT−END

Empreinte/index

Audio

Références

Documents relatifs

Ce peuvent être des pistes de recherche, mais avançons pour exemple que ce peut être le cas quand c'est une profession: les nabatshi, les «ambianceurs» des

‹ Génération du retard : solution numérique TECHNIQUES AUDIO. 3.4

 Un signal sonore se propage dans un milieu matériel solide, liquide ou gazeux mais ne peut pas se propager dans le vide.. II – Description d’un

In conclusion, lycorine induces the apoptosis of A375 cells and inhi- bit its proliferation, invasion and migration in vitro, likely through the inactivation of the PI3K

Ces cinq cantons sont très nettement orientés à gauche, François Hollande obtenant entre 60 % et 66 % des suffrages exprimés sur ces territoires lors du second

Abstract: Risk of a fall is increased in individuals with chronic obstructive pulmonary disease (COPD), and is usually evaluated using the Berg Balance Scale (BBS), but this

Auteur de plusieurs livres, il affirme notamment sa notoriété sur la scène littéraire suédoise en 2009 avec la parution de Syndafall Wilmslow (La Chute de l'homme à Wilmslow), un