Un modèle pour la gestion des séquences temporelles synchronisées. Application aux données musicales symboliques.

(1)

HAL Id: tel-00676537

https://tel.archives-ouvertes.fr/tel-00676537

Submitted on 5 Mar 2012

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

synchronisées. Application aux données musicales

symboliques.

Zoé Faget

To cite this version:

Zoé Faget. Un modèle pour la gestion des séquences temporelles synchronisées. Application aux

données musicales symboliques.. Base de données [cs.DB]. Université Paris Dauphine - Paris IX, 2011.

Français. �tel-00676537�

(2)

N

◦

attribuépar labibliothèque

THÈSE

pour obtenir legrade de

Do teur de Université Paris-Dauphine Spé ialité: Data Management préparée aulaboratoireLAMSADE dans le adre de l'É ole Do toraleEDDIMO

présentée et soutenue publiquement par

Zoé Faget

le6 dé embre 2011

Titre:

Un modèle pour la gestion des séquen es temporelles syn hronisées. Appli ation aux données musi ales

symboliques

Dire teur de thèse: Philippe Rigaux, CNAM

Jury

M. Dominique Laurent, Univ. Cergy-Pontoise, Rapporteur M. Bruno Defude, Télé om Paris-Sud,Rapporteur M. Cédri du Mouza, CNAM

M. Geneviève Jomier, Univ. Paris-Dauphine M. PhilippeRigaux, CNAM, Dire teur de thèse

(3)

(4)

Table des matières 3

Remer iements... 7

Résumé de la thèse 9 Introdu tion 11 1 Contexte eténon é des problématiques . . . 11

2 Contenu etorganisation du mémoire . . . 13

1 Etat de l'art 15 1 Séquen es temporelles . . . 15

1.1 Généralités . . . 15

1.2 Domainesd'appli ation . . . 15

1.3 Méthodes d'analyseet utilisationdes séquen es temporelles . . 16

1.4 Exemple:séquen estemporellesetré upérationd'information musi ale . . . 16

2 Bases de données temporelles . . . 17

2.1 Dénitions . . . 17

2.2 Historique,langage etimplantations . . . 18

2.3 Remarque . . . 18

3 Base de données de séquen es temporelles . . . 18

3.1 Pré-requisd'une BDST . . . 19

3.2 Modèles et langagespour les séquen es temporelles . . . 19

3.3 Utilisationet analyse des BDST . . . 20

4 Bibliothèques numériques . . . 21 4.1 Dénitionset problématiques . . . 21 4.2 Exemples . . . 22 5 Rappel etpré ision . . . 22 5.1 Rappel . . . 22 5.2 Pré ision. . . 22 5.3 Moyenne harmonique . . . 23 6 Notion de similarité . . . 23 6.1 Généralités . . . 23

6.2 Choix d'une distan e . . . 24

6.3 Distan e Eu lidienne . . . 24

6.4 Distan e d'édition. . . 25

(5)

6.6 Longest Common Subsequen e (LCSS) . . . 29

6.7 Distan es

n

-grams . . . 31

6.8 Distan es et mesures de similarité en modélisationmusi ale. . 32

7 MIR et DSL . . . 33

7.1 Représentation de la musique et interrogation. . . 33

7.2 Polyphonie . . . 34

7.3 Plateformes existantes . . . 35

8 Indexation . . . 36

8.1 Indexation de séquen es temporelles. . . 36

8.2 Alignements . . . 38

8.3

n

-grams . . . 39

9 Con lusion etpositionnement . . . 39

2 Modélisation des séquen es temporelles 41 1 Motivation . . . 42

2 Exemples de séquen es temporelles . . . 42

2.1 Appli ations industrielles . . . 42 2.2 Traje toires . . . 43 2.3 Modélisationmusi ale . . . 43 3 Présentation du modèle. . . 44 3.1 Préliminaires . . . 44 3.2 Notations etdénitions . . . 44 3.3 Exemples . . . 45

3.4 L'algèbrerelationnelle Alg

R

. . . 47

3.5 L'algèbretemporelle Alg

(T S)

. . . 48

3.6 Exemple . . . 51

4 Con lusion . . . 51

3 Langage de requêtes 53 1 Préliminaires . . . 53

2 Syntaxe . . . 54

2.1 Stru ture d'une requête . . . 54

2.2 Grammaire du langage . . . 55

3 Tradu tion algébrique du langage . . . 56

4 Exemples . . . 57 4.1 Algèbre relationnelle . . . 57 4.2 Algèbre temporelle . . . 59 5 Implantation . . . 60 5.1 Fon tionnement général . . . 61 5.2 Ar hite ture . . . 61

5.3 Stru ture des tables . . . 61

5.4 Interfa e d'interrogation . . . 62

4 Indexation re her he appro hée 63 1 Remarques préliminaires . . . 63

2 Re her he par ontenu . . . 64

3 Prin ipes généraux du MS-index . . . 65

(6)

5 Création du MS-index . . . 68

6 Re her he exa te de partitions . . . 69

6.1 Déroulementd'une re her he exa te . . . 69

6.2 Algorithmes . . . 70

6.3 Remarques. . . 71

7 Re her he appro hée de partitions. . . 71

7.1 Dénitions . . . 71

7.2 Liens ave la distan e d'édition . . . 71

7.3 Déroulementd'une re her he appro hée. . . 72

7.4 Algorithme . . . 73

8 Résultats expérimentaux: re her he exa te . . . 74

8.1 Des riptiondes données . . . 74

8.2 Temps de onstru tion ettailled'un index . . . 75

8.3 Temps de re her he en fon tionde

n

. . . 76

8.4 Temps de re her he en fon tiondes des ripteurs . . . 76

9 Résultats expérimentaux: re her he appro hée . . . 77

9.1 Lien entre distan e

A

n

et distan e d'édition . . . 78

9.2 Fauxpositifs. . . 78

10 Con lusion . . . 79

5 Appli ation : plateforme Neuma 81 1 Introdu tion . . . 81

1.1 Contexte etmotivation . . . 81

1.2 Contraintes de laplateforme . . . 82

1.3 Appro he générale . . . 83

2 Des ription de la plateformeNeuma . . . 84

2.1 Servi e register() . . . 85 2.2 Servi e render() . . . 85 2.3 Servi e query() . . . 86 2.4 Servi e annotate() . . . 86 3 Ar hite ture . . . 87 4 Con lusion . . . 88 Con lusion et perspe tives 89 Bibliographie 91 Bibliographie 91

(7)

(8)

Tout d'abord je remer ie les rapporteurs Bruno Defude et Dominique Laurent qui onta epté de onsa rer une partie de leur tempsà l'étude de mon travail.

Je remer ie également Geneviève Jomier et Cédri Du Mouza qui ont, à deux reprises, fait partie de mon jury.

Desremer iements haleureuxpourDavidGross-Amblard,VirginieThion-Goasdoué et Camélia Constantin pour leur gentillesse, leur disponibilité, et pour les onver-sations fru tueuses que j'ai pu avoir ave euxqui ont ontribué à l'avan ée de mon travail.

Un mer i spé ial àmon amiBenoît, je sais ombien je luidois.

Laso iétéArmadillom'a a ueillie ommeune famillependant es trois années. Enn et surtout, je remer ie mon dire teur Philippe Rigaux pour son en adre-ment,son é oute, ses onseils, sapatien e etsa onan e.

(9)

(10)

Mots lés :Modèle de données,séquen es temporelles,re her he d'information musi ale,bibliothèquesnumériques,re her he par ontenu,indexn-gram,signatures algébriques.

La première partie de ma thèse est la des ription d'un modèle algébrique pour la gestion des séquen es temporelles syn hronisées. Ce modèle est une extension du modèlerelationnel lassique auquelonajouteun typenouveau, letypeséquen e temporelle.L'algèbrerelationnelleestaugmentéedetroisopérateursdédiésà e nou-veau type. Ces opérateurs permettent de retrouver toutes les opérations lassique-ment onduites sur des séquen es temporelles.Le langageutilisateur orrespondant est exposé, ainsi que de nombreux exemples,puisés notamment dans ledomainede lagestion des partitionssymboliques.

La se onde partie est lades ription d'un index permettantde réaliser plusieurs typesdere her hesdansdespartitionssymboliques(exa te,transposée,ave ousans rythme etappro hée). Il repose notammentsur lanotion de signature algébrique.

Dans la dernière partie, je dé ris une plateformedédiée à la gestiondu ontenu musi al symbolique quiest une appli ation des deux pré édentes parties.

Keywords :Data model, time series, musi informationretrieval,digital libra-ries, ontent-based retrieval, n-gramindexing, algebrai signatures.

The rst part of my thesis is the des ription of analgebrai modelfor syn hro-nized time series. It's an extensionof the lassi relationalmodel, to whi h we add a new type : the time series type. The relational algebra is enhan ed with three new operators dedi ated to time series. Those operators enable us to retrieve all usualoperationsontimeseries.Auserquerylanguageisprovided,aswellasseveral examples,most of whi h are hosen in the symboli s oremanagementdomain.

The se ond part is the des ription of an index stru ture allowing to ondu t severaltypesofqueriesonsymboli s ores(exa t,transposed,withorwithoutrythm and approximate). This index relies strongly on the notion of algebrai signature.

In the lastpart,I des ribea platformdedi ated tosymboli musi s ores mana-gement, whi h is anappli ation of the two previous parts.

(11)

(12)

Lamusiqueestdeplusenplusprésentesurleweb,etsona èsestrendupossible par une multipli ation des plateformes. On observe entre autres la diversi ation des représentations, la multipli ation des outils d'étude et d'interrogation, et une évolution imprévisibledes besoins etdes types d'utilisations.

Proposer une démar he génériquepour lagestionde ontenu musi alpermetde fairefa e à es hangements onstants et auxproblématiques quileurs sont liées.

1 Contexte et énon é des problématiques

Historiquement,lespremiersutilisateurs de ontenumusi alsur internetétaient amateursdemusique,re her hantune onsommationmusi aleimmédiate(é outeou télé hargement).Les fournisseurs de ontenuétaientquantà euxdes professionnels de type ommer ial (vente de musique) ou artistique (musi iens proposant leurs réations).Lamultitudede formatsaudioextrêmement ompa tsatoujoursfa ilité ladiusion de lamusique sous etteforme.

Depuis quelques temps, de nouvelles ommunautés d'utilisateurs experts appa-raissent : musi ologues, éditeurs de musique, musi iens, historiens de la musique. Ces utilisateurs se distinguent des amateurs par des besoins très diérents. Parmi es besoins, on distingue :

le partage et la mise en orrespondan e d'ar hives visant à faire émerger des onnaissan es nouvelles et des analyses portant sur des orpus plus étendus; l'ouvertureaupubli de ontenus autrement restreintsàun er le ondentiel

et initié (se posent alors les problématiques de opyright, sé urité et ontrle de la distribution);

l'étude de orpus intéressants pour leur valeur historique ou pour leur rareté plus que pour leur qualité esthétique;

la réationdes orpusdedo umentsdontladiusionn'estpossibleque numé-riquement;

latradu tion numérique de l'ensembledes outils d'analysemusi ologique tra-ditionnels.

Ce dernier point en parti ulier présente un enjeu important pour les musi o-logues. En eet, au-delà des outils lassiques de re her he (exa te, par motifs, par similarité,transverses) etde par ours,ilest né essaire d'intégrerauxnouvelles pos-sibilités te hnologiques les te hniques d'analyse existantes développées par les mu-si ologues depuis des siè les.

À ette n, la représentation audio,de loinla plus ourante, est très mal adap-tée.Ilesteneetquasi-impossibled'enextraireunedes riptionobje tive.On hoisit

(13)

don une représentation dite symbolique qui met l'a ent sur l'aspe t stru turé du ontenu. Si la subje tivité de la musique (interprétation, ressenti) est ignorée dans e type de représentation, en revan he un grand nombre d'informations tradition-nellement di ilesà extraire d'un enregistrement audio deviennent a essibles.

Dénition1. (Données musi alessymboliques)Onappelle données musi ales sym-boliques la des ription détaillée de toutes les informations né essaires à l'a hage (ou gravure) pré is d'une partition.

On y trouve ainsi les hauteurs et durées des notes, les diérents instruments, les paroles, mais également d'autre types d'informations omme doigtés, nuan es, tempo,voire des propriétés de mise en page.

Une partition sous sa forme symbolique ontient don un nombre important d'informations hétérogènes. Dans un ontexte appli atif, onregroupe les partitions en olle tions.

On appelle olle tion un ensemblede partitionsayant un ertainnombre de a-ra téristiques ommunes. Ces ara téristiquespeuventêtre de typeformelles, histo-riques, géographiques,stylistiques ouautre.L'intérêtetlesétudes onduitesvarient grandementd'une olle tionà l'autre.

On her hedon à on evoirdesoutilspouvants'adresseràdegrandes olle tions de partitionssymboliquesetsedé linerenfon tiondeleurs ara téristiquespropres. C'est le premierobje tif de ette thèse.

Lorsque es olle tions grandissent, une nouvelle problématique apparaît. Les informations présentes sont très ri hes et les données à interroger deviennent ra-pidement très volumineuses. Il est né essaire d'indexer de manière intelligente et performante e ontenu hétérogène, omplexe et non- onventionnel. Construire au as par as les opérations spé iques au ontenu indexé à partir d'une méthode d'indexation lassique est ontre-produ tif etinstable.D'une part, haque enri his-sement de la olle tion par de nouvelles partitions de stru tures diérentes peut rendre l'index inutilisable si elui i n'est pas onçu de manière générique. D'autre part, un ontenu musi al symbolique peut être interrogé de multiples manières : ave ou sans rythme, transposé ou non, par similarité, par motif. Ces diérents typesd'interrogationsportentsurdes informationsdistin tes ontenuesdansla par-tition, mais qui peuvent se re ouper d'un type d'interrogation à l'autre. Un seul index permettant de satisfaire toutes es requêtes représente un gain de temps et d'espa e.

La on eption d'un index ompa t, exible etperformant est lese ond obje tif de ette thèse.

Enrésumé,représenter autantqu'indexer lesdonnées musi alessymboliques re-présenteundéimportant.Le ontenustru turéd'unepartitionsymboliquepropose une informationtrès ri he maisspé ique à haque olle tion.Notre butest de pro-poserle adredetravailleplusouvertpossiblepourrépondreauxbesoinsdemanière globale etpérenne.

(14)

2 Contenu et organisation du mémoire

En réponse ànotre premierobje tif, nous dénissons un modèle logique destiné àlagestiondu ontenumusi alsymbolique.Ce modèleest uneextensiondumodèle relationnel lassiquein luantun typenouveau,letypeséquen etemporelle,quel'on utilise pour modéliser une voix monophonique. On introduit de plus la notion de syn hronisation des séquen es temporelles qui nous sert à modéliser une partition symbolique.Ondénitégalementunensembled'opérateursalgébriquespouvantagir sur e modèle.Ces opérateurs peuventse ouplerà desfon tions utilisateurs, e qui permetl'ouvertureàdes ontextesappli atifsdivers. Onréussitdon àretrouverles opérationsspé iquesde haque domainesans restreindrenotre adrede dénition. La des ription de l'algèbre servant à modéliser le ontenu musi al symbolique, 'est-à-dire le modèle hoisi pour réprésenter le ontenu musi al et les opérateurs pouvantagirdessus,setrouveau hapitre2.Notremodèledépasseenréalitéle adre musi aletpeut s'étendre àn'importequel ontexte visantàmanipuler,transformer etinterrogerdesséquen estemporelles,syn hroniséesounon.Autraversd'exemples, nous proposons diérentes appli ations possibles.

Le hapitre 3 introduit un langage utilisateur possible asso ié à ette algèbre, permettantd'exprimer des requêtes etde dénirdes fon tionsutilisateurs.

Pour répondre à notre se ond obje tif, nous adaptons un index existant, l'AS-index, aux données musi ales.Cet index s'appuie sur les propriétés mathématiques de la signature algébrique d'un

n

-gram. Sa parti ularité est l'en odage d'informa-tionsmusi alesmultiplespouvantintervenirdanslare her he.Grâ eà eten odage parti ulier,l'index permet de faire plusieurstypesde re her he sur du ontenu mu-si al symbolique. Le même index autorise également la re her he appro hée par motif. La des ription détailléede l'index, ainsi que les dénitions et propriétés des signatures algébriques, se trouvent au hapitre 4.

Le hapitre 1 est onsa ré aux travaux similaires ou reliés, et présente un état de l'art des diérents domaines onnexes.

Enn, le hapitre 5 présente une appli ation de es travaux : une plateforme ollaborativede ressour es musi alessymboliques.

(15)

(16)

Etat de l'art

Le sujet abordé dans ette thèse est à l'interse tion de diérents domaines de re her he. Il résulte quenous sommesamenés àfaire intervenir ensembledes outils et on epts provenant de es divers univers.

Dans e hapitre,nous présentons un état de l'art des multiplesdomaines liésà notre sujet.

1 Séquen es temporelles

Lesséquen es temporellesinterviennent de manièreprivilégiéedansla onstru -tion de l'algèbremodélisantle ontenu musi al.

1.1 Généralités

Lesséquen es temporellessontuneformedereprésentationdedonnéesqui appa-raitdans presque tous les domaines s ientiques et nan iers. La dénition la plus générale est la suivante.

Dénition 2. Une séquen e temporelle est une séquen e ordonnée d'événements observés à des dates su essives.

L'événement le plus simple est une valeur numérique. Une séquen e temporelle modéliseun phénomèneéventuellement ontinu,mais la ontinuité ne pouvantêtre représentée on hoisit unedistribution dansletemps. Généralement,l'ensembledes datesest dénombrableetidentié à

N

.

Lesévénements sontséparés d'intervalles de temps égaux (des intervalles non égaux sont on eptuellement envisageables mais interdisent l'utilisationd'ungrand nombre d'outils analytiqueset statistiques).

Uneséquen e temporelleest don une suite d'observations de lamême variable. En pratique, tout e qui est mesurable et varie en fon tion du temps peut être représenté par une séquen e temporelle.

1.2 Domaines d'appli ation

Les séquen es temporellesinterviennent aujourd'hui dans des domaines trop di-vers pour pouvoir tous les iter, mais par exemple : en astronomie [48℄,en biologie [86℄, en théorie du signal [65℄, en météorologie [38℄,dans lesdomaines é onomiques

(17)

et nan iers, pour des appli ations industrielles, et bien d'autres. Un historiquede l'utilisationdes séquen es temporellesen é onomie est établi dans [16℄.

1.3 Méthodes d'analyse et utilisation des séquen es tempo-relles

Lesséquen es temporellesintervenant dansdes ontextes appli atifstrès divers, il est ambitieux de proposer une utilisation qui soit ommune à tous. Citons entre autres l'analyse de tendan es, la re her he par similarité, la re her he de motifs ré urrents ouséquentiels[15℄.

Lesétudesetanalysesdeséquen es temporellesontunevo ationessentiellement statistique.Pré isément,à partirde l'observation des données existantes, onétablit desmodèlespourpouvoirfairedesprévisions( ourtterme)oudesprédi tions(avenir lointain) [60℄. L'analyse de es séquen es peut permettre de déterminer les états ré urrents, stablesou attra teurs [39, 55℄. On déduit égalementde es observations lesdiérentsprin ipesde ausalitésquirégissentlephénomène,ainsiqued'éventuels y les ré urrents.CésaretRi hard dansleur ours[15℄ proposentplusieursmodèles prévisionnels :

séquen es déterministes: lesévénements futurs sont onnus ave ertitude; séquen es linéaires: roissan e oudé roissan e onstante;

séquen es auto régressives : haque valeur dépend de lapré édente.

Dansle adred'appli ationsnan ièresets ientiques,lebutessentieldel'étude des séquen es temporelles est la prévision (déterminer le futur en onnaissant le passé) et le ontrle (suivant le ontexte : maintenir ou au ontraire éliminer les phénomènes ré urrents). Dans e ontexte, le but de l'étude d'une séquen e tem-porelle n'est pas de relier les variables entre elles, mais d'étudier la dynamique de l'ensemble, en répondant aux questions suivantes : la séquen e est-elle stable, in-stable, stationnaire, saisonnière(un motifrevientrégulièrement),et .

Dans le adre d'une appli ation ommer iale,l'étude des séquen es temporelles permet un meilleur ontrle du pro essus. Les y les et tendan es étant identiés, onpeut orrigerlesvariationssaisonnières. Lesprévisionspeuvent être intégréesen laissantune part dans lemodèle aux phénomènesimprévisibles(ou bruit).

L'étudedelarégressionlinéairequiexisteentrelesdiérentesvaleursnumériques delaséquen etemporelle onsisteàétablirunerelationaneliant esdiérentes va-leurs. Desgénéralisationsde larégression linéairesontexposéesdans [16℄:moyenne glissante(Moving Average MA), auto-régressive (AR)ou lesdeux (ARMA).

Lesmoyennesglissantes sonttrès utiliséesenanalyse dedonnées boursières, leur fon tion première étant d'aplanir les u tuations de ourt terme pour donner la tendan e générale de l'a tion.

1.4 Exemple : séquen es temporelles et ré upération d'infor-mation musi ale

Les séquen es temporelles orent un adre de travail adapté à la modélisation d'informationévoluantave letempslorsque elui in'estpas un simpletimestamp oule alendrier lassique.Ellesapparaissentdon naturellementdansledomainede

(18)

ré upération d'information (Information Retrieval), et plus spé iquement d'infor-mationmusi ale (Musi Information Retrieval, ouMIR).

OnretrouvedansledomaineduMIRdenombreusesproblématiquesimportantes ayanttraitauxséquen es temporelles,notammentlare her he exa te ouappro hée de motifs. Les méthodes utilisées traditionnellement pour l'analyse des séquen es temporelles(modèlesstatistiques)sontpar ontremaladaptéesàl'analysemusi ale. Dans et exemple,ledomainetemporelest untempsabstraitreprésentéparune suite d'instants séparés d'intervalles égaux. Le domaine d'arrivée est un domaine omplexe pour représenter l'informationmusi ale (valeur des notes, rythme, texte, doigtés,nuan es et .).

Lareprésentation dela musiquepar des séquen es temporellesest une idée rela-tivementrépandue [2,68,49℄.

2 Bases de données temporelles

La modélisationde données évoluant dans le temps peut se faire par le biais de bases de données temporelles. Celles- i sont en général destinées à représenter des données pouvant varier de manière imprévisible ( omme le salaire d'un employé), ontrairementauxséquen es temporelles,plus intimementliéesàlanotionde motif temporel [51℄. Bases de données temporelles et bases de séquen es temporelles se distinguent aussi bien par leur fon tionnement que par leur utilisation. Il onvient don d'en exposer lesprin ipales ara téristiquesande omprendrepourquoinous lesé artons.

2.1 Dénitions

Une base de données temporelle est une base de données prenant en ompte le fa teur temporel des données. Le fa teur temporel re ouvre plusieurs notions de temps :le temps valide,le temps de onnaissan e,et letemps transa tionnel.

Dénition 3 (Temps valide). Le temps valide désigne la période de temps durant laquelle une donnée est vraiedans lemonde réel(extérieur).

Dénition 4 (Temps de onnaissan e). On appelle temps de onnaissan e un ins-tant ou un intervalle de temps asso iéà une donnée : suivant le as soit lemoment oùlavaleurde ettedonnéedevient onnue,soitl'intervalledetemps où ettevaleur est supposée être valide.

Dénition 5 (Temps transa tionnel). Le temps transa tionnel est la période de temps durant laquelleune donnée est sto kée dans labase de données.

Il est évident que temps valide et temps transa tionnel ne oïn identpas né es-sairement. En eet, une base de données modélisantdes événements du XVIIIème siè le aura un temps valide allant des années 1701 à 1800, tandis que son temps transa tionnelne ommen era qu'au XXème siè le,à lasaisie des données.

Une basede données temporelle dispose don d'un modèle de données intégrant ette notionde temps,ainsi qued'un langageadapté.

(19)

Lesbases de donnéestemporellespermettentd'interrogerdes données ayantune évolution au ours du temps, et qui ne doivent pas simplement être mises à jour ousupprimées, mais dontonveut onserver tous lesétats su essifs. Lades ription d'un objet peut en eet être fragmentée au ours du temps, etn'être omplète que par l'énumération de ses états su essifs.

Exemple 1. Mi hel Legrand est employé depuis 20 ans dans la même so iété. S'il existe unee base de données temporelles des salaires des employés, on peut poser les questions En quelle année Mi hel Legrand gagnait il moins de 2000 euros et Quel est le salaire de Mi hel Legrand en 2010?.

2.2 Historique, langage et implantations

Ri hard Snodgrass est à l'origine de nombreuses normes et onventions de la ommunautédesbases dedonnées temporelles.Unglossairedes diérentstermes et on epts utilisésdanslesbasesdedonnées temporellesest établidans[41℄,ainsique les dis ussions motivant les hoix réalisés. L'ensemble des on epts sont rassemblés dans [77℄. Les diérents aspe ts théoriques de l'implantation d'un langage adapté ont été dis utés en profondeur dans de nombreuses publi ations de Snodgrass

1 . TSQL2est une extensiontemporelle du langagestandard SQL-92. Il existe éga-lement des exemples de bases de données temporelles implantées dans des bases relationnelles :Ora le Workspa e Managerpar Ora le,TimeDB par TimeConsult.

2.3 Remarque

La diéren e fondamentale entre une base de données temporelles et une base de données de séquen es temporellesréside dans lefait qued'un té, onenregistre l'instantauquelalieuunévénement( hangementd'état),etde l'autreonenregistre l'état à un instant donné.

3 Base de données de séquen es temporelles

Les bases de données relationnelles ne sont pas onçues pour ee tuer les opé-rationsspé iques auxséquen es temporellestellesque desrequêtes on ernant des périodes pré ises ou des modi ations du domaine temporel ( onversion de fuseau horaire ouagrégation de 24heures en un jourpar exemple).La ompositionde es opérations est en ore plus di ile.

Une base de données temporelle n'est pas non plus nativement destinée à gé-rer des séquen es temporelles. En eet, une séquen e temporelle a deux aspe ts essentiels : l'intervalle de temps onstant entre haque événement, et le fait que la onnaissan e du passé est un indi ateur du futur. Une base de données temporelle ignore es deux aspe ts. L'événement enregistré à la position

i + 1

est postérieur à l'événement

i,

mais il n'est pas possible de savoir à priori quel laps de temps les sépare, nid'en deviner la nature aprèsl'étude des

i

premiers[72℄.

Les appli ations onçues pour manipuler de grands volumes de séquen es tem-porellesse voient don obligéesde développerspé iquement ertainsoutils.

1

http://www. s.arizona.edu/~rts/publi ations.html.Rubrique Implementation of tem-poral databases

(20)

3.1 Pré-requis d'une BDST

Unesystèmedegestiondeséquen estemporellesdoitrespe ter ertaines ontraintes: être apablede réer, manipuler,sto keret a her ouimprimerlesséquen es

temporelles;

omblerintelligemmentlesvaleursabsentes. Certains instantspeuvent ne pas avoirde valeursasso iées(parexemplelediman he pourune séquen e tempo-relle d'un indi ateur boursier).Un système de gestion doit pouvoirsubstituer à es valeurs absentes une valeur pertinente en fon tion du ontexte et de la séquen e onsidérée;

préparerlesdonnéesbrutes,notammentlesajusteràl'é helledetemps hoisie. Cetteopérationdière suivantlanaturedelavariableobservée. Uninventaire quotidiensetransformefa ilementeninventairehebdomadaireenprenant sim-plementune valeursursept.Enrevan he,silaséquen e représentelesre ettes quotidiennes, le passage à la re ette hebdomadaire se fait par une somme. Ré iproquement, onvertir une séquen e à indi ateur hebdomadaire en une séquen e à indi ateur quotidienimplique une opération d'interpolation ( om-bler les valeurs manquantes). Cette interpolation appelle la même réexion préalable quedans l'exemple pré édent;

appliquer lesopérations types des séquen es temporelles, omme les requêtes agrégées (moyennes glissantes) oulesopérationsde prévision (régression, or-rélation,re her he de motifs).

3.2 Modèles et langages pour les séquen es temporelles Desmodèles onçuspourlesséquen estemporellessontproposésdans[20,30,70, 71,69℄.Dans[52℄lesauteursdénissentune algèbrepro hede l'algèbrerelationnelle ainsi qu'un langage de requêtes (SQL étendu) pour la manipulation de données ordonnées.

Une listede référen es et rapports détaillés de nombreux modèles, ainsi que les langagesde requêtes orrespondants sont présentés dans [76, 18,42℄.

Certains SGBD ont été adaptés pour gérer les séquen es temporelles, mais ils reposent laplupart du tempssur des appro hes propriétaires, e qui induitun oût important de développement. La majorité de es systèmes est destinée à s'intégrer dans des appli ations nan ières, boursières ou de surveillan e (données ré upérées par des apteurs).

Le système FAME (Fore asting, Analysis and Modeling Environment 2

) permet de réer des séquen es temporelles en spé iant l'intervallede temps, le type (ow, du type vente, oulevel, du type sto k), en lesimportantdepuis un hier ou en les saisissantdire tement.Lesystèmepermetdegénérerde nouvelles séquen esàpartir des séquen es pré-existantes par des opérations simples ( al uler le prot à partir des ventes etdépenses), de fairedes opérationsdu typeinterpolation,etdes al uls prévisionnels en appliquantl'autorégression.

S-Plus 3

estun environnementd'analysededonnées nonspé iquementdestinées auxséquen es temporelles[7℄. Denombreuses fon tionsmathématiquessontin lues

2

www.fame. om 3

(21)

nativement, ainsi que des te hniques de data mining pour la re her he. Le langage adaptéestorientéobjet, equiautorisel'en apsulationetlasur harge.Lesystème S-Plusnepermetpasde réerdesséquen es temporellesmaisdesve teurs,surlesquels on peut appliquer des opérateurs statistiques ou des opérations de type séle tion. Pour ompenserdes performan esmédio res,ilestutiliséave lesystèmedebasede données statistiqueSAS. Ce système est bien adaptéaux séquen es temporelles (la librairie ETS permet l'interpolation et intègre quelques outils d'analyse nan ière et de prévision).Le système permetde dénirl'intervallede temps d'uneséquen e, d'appliquerdes al uls ommel'autorégression,desoutilsdetraitementsdedonnées, et possède son propre SQL : Pro SQL

Le langage K est un langage propriétaire développé par Arthur Whithney et ommer ialisé par Kx Systems

4

. K est un langage onçu pour manipuler des ta-bleaux, in luantaussi biendes fon tionsopérantsur des tableauxen tantqu'entité, oudes opérationspropresauxtableaux(triouinversion des élémentsparexemple). K sert de base ausystème Kdb, une base de données orientée olonnes, ainsi qu'au langaged'interrogation orrespondantKSQL(pro he du SQL).Kdbest utilisédans un grandnombre d'appli ations nan ières ommer ialisées par KxSystems.

StreamBaseEventPro essingPlatform 5

estun logi ielpermettantde onstruire des systèmes qui analysent et agissent sur un ux de données en temps réel. Le langage utiliséest le StreamSQL,extension du SQL standard auquel s'ajoutent des opérateurs permettant de traiterdes ux ontinusde données, de gérer des fenêtres de temps,ainsi que diverses fon tionalitésdu typefusion, agrégation, al ul et .

Shasha introduit dans [73℄ la notion d'arrable, roisement de tableau (array) et tablerelationnelle,ainsiquelelangagederequête orrespondantAQuery.Lebut est de permettre de faire des requêtes dépendantes de l'ordre, 'est-à-dire des requêtes dontlerésultat hangesil'ordredes lignes hange(par exempleune requêtefaisant intervenir un al ul de moyenne glissante). Ces requêtes basées sur l'ordre peuvent êtreé ritesenSQLmaisde manièretrèsfastidieuse,etsontquasimentimpossiblesà optimiser.Autravers d'exemplesde requête,ilétablitlasimpli itédelasémantique de AQuery relativementaux mêmes requêtes expriméesen SQL99.

3.3 Utilisation et analyse des BDST

Shasha [72℄ présente de manière détaillée une utilisation des séquen es tempo-relles dans le milieu nan ier, ir ons rivant ave pré ision les besoins des traders. Le but est de trouver dans un ensemble de séquen es temporelles les séquen es orrélées, au sens où l'évolution de l'une est onnue en étudiant l'autre. L'intérêt de ette étude dans un adre boursier est évident. Pour obtenir ette information, l'appli ationqui gère lesséquen es temporellesdoit pouvoiree tuerles opérations suivantes : des requêtes orrélées sur l'ensemble des séquen es de la base, des re-quêtes orrélées sur des périodes données, et pouvoir pondérer es requêtes suivant la période, l'histoireré enteayant plus d'importan eque l'histoirean ienne.

Une base de données de séquen es temporelles peut être interrogée analytique-ment par le biais de la re her he de motifs ré urrents. Cette appro he permet de

4

www.kx. om 5

(22)

donner une vision synthétique des données de la base et de dé ouvrir des règles d'asso iation oude lassement. On peut iter [61, 57℄.

4 Bibliothèques numériques

Lesbibliothèques numériques(ou digital libraries DL)sont des bibliothèquesoù les olle tionsdedo umentssontsto kées dansun formatnumériqueparopposition au format lassique (papier, mi rolm...). Elles onstituent un outil de re her he d'information.

La numérisation des do uments (arti les, livres) aussi bien que la onstitution de olle tionsde do umentsnativementdigitauxrépond auxmêmesbesoins queles bibliothèques lassiques : ar hivage, onservation, organisation, onsultation. L'in-dexation omplètedu ontenudonnenaissan eàdegrandespossibilitésde re her he ainsiqu'àdenouvellesproblématiques(indexationpourunere her herobusteet per-formante). On assiste a tuellementà des projets de numérisation des bibliothèques lassiques de grande envergure (projet Google Library [10℄).

De nombreuses ommunautés où interviennent re her he, organisation et om-mer es'intéressent auxbibliothèques numériques, ommelesuniversités (et univer-sitaires), enseignants, maisons d'édition, s ientiques, historiens, onservateurs de musées.... Cet intérêt s'ins rit dans l'essor que onnait le web 2.0 qui a pour fon-dement le partage des onnaissan es et la réation de diverses ommunautés [67℄, en ouragé par un a ès quasi-illimitéà des possibilités de sto kage, bande passante eta ès aux ressour es pour lesutilisateurs.

Denombreusesplateformesde onnaissan es(Wikipedia),images(Fli kr),vidéos (Youtube), ou musique (iTunes) sont des exemples de ette utilisationnouvelle du Web etsont à lalisière du domainedes bibliothèques numériques.

4.1 Dénitions et problématiques

Letermede bibliothèquenumériqueadmetdeux dénitionsdistin tes [12℄.D'un té, les her heurs voient lesbibliothèques numériques omme un ontenu amassé pour une ommunauté d'utilisateurs, alors que les bibliothé aires voient les biblio-thèques numériques omme des institutions ou servi es.

Diérentes problématiques et dés animent la ommunauté des bibliothèques numériques :

ar hite ture te hnique : onnexion réseau et internet, support de formats hé-térogènes des do uments, moteur de re her he plein texte pour l'a ès aux sour es, gestion générale des do uments. Cette ar hite ture doit de plus ne pas être gée mais au ontraire être apable d'évoluer;

onstitutiondes olle tions:numérisation,a quisitionde do umentsdigitaux, a ès aux do uments externes (liens). Cet aspe t te hnique doit être om-plété d'une dimension théorique pour que la olle tion présente un intérêt : onstru tionthématique d'une olle tion, raretédes do uments,a ès réservé àune ommunautérestreinte;

des riptiondes ontenus:unedes riptionintelligente,homogène,pérennepour rendrela re her he etla navigation possible etperformante.

(23)

préservation des do uments numériques (disques...), de l'a ès à l'informa-tion, de l'a èsaux do uments originaux(non numérisés).

4.2 Exemples

Le Digital Libraries Initiative (DLi) 6

, projet lan é en 2005 par la Commission Européenne, a pour ambition de mettre en pla e la Biblitohèque Numérique Euro-péenne, qui donnerait a ès aux itoyens européens à l'héritage ulturel et s ienti-que de haque paysmembre.Ceprojeten ourageentre autre haque paysmembre à investir dans la numérisation de ses ÷uvres etles rendre disponibles en ligne. Un autre eet se ondaire de ette entreprise est l'approfondissement des questions de droits et de opyright. Les questions d'interopérabilité et de multilinguisme sont également àl'étude.

De nombreuses propositions d'annotations automatiques pour les bibliothèques numériquesont été faites.On peut iter le Digital Library Annotation Servi e (DI-LAS) [4℄, le Collaboratory for Annotation Indexing and Retrieval of Digitized His-tori al Ar hive Material (COLLATE) [43℄, et le Flexible Annotation Servi e Tool (FAST) [5℄. L'annotation peut être manuelle ouautomatique.

5 Rappel et pré ision

On mesure la performan e d'un algorithme de re her he dans une base de don-nées selon deux ritères : le rappel et la pré ision. La pré ision est une mesure d'exa titude, le rappel est une mesure de omplétude.

5.1 Rappel

Dénition 6 (Rappel). Le rappel est le nombre de do uments pertinents restitués divisé par lenombre total dedo umentspertinentsexistant dans labase de données.

Lorsque un utilisateurinterrogeune base de données, ilsouhaitevoirapparaître touslesdo umentsrépondantàsonbesoind'information.Si etteadéquationentrele questionnementde l'utilisateuretlenombrede do umentsprésentés estimportante alors le taux de rappel est élevé. Si le taux de rappel est pro he de zéro ( 'est-à-dire si le système possède de nombreux do uments intéressants mais que eux- i n'apparaissent pas en réponse) onparle de silen e. Le silen es'oppose aurappel.

Dénition 7 (Faux négatif). Un faux négatif est une réponse pertinente in orre -tement é artée de l'ensemble des réponses à une requête donnée.

5.2 Pré ision

Dénition 8 (Pré ision). La pré ision est le nombre de do uments pertinents res-titués par la re her he divisé par le nombre total de do uments restitués pour une requête donnée.

6

(24)

Quand un utilisateur interroge une base de données, il souhaite que les do u-ments proposées en réponse à son interrogation orrespondent à son attente. Tous les do uments retournés superus ou non pertinents onstituent du bruit. La pré- ision s'oppose à e bruit do umentaire. Si elle est élevée, ela signie que peu de do umentsinutilessontproposésparlesystèmeetque edernierpeutêtre onsidéré ommepré is.

Dénition 9 (Fauxpositif). Un faux positif est une réponse in orre tement onsi-dérée omme pertinente.

5.3 Moyenne harmonique

Rappel et pré ision sont souvent inversement proportionnels, et l'on peut aug-menter l'un en réduisant l'autre. En général la mesure de l'un est omparée à une mesurexedel'autre(parexemplemesuredurappelpourunepré isionde0.75).On peut égalementles ombiner dans une seule mesureappelée mesure-F qui onstitue une moyenne harmonique des deux mesures.

Dénition 10 (Mesure-F).

2

pre ision.rappel pre ision

+

rappel

Dans ette dénition, rappel etpré ision ontle mêmepoids.

6 Notion de similarité

Unere her he parsimilarité,àdistinguerd'unere her heexa te,retrouveles sé-quen esdedonnéesquidièrentlégèrement( e ritèreétantàxer parl'utilisateur) de la séquen e de données passée en requête.

6.1 Généralités

Les prin ipales problématiques liées à la re her he par similarité de séquen es temporelles sont lessuivantes :

dénirlasimilaritéentredeux séquen estemporelles( ettedénitionn'estpas né essairementunique);

al ulerla similaritéde deux séquen es temporelles;

trouverdemanièree a edeuxséquen essimilaires(problèmedel'indexation dans des requêtes par similarité).

Pour unensembledonnédeséquen estemporelles,onpeutdistinguerdeuxtypes de re her he par similarité. D'un té, trouver toutes les séquen es temporelles si-milaires à une séquen e donnée. De l'autre, trouver à l'intérieur d'un ensemble les séquen es qui sont similairesles unes auxautres [59℄.

La première remarqueque l'on peut faireest que la notionde similarité dépend du ontexte appli atif,du typed'utilisateuretdu but poursuivi. A haque ontexte orrespond une ou plusieursdistan es traduisant ette subje tivité.

(25)

Dénition 11 (Distan e). On appelle distan e sur un ensemble

E

une appli ation

de

E × E

dans

R

+

vériant les propriétés suivantes :

d(A,B)=0

⇔

A=B (séparation) d(A,B)=d(B,A) (symétrie) d(A,B)

≥

0 (positivité)

d(A,C)

≤

d(A,B) + d(B,C) (inégalitétriangulaire)

Lorsque l'inégalité triangulaire n'est pas vériée, on parle de distan e semi-métrique. Par la suite, on désigne par distan e à la fois les distan es métriques et semi-métriques.

Unemesurede similaritéquantie laressemblan eentre deux séquen es tempo-relles. Onappelleparfoisdistan e l'inversed'une mesuredesimilarité(quin'est pas né essairement métrique dans e as).

Dénition 12 (Re her he par similarité). Etant donnéeune séquen e requête

P

, la re her he par similarité onsiste à trouver toutes les séquen es temporelles

S

d'une base

Ω

vériant

{S ∈ Ω|d(P, S) < ε},

où

d

est une distan e et

ε

un seuil xé par l'utilisateur.

6.2 Choix d'une distan e

Le hoix d'une distan e pour mesurer la similarité entre séquen es temporelles doit être susamment souple pour résister aux diérentes transformations (dilata-tionde l'axetemporel,translation...)etsour esd'erreur (présen edebruit,valeurs extrêmes non pertinentes). Il est indispensable de pouvoir omparer des séquen es de longueurs diérentes (re her he par motifoupattern mat hing), e qui ex lut les distan es lassiques omme ladistan e Eu lidienne ou

L

p

.

Ladynamique d'ensemble de la séquen e est dans ertains as plus intéressante que la su ession des valeurs individuelles, pouvant ontenir ertaines anomalies. Dans e asun pré-traitement(du typemoyennemobileparexemple)desséquen es permet d'en orir une version plus synthétique. De nombreuses te hniques de ré-du tionde dimension des séquen es temporelles existent etpeuvent être hoisiesen fon tion du ontexte : Pie ewiseAggregate Approximation(PAA),Pie ewiseLinear Approximation(PLA), transformationde Fourierdis rète (DFT).

Une mesure de similarité permettant l'indexation présente un avantage supplé-mentaire.

6.3 Distan e Eu lidienne

La méthode la plus basique (naïve) pour une re her he par similarité est le al ul de la distan e Eu lidienne entre deux séquen es. Ce i impose entre autre que les deux séquen es soient de même longueur. Une méthode pour a élerer les re her hes parsimilaritédans e as est proposéedans [36℄,etgénéraliséedans [64℄, où le as de la re her he de sous-séquen e est pris en ompte (autorisant que la séquen e re her hée soit plus ourte que toutes les séquen es de la base). On peut aussi adapter la distan e Eu lidienne an d'autoriser quelques transformations sur les séquen es, omme des translations oudes hangements d'é helle [17℄.

(26)

Cette distan e, quoique naturelle, est bien trop rigide pour les exemples de la vieréelle.Lasigni ation de lasimilaritévarieénormémentd'un ontexte àl'autre. Deux séquen es ayant la même forme peuvent être onsidérées omme similaires. Dans[63℄ ondonne l'exemplede deuxséquen es ayantdes valeurspon tuelles die-rentes (distan e Eu lidienne supérieure à 11) mais dont les séquen es représentant les moyennes glissantes sur trois jours sont elles très pro hes (distan e Eu lidienne inférieureà 0.5).

On peut trouver de nombreux exemples où la distan e Eu lidienne va onsidé-rer ommepeu similairesdes séquen es temporellesquel'intuition oul'utilisateur pourrait au ontraire rappro her [45℄. Ce i vient du fait que la distan e Eu li-dienneest très sensible auxpetites distortions de l'axetemporel. Plus pré isément, deux séquen es ayant globalement la même forme doivent être onsidérées omme semblables si l'on peut orre tement les aligner, 'est-à-dire obtenir des séquen es équivalentes en déformantl'axe temporel.

6.4 Distan e d'édition

La distan e d'édition est la distan e la plus utilisée pour mesurer la similarité entre deux haînes de ara tères [53℄. Elle s'adapte très simplement aux séquen es temporelles.

Dénition 13 (Distan e d'édition). La distan e d'édition entre deux haînes de ara tères est lenombre d'opérations né essaires pour transformer l'une en l'autre.

Les opérations de transformations sont les insertions, suppressions et substi-tutions. Suivant les as, ertaines de es opérations peuvent avoir un poids plus importants que d'autres. On trouve également des versions de ette distan e qui in luentlatransposition(interversiondedeux ara tèresadja ents), erreurdesaisie très fréquente.

Lepseudo- ode 1est un exempled'algorithmede al ul de ladistan ed'édition. Exemple 2. Ci-dessous la matri e al ulant ladistan e d'édition entre deux mots.

A V I R O N 0 1 2 3 4 5 6 A 1 0 1 2 3 4 5 V 2 1 0 1 2 3 4 I 3 2 1 0 1 2 3 O 4 3 2 1 1 1 2 N 5 4 3 2 2 2 1

Plusieurs variationsexistent dérivées de ettepremière dénition.

Dénition14(Distan edeHamming). Ladistan edeHammingentredeux haînes de ara tères de même longueur est le nombre de positions où les deux haînes ont des ara tères diérents.

Cette distan e mesure le nombre de substitutions né essaires pour transformer une haîne en l'autre.

(27)

Input: P[1..m℄, Q[1..n℄ Output :

to

m

do if P[i℄ = Q[j℄ then

d[i, j℄ :=d[i-1, j-1℄ //pas d'opération else d[i, j℄ :=min( d[i-1, j℄ + 1,// suppression; d[i, j-1℄+ 1,// insertion; d[i-1, j-1℄ + 1// substitution; ) end end end returnd[m,n℄;

(28)

6.5 Distan e par déformation temporelle

La distan e habituellement utilisée pour omparer deux séquen es temporelles est la distan e par déformation temporelle (Dynami Time Warping ou DTW), une distan e lassiquepermettant un alignementnon-linéaire entre deux séquen es temporelles [3,11℄.

La te hnique du DTW fait appel à une distan e pon tuelle, dont le hoix sera di té par le ontexte. Ce i permet de pondérer les erreurs. On peut par exemple dé ider que

d(x, y) = 1

si

x 6= y

, pour tout

x, y

. Ce hoix est pertinent si l'on her he un motifdans un texte oùpeuvent exister des fautes de frappe(auquel as au une lettre erronée n'est plus fausse qu'une autre). Dans le as où, au ontraire, ilexiste une hiérar hieentre lesfautes, on utiliserala distan e Eu lidienne.

On onsidèredeuxséquen es temporelles

Q = q

1 q

2 . . . q

n

et

P = p

1 p

2 . . . p

m

.Pour aligner es deux séquen es en utilisant le DTW, on réée une matri e

n × m

où le terme d'indi e

(i, j)

est ladistan e

d(q

i

, p

j

)

ave la distan e qu'on s'est hoisie.

Fig.1.1 Chemin de déformationentre deux séquen es temporelles

Un hemindedéformation

W = w

1 w

2 . . . w

K

estunensembled'éléments ontigus de la matri e, 'est-à-dire que si

w

k

, le

k

-ième élément de

W

, est l'élémentd'indi e

(i, j)

de la matri e,alors

w

k+1

est hoisi parmi les trois possibilités suivantes :

(i +

1, j), (i, j + 1)

ou

(i + 1, j + 1).

La distan e DTW(Q,P) est alors le hoix de hemin qui minimisele oût d'ali-gnement,autrement dit:

DT W (P, Q) = min

v

u

t

K

X

k=1

w

k

Rappelons que haque terme

w

k

de ette somme est une distan e entre un élément de

Q

etun élément de

P.

(29)

Le al ul de e hemin minimisant peut être fait par ré urren e. On dénit la distan e umulée

γ(i, j)

ommeladistan e

d(i, j)

de la ellule ouranteadditionnée à laplus petite des distan es umulées des ellules adja entes

γ(i, j) = d(q

i

, p

j

) + min{γ

i−1,j−1

, γ

i−1,j

, γ

i,j−1

}.

i − 1

,

j − 1

℄); end end returnDTW[

n

,

m

℄;

Algorithme 2:Cal ul de la distan e DTW(P,Q)

Cettete hnique d'alignementestbien onnuedansledomainede re onnaissan e du langage, qui a introduit le Dynami Time Warping [66℄. Il existe plusieurs al-gorithmes permettant d'a élerer lesréponses tout en onservant lapertinen e. De nombreux ranementsde ette te hnique ontété développés [46, 19℄.

Exemple 3. Cal ul de la distan e DTW entre les séquen es

P =< 3, 6, 8, 7, 8 >

et

Q =< 3, 5, 6, 5, 6, 8, 7 >

Q/P 3 6 8 7 8 3 0 3 8 12 17 5 2 1 4 6 9 6 5 1 3 4 6 5 7 2 4 5 7 6 10 2 4 5 7 8 15 4 2 3 3 7 19 5 3 2 3 On trouve

DT W (P, Q) = 3.

(30)

6.6 Longest Common Subsequen e (LCSS)

La mesure LCSS (Longest Common Subsequen e, ou Plus longue sous-séquen e ommune)est une méthode pour mesurer lasimilaritéentre deux séquen es utilisée à l'origine pour omparer des haînes de ara tères. L'idée est de saisir la notion intuitive que deux séquen es peuvent être onsidérées omme similairessi elles ont susammentdesous-séquen es similairesnese hevau hantpas.Cetteappro heest adaptée pour une re her he en présen e de bruit.

Dénition 15 (Sous-séquen e). Une sous-séquen e est une suite d'éléments non né essairement onsé utifs d'une séquen e (à la diéren e d'une sous- haîne où les éléments sont onsé utifs).

Exemple : Si on onsidère les haînes ABCDEFGH et IBJCKLMGNH la plus longue sous-séquen e ommune est BCGH. Les éléments sont dans le même ordre dans lesdeux séquen es mais ne sont pas onsé utifs.

Position du problème

Le problème LCSS onsiste à trouver la plus longue séquen e ommune dans un ensemble de séquen es (souvent réduit à deux). Ce problème est NP-di ile dans le as général (nombre arbitrairede séquen es) et peut se résoudre en temps polynomial dans le as d'un nombre onstant de séquen es. La omplexité peut en oreêtre réduitesuivant latailledes séquen es, lataillede l'alphabetet .

A noter qu'une LCSS n'est pas né essairement unique. Leur longueur, en re-van he,l'est.Lorsqu'onparleduproblèmeLCSS,on her he àexhiberexpli itement toutes les plus longues sous-séquen es. Dans le as d'une mesure de similarité, on her he seulement àétablir leur longueur, e quiest un problème plus simple.

Remarquons que le LCSS mesure une similarité et non une distan e. Pour l'ex-primer omme une distan e, on ala formule

d

LCSS

(A, B) = 1 −

LCSS(A, B)

min(n, m)

,

où

A

et

B

sont deux séquen es de tailles respe tives

n

et

m

.

L'utilisationdu terme distan e est abusive ar lepremieraxiome n'est pas véri-ée. Cette distan ene vérie pas l'inégalitétriangulaire.

LCSS métrique

On introduità présent une autredénition de ladistan e LCSS qui ette fois i est bien une distan e métrique.

d

LCSS

(A, B) = 1 −

LCSS(A, B)

max(n, m)

,

où

A

et

B

sont deux séquen es de tailles respe tives

n

et

m

.

Cette distan e devient un très bon andidat pour la re her he par similarité, puisqu'elle tolère lestransformations d'axes temporels et vérie l'inégalité triangu-laire.

; end

end end

return

C[m, n]

;

Algorithme 3: Cal ul de la distan e LCS D'autres algorithmessont exposés dans [33℄.

Avantages

CommeleDTW,leLCSSpermetde omparerdesséquen esdetaillesdiérentes. La mesure LCSS est de plus moins perturbée par la présen e de bruit que ne l'est ladistan e DTW.Lesvaleursisoléesouextrèmessontplus fa ilementignorées. On peut autoriserles sauts dans laséquen e.

LCSS

δ

On adapte le prin ipe du LCSS aux séquen es temporelles en ne mettant en orrespondan e que les valeurs qui se ressemblent. Autrement dit on introduit une distan e dans lamesure LCSS.

Pré isément, pour deux séquen es

A = (a

i

)

et

B = (b

Autres variantes

Dans[32℄,lesauteursproposentunemesuredesimilaritébaséesurleLCSSpour des séquen es temporelles de ve teurs de données hétérogènes en haute dimension (pro he de notre modèle de séquen es syn hronisées). Les séquen es temporelles

(32)

onsidérées modélisent des traje toires qui syn hronisent plusieurs paramètres hé-térogènes. La mesure de similarité doit répondre à plusieurs ontraintes, omme la présen e de bruit, la translation etdilatationdes séquen es.

Une variante est proposée dans [59℄ : deux séquen es temporelles sont onsidé-rées omme similaires si elles ont susamment de sous-séquen es similaires ne se hevau hantpas. Deuxsous-séquen es sont onsidérées ommesimilairessil'uneest ontenue dans une enveloppeautour de l'autre(de largeur déniepar l'utilisateur). L'amplitude des deux séquen es temporelles peut être reproportionnée de manière àrendre la re her he invariantepar hangement d'é helle.

6.7 Distan es

n

-grams On rappelleune dénition.

Dénition16 (

éléments

Dénition17(

n

-grampositionné).Un

un alphabet ni,

Σ

⋆

l'ensemble de toutes les haînes d'éléments de

Σ

et

Σ

_{= {r}

1 , r

2 , . . . , r

|Σ

n

_|

}.

Dénition19(Prol

n

-gram). Soit

x = a

1 a

2 . . . a

N

une haînede

Σ

⋆

etsoit

r

j

dans

Σ

n

un

n

-gram. Si

a

i

a

i+1

. . . a

i+n−1

x

est le ve teur

G

n

[x] = (G(x)[r

j

])

(33)

Dénition 20. Soient

x, y

des haînes de

Σ

⋆

et soit

n > 0

un entier. La distan e

n

-gram entre

x

et

y

est

A

n

(x, y) = Σ

|Σ

n

_|

j=1

|G(x)[r

j

] − G(y)[r

j

]|.

A

n

n'est pas stri tement une distan e puisque

A

n

(x, y)

peut valoir

0

même lorsque

r

i

est absent de la séquen e

x, c

i

= 1

sinon.

Remarquonsqu'onne parlepas i ide l'histogrammedes

n

-grams(prol

-gramsignatured'uneséquen e

x

.Ondénitsa

c

-signaturepar

sig

c

_(u

0 , u

1 , . . . , u

k−1

)

,

où

k = [q/c]

et

u

i

= Σ

(i+1)c−1

j=ic

a

j

.

On dénit la distan e entre deux signatures

sig

c

(x) = (u

0 , . . . , u

k−1

)

et

sig

c

_{(y) = (v}

0 , . . . , v

k−1

)

par

SDist(sig

c

_{(x), sig}

c

_{(y)) = Σ}

k−1

i=0

|u

i

− v

i

|.

On a ensuitele résultatsuivant quipermetde ltrer ladistan e d'édition. Lemme 1 (Filtrebasé surles

c

-signatures). Soient

S

et

-signatures respe tives. Alors

Σ

k−1

_i=0

|u

i

− v

i

| ≤ 2nǫ.

Cette inégalitépermet un meilleur ltrage que elle proposée dans [81℄. On ob-tiendra don moins de faux positifs.

6.8 Distan es et mesures de similarité en modélisation musi- ale

Dans ette partie, nous proposons une rapide vue d'ensemble de quelques te h-niques spé iquementdéveloppées pourlare her he appro héeen ontexte musi al. Dans [85℄ est proposé une méthode de re her he mélodique appro hée appelée Linear Alignment Mat hing (LAM), basée sur une appro he géométrique. Cette te hnique est appliquée à la re her he par hantonnement (query by humming), où les erreurs de tonalité et rythme sont fréquentes. La distan e est al ulée entre

(34)

des ve teurs notes, haque ve teur étant omposé de la hauteur et de la durée. L'algorithme permet également la prise en ompte des insertions, suppressions et substitutionspour l'alignement.

Dans [78℄,deux mesures appelées Earth Mover Distan e (EMD)etProportional Transportation Distan e (PTD) sont introduites pour mesurer la similarité mélo-dique. Les mélodies sont représentées par un ensemble de points pondérés. EMD mesure l'eort minimum né essaire pour transformer un ensemble en un autre. In-tuitivement, haque pointpondérépeut être vu ommeun tasde terre, ou ré ipro-quement ommeun trou. EMD mesureainsile oût de transportde es tasde terre pour remplirlestrous orrespondants.L'eortpourtransporter untasdansuntrou de volumeidentiqueàunedistan e nulleestnul;transporterun tasvers deux trous dontla sommedes volumes est égal auvolume du tasest un peu plus élevé, et .

7 Re her he d'Information Musi ale (MIR) et Bi-bliothèques Numériques de Partitions (DSL)

Ledomainedere her hed'informationsmusi ales(Musi InformationRetrieval, ouMIR) est un domaine ri he et pluridis iplinairequi a émergé àla n des années 90.Depuis dix ans, la onféren e ISMIR (International So iety for Musi Informa-tion Retrieval) s'atta he à fédérer les re her hes et avan ées du domaine selon ses axesdominants.On peut iter (sans être exhaustif) :en odageet représentation de la musique, re her he exa te et appro hée de motifs, lassi ation et identi ation automatique de piè es, bibliothèque numérique de grandes olle tions (ar hivage et re her he),tatouage,et .Lesa teursdudomainesontnombreux:ingénieurs (traite-mentdusignal),musi ologues(représentationsymbolique),analystesprogrammeurs (pattern mat hing). Lapalettedes motivationsest immense. Ce domainetrès vaste onduit souvent à onjuguer des démar hes s ientiques obje tives et des notions plus subje tives[28, 50,37℄.

Lenombre de sour esmusi alesdisponiblessur lenet, l'hétérogénéitédes onte-nus, leur omplexité ainsi que la multitude des représentations possibles font du sto kage de ontenu musi al un dé passionnant pour les ommunautés base de données et bibliothèques numériques. L'a ès à es sour es né essite des méthodes desto kage,d'interrogationetdepar oursintuitives,e a es etpérennes.On parle de bibliothèques de partitionsnumériques(Digital S ore Libraries ouDSL).

7.1 Représentation de la musique et interrogation.

Plusieursreprésentations sontpossiblesetsontparnature on eptuellementtrès diérentes [13,79℄.Fa similéde partitions,MIDI(timestamped events),audio, mé-tadonnées, ontour,musiquesymbolique,notationmusi ale onventionnelle...A es représentations diverses orrespondent diérentes te hniques de re her he : re on-naissan e optique de la musique (Opti al Musi Re ognition), re her he par han-tonnement (Query By Huming), re her he appro hée par motif.

Nous laissons de té la re her he audio ou par re onnaissan e optique pour nous on entrer sur la re her he par ontenu (représentation symbolique). Nous signalonsjuste que ertains systèmesaudio traduisenten fait lesignal entré en une

(35)

des ription symbolique, e qui rejoint notre domaine d'intérêt. La di ulté porte alorssurlasegmentationdusignalennotesdistin tes.Cettedi ultéest ontournée par ertainesplateformesdere her hepar hantonnement(Musipedia

7

)enimposant que l'utilisateur hantedes syllabesha hées.

Lareprésentationde lamusique monophoniquepar une haîne de ara tères est laplusintuitive, haque ara tèrereprésentantunenote,l'intervalleentredeuxnotes onsé utives (pour une représentation indépendante de la tonalité, insensible à la transposition), ou la position d'une note par rapport à la pré édente (plus aigue, plus grave, identique : 'est le odage du ontour). De nombreuses te hniques très onnues de re her he textuelle peuvent ainsi être transposées à la re her he sur le ontenu. La re her he exa te d'un motif dans une olle tionde partitions ne pose pas deproblème majeur, 'estunesimplere her he de sous-séquen efaisantappelà des algorithmesdere her he de haînestels Boyer-Moore.Enrevan he,lare her he appro hée est un dé plus important.La dis ussion sur lanotion de similarité doit s'adapter auxspé i ités de laproblématique musi ale.

7.2 Polyphonie

On distingue deux types de polyphonies[40℄ :

polyphonie stru turée divisée en un nombre xeet onstant de voix (voi ed) polyphonie libre et non-stru turée ne pouvant pas fa ilement se diviser en

parties (unvoi edou voi ed unspe ied)

Lapremière atégorie omprendlespiè esfaisantintervenirplusieursinstruments monophoniques(musiquede hambred'instrumentsà ordesouàvents), lase onde ontient lespartitionsd'instruments polyphoniques (typiquement : piano,guitare). Crawford et al.[26℄ dressent la listedes diérents problèmes de re her he poly-phoniqueetdeste hniquesde stringmat hingexistantespouvantlesrésoudre.Pour lespolyphoniesàvoixdistin tes : re her he exa te, re her he ave suppressions, re- her he de motifs répétés, re her he d'un motif transformé (inversé...), re her he de motif distribué dans plusieurs voix, re her he d'a ords et re her he appro hée. Pour les polyphonies à voix non-spé iées, on retrouve les problèmes de re her he exa te et de re her he de motif répété distribué sur plusieurs voix. La re her he appro hée dans e type de polyphonie est un problème ouvert très di ile. Cette étudeproposetoutefoisdiérentes appro hes pourextrairedes motifsdepolyphonie non-stru turée.

Pour lasserouee tuerdes re her hes dansdes partitionsmonophoniques, [29℄ onsidèrequelareprésentationrelatived'unemélodie(i.e.lasuitede sesintervalles) ontient susamment d'information. On onvertit dans un premier temps la suite de notes en une suite d'intervalles, qui est ensuitedé oupée en

n

-grams etindexée. L'indexation est totale etnon tronquée arbitrairementen in ipit ouen thèmes.

Ce modèle monophoniqueest repris pour lare her he ou lassi ation polypho-nique. [40℄s'intéresseàlamodélisationpardes

n

-gramsdelapolyphoniedu premier type, en parti ulier pour la lassi ation des piè es. Le

n

-gram permet notamment de rendre omptede laprobabilité d'un événement en fon tion des événements qui lepré èdentimmédiatement.Onextraitunedesvoixdel'ensemblesousformed'une su ession d'intervalles (représentation relative)eton lafragmenteen

n

-gram.Une

7

(36)

te hnique lassiquede lassi ationmonophoniqueestensuiteappliquée.Onanalyse aposterioriquelle voix est sus eptible d'orir les meilleuresréponses.

Utiliser un modèle monophonique sur une piè e polyphonique du se ond type (unvoi ed) né essite d'appliquer au préalable un algorithme d'extra tion de voix. On appelle dé len hement haque instant où une ou plusieurs notes sont jouées dans la partition. La méthode skyline [80℄ prend la note la plus aigue de haque dé len hement.Cetteméthodeest non-exhaustivemaispermetde onserverunsens musi al àla voix extraite.

L'appro he proposée dans [27℄ pro ède en deux temps : tout d'abord les notes sontordonnées par ordre de dé len hement (groupées lors de dé len hement simul-tané), ensuite les

n

-grams sont onstitués en prenant toutes les ombinaisons pos-sibles de

n

événements à dé len hements su essifs. Cette méthode est totalement exhaustive mais perd en sens musi al. Pour ee tuer une re her he, une séquen e polyphonique est transformée suivant le même pro édé et omparée à l'index par des méthodes lassiques. On a don une re her he polyphonique-dans-polyphonie qui utilisedes prin ipesmonophoniques.

D'une manière générale, trouver des motifs monophoniquesdans des piè es po-lyphoniques peut se faire en reprenant des méthodes existantes à supposer qu'on opère aupréalable uneséparation des voix[82℄ Enrevan he, leproblème onsistant àtrouverdes motifspolyphoniquesest un problème ouvert etpeu d'appro hes sont pour l'instantproposées.

Conklin[21℄propose uneappro he verti alepourlare her he demotifs polypho-niquessurdespiè esàlapolyphoniestru turée.Unpré-traitementestné essairesur les piè es pour les rendrehomogènes verti alement : des notes sont arti iellement introduites sur haque voix dès lors qu'un dé len hement à lieu dans l'une d'elles. On peut ensuite dé ouper la piè e en tran hes verti ales. Ces nouveaux ve teurs peuvent être traités de diverses façons. La première est de al uler une valeur à partir de haque ve teur, pour être ramené à un problème de type monophonique. Le défaut de ette méthode est le peu de souplesse par rapport à l'axe temporel. Pour remédier à e point faible, Conklin [22℄ ajoute un indi ateur de ontinuation permettant de signaler un événement dont le dé len hement a eu lieu pré édem-ment. Pour une partition à deux voix, et indi ateur sera st lorsque les deux notes démarrentsimultanément,b-swlorsquelavoixgravedémarrealorsquelavoixaigue résonne, t-sw lorsque lavoix aigue démarre alors lavoix grave résonne. Cette te h-nique, quoique s'appuyant sur un algorithme de re her he de motifmonophonique, permet de re her her des motifs polyphoniquesde manièreassez puissante.

7.3 Plateformes existantes

Il existe plusieurs plateformes musi ales donnant a ès à des bibliothèques nu-mériquesde taillesplus oumoins importantes. Ces plateformesproposent plusieurs types de servi es : des outils d'analyse musi ale, d'éditions et annotation de par-titions, ou une interfa e de re her he exa te ou appro hée. Les appli ations déve-loppées s'appuient sur le format des données, musi XML étant le plus fréquent. Melodi Mat h

8

propose en parallèledes outils d'analyseet un moteur de re her he 8