Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia

(1)

HAL Id: tel-00630438

https://tel.archives-ouvertes.fr/tel-00630438v2

Submitted on 2 May 2012

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

application à la catégorisation et à la recherche

d’information multimédia

Christophe Moulin

To cite this version:

(2)

Laboratoire Hubert-Curien, UMRCNRS 5516

Modélisation de do uments ombinant

texte et image :

appli ation à la atégorisation et

à la re her he d'information multimédia

Thèseenvue del'obtention du diplmede

do teur de l'université de Saint-Étienne

mention Informatique

Christophe Moulin

Cettethèsea étésoutenue le22 juin2011

devant lejury onstitué de :

Annie Morin présidente

Patri k Gros rapporteur

Philippe Mulhem rapporteur

Matthieu Cord examinateur

Christine Largeron dire tri e

Christophe Du ottet odire teur

Cé ile Barat en adrante

(3)

(4)

La re onnaissan e silen ieuse nesert àpersonne (GladysBronwynStern);jetiens

don àremer iertous euxet ellesquid'unefaçonoud'uneautrem'ontaidéàréaliser

e travailde thèse.

Je souhaiteadressermespremiers remer iementsàmes quatreen adrants:

j'aime-raistoutd'abord remer iermadire tri e, ChristineLargeron,pour m'avoirproposé e

sujetde thèse ainsique ChristopheDu ottetpour l'avoir odirigée. Mer iégalement à

Cé ileBaratetMathiasGérypourm'avoir o-en adrépendant esquatreannées. T

ra-vaillerave quatrepersonnesn'apasététoujourssimple,mais ettethèsen'enaétéque

plus enri hissante tant au niveau s ientique qu'au niveau relationnel. Je les remer ie

don pour tout ela ainsiquepour m'avoir oert un adre detravail très agréable.

Je voudrais ensuiteremer ierles membresdu juryetplusparti ulièrement Patri k

GrosetPhilippeMuhlemquiont a eptéderapportermontravail ainsiquepourleurs

remarquesetleurs ommentairessurmonmanus rit.Mer iennàAnnieMorind'avoir

présidélejury etMathieuCord pour sonrle d'examinateur.

J'aimerais remer ier tous mes ollègues et les personnes du laboratoire qui ont

ontribué de près ou de loin au bon déroulement de e travail : Adriana, Amélie,

Anne-Laure, Aurélien, Baptiste, Catherine, Chahrazed, Claude, Colin, Dalila, David,

Élisa, Éri , Fabien, Fabri e,Florent, Florian, François, Fran k, Hazaël, Jean, Jeanine,

Jean-Christophe,Jean-Philippe,Julien,Léo,Mar ,Mattias,Nathalie,Patri ia,Patri k,

Pierre,Philippe, Ri hard, Sabri, Stéphanie,Tung et tous eux quej'oublie.

Et par e que j'ai peur de me faire taper, je n'oublie évidemment pas Émilie et

Laurent ave qui j'ai débuté et partagé un bureau où le travail et la bonne humeur

ohabitaient. Même si nousn'avons pasréussi à gagnerle gros lot, mer i à vousdeux

pour tous lesbonsmoments passésensemble.

J'aurais sûrement en ore d'autresquestions, ou d'autresra our is à tedemander,

mais mer i Frédéri pour tout : awk, bash, CJ, di, ema s, refox, GR, hexdump,

isket h, J, KK, lpr,

µ

T, NC, olds hool, Python,QT, RL,SQ, tubulo, unsort, Vi tor, WeChall,xk d,

λ

,z at... Mer iégalement Thierrypout toustes onseils ettess ripts. Je remer ie également aragorn,frodon,gandalf, gimli, legolas, magohamoth, peregrin,

samettiteuf sans quimes expérimentations tourneraient sûrement en ore.

Mer i enn à toutes les personnes queje n'ai pas nommé maisqui étaient làpour

mesoutenir toutes es années. Je penseà ma famille,mes parents, Maryline,Samuel,

(5)

d'attra tion; Anthony,Carole, Cé ile,David, Ni olas,Qi, Rémi,tous eux de laTour

pour les inés, lesquiz, les balades etles soirées;lespara hutistes de l'ASPL ave qui

j'espère m'envoyer en l'air en ore longtemps et par e qu'on est tellement bien entre

nous. Mer iBenoît d'avoirété ompréhensif etdem'avoir supportéjusqu'aubout.

3__ ..4

_4 1.

32:-y11

_1 3_

(6)

Introdu tion 3

1 Représentation de do uments multimédia 7

1.1 Positionnement duproblème . . . 7

1.1.1 Présentation deladémar he générale . . . 8

1.1.2 Re her he d'information . . . 9

1.1.3 Catégorisationde do uments . . . 13

1.1.4 Importan ede lareprésentation . . . 19

1.2 Représentation desdonnéestextuelles . . . 19

1.2.1 Qu'est- equ'un do ument texte? . . . 20

1.2.2 Modèle dereprésentation par sa demots . . . 22

1.2.3 Pondération tf.idf. . . 27

1.3 Représentation desimages . . . 30

1.3.1 Qu'est- equ'une image? . . . 31

1.3.2 Représentation lo aledesimages . . . 35

1.3.3 Représentation desimagesà l'aided'unsa de mots visuels . . . 38

1.4 Combinaison multimodale . . . 40

1.4.1 Fusionpré o e . . . 40

1.4.2 Fusiontardive. . . 41

1.5 Positionnement dutravail . . . 43

2 Représentation de l'information textuelle 45 2.1 Rédu tion duvo abulaire . . . 45

2.1.1 Diérentes appro hespourréduire levo abulaire . . . 46

2.1.2 Propositiond'unnouveau ritère de séle tion :CCDE . . . 48

2.1.3 Expérimentations . . . 50

2.2 Problèmede la atégorisation multilabel . . . 55

2.2.1 Transformationdes problèmes multilabels . . . 56

2.2.2 Méthodesde séle tion dunombre de atégories . . . 59

(7)

3 Représentation des images par sa s de mots visuels pondérés tf.idf 71

3.1 Présentation desdiérentsparamètres . . . 72

3.1.1 Création d'unvo abulairevisuel . . . 72

3.1.2 Pondération . . . 75

3.2 Modèle adaptéà la atégorisation d'images . . . 75

3.2.1 Présentation dela olle tion . . . 75

3.2.2 Modèleetproto ole expérimental . . . 76

3.2.3 Résultats . . . 76

3.3 Pondération

tf.idf

pour les images . . . 78

3.3.1 Pondérations . . . 78

3.3.2 Expérimentation . . . 80

3.4 Fusion dedes ripteurs visuels . . . 84

3.4.1 Présentation desdiérentes fusions . . . 84

3.4.2 Expérimentations . . . 85

4 Combinaison des informations textuelle et visuelle 89 4.1 Présentation dumodèle . . . 90

4.1.1 Ar hite ture globaledu système. . . 90

4.1.2 Modèlede représentation textuelleetvisuelle . . . 90

4.1.3 Combinaisonlinéaire . . . 91

4.1.4 Appli ation du systèmeàla olle tion ImageCLEF . . . 92

4.2 Appro he empiriqueglobale . . . 94

4.2.1 Mesuresd'évaluation . . . 95

4.2.2 Proto ole expérimental. . . 95

4.2.3 Résultats . . . 96

4.3 Étude avan ée del'utilisation du paramètre defusion

α

. . . 100

4.3.1 Proto ole expérimental . . . 100

4.3.2 Résultats . . . 101

4.4 Appro he analytique . . . 102

4.4.1 Présentation del'analyse dis riminante . . . 103

4.4.2 Cas d'unproblèmeà deux lasses . . . 105

4.4.3 Proto ole expérimental. . . 106

4.4.4 Résultats . . . 107

Con lusion et perspe tives 111 Annexes 115 A Présentation des olle tions XML Mining 2008 et 2009 117 A.1 XML Mining2008 . . . 117

A.2 XML Mining2009 . . . 119

B Présentation des olle tions ImageCLEF 2008 et 2009 125 B.1 ImageCLEF 2008 . . . 125

B.2 ImageCLEF 2009 . . . 131

(8)

L'augmentation roissante des apa ités de produ tion,de sto kage etde diusion

desdo umentsmultimédiasrendl'a èsàl'informationutiledeplusenplusdi ile.Dès

lorsquelenombrededo umentsqui omposentune olle tiondépassela entaine,ilest

fastidieuxdere her hermanuellementundo umentparti ulierouunsous-ensemblede

ette olle tion. Lamise enpla e d'outils automatiques d'organisation et de re her he

dedo uments estdon indispensable.

Le développement des nouvelles te hnologies a également entraîné une

diversi a-tion de es do uments. Ces derniers peuvent omporter du texte, desimages, du son,

desvidéosouune ombinaisonde esdiérentséléments.An d'organiseretde

re her- heraumieux esdo uments,lesoutilsdoiventprendreen ompte ettediversité.Cette

thèse s'intéresse àlareprésentation de do umentsmultimédias permettant d'exploiter

les diérentes informations ontenues dansles do uments etplus parti ulièrement les

informationstextuelle etvisuelle.

Après avoir introduit le ontextegénéral dans lequel sesitue ette re her he, nous

détaillerons les problématiques auxquelles nous nous sommes intéressés. Enn, nous

présenterons les obje tifsetl'organisation de e mémoire.

Contexte du travail : a ès à l'information multimédia

Ave le développement des terminaux mobiles et embarqués, les utilisateurs sont

de plus en plus assistés par des outils qui tentent d'exploiter le maximum

d'informa-tiondisponiblepour répondreàleurs besoins. Unutilisateur quisouhaite par exemple

réaliserun a hat, peut sevoir proposer une liste de produits en fon tion de ses

préfé-ren es etdesonhistorique de ommandes.Ces systèmesde re ommandation sont très

présents sur les sites mar hands etexploitent tous les a hats ee tués par l'ensemble

des utilisateurs du système. Ave l'augmentation des plateformes de réseaux so iaux,

lesrelations entreles diérentsutilisateurssontégalement trèsutilisées pour onseiller

es derniers. Toutes es informations sont très hétérogènes et rendent di ile la mise

enpla edesystèmespermettant derépondreàtouslesbesoinsdetousles utilisateurs.

Dans la suite, nous nous intéresserons plus parti ulièrement aux situations où un

utilisateur a un besoin parti ulier d'information. Pour satisfaire e besoin, il dispose

(9)

utiliser des outils automatiques de atégorisation et de re her he d'information. Ces

outilspermettentd'organiserlesdo umentsdela olle tion ommel'illustrelagure1.

Dans ertains as, l'utilisateur peut exprimer son besoin sous la forme d'une requête

omposée de quelques mots ou d'une ou plusieurs images. Les systèmes de re her he

d'information (SRI) ont alors pour obje tif de fournir une liste triée de do uments

sensés répondreau besoin de l'utilisateur. Dans d'autres as, l'utilisateur ne peut pas

exprimersonbesoinparunerequêteetilpréférerare her herdansunsous-ensemblede

do umentsde la olle tion. Cesous-ensemble seraforméde quelquesdo umentsayant

parexempleunthème ommundanslesquelsl'utilisateur serasus eptibledetrouverla

réponseàsonbesoin.C'estla atégorisationdedo umentsqui,àl'aided'un lassieur,

regroupeles do umentssimilaires en atégories.

?

Fig.1Présentationdela atégorisationetdelare her hed'informationpourrépondre

au besoin d'unutilisateur.

Quel que soit le ontexte de travail, nous utiliserons une représentation des

do u-ments parsa demots. Sil'ordredesmots dansun do ument permetd'analyser etde

omprendre en détail son ontenu, il n'est pas for ément né essaire pour extraireson

sujetprin ipal.Eneet,quelquesmots lésprésentsdansledo umentsusentsouvent

àsaisir lesujetde edernier. Pour desdo uments textuels,l'appro he parsa de mots

orrespond à une représentation sous la forme d'un ensemble non ordonné des mots

extraits du texte. L'ensemble des mots possibles forme alors un vo abulaire de mots

textuels. Cette idée a ensuite été étendue à la représentation des images.

Contraire-mentauxdo umentstextuelsoùlevo abulairepeutêtre onstruitdire tement àpartir

desmots présentsdansles do uments, l'appro he par sa de mots pour les images

(10)

Problématiques

La représentation des do uments en sa s de mots né essite la réation d'un

vo a-bulaire spé ique pour haque modalité, texte et image. En fon tion de la modalité

onsidérée etdu ontextede travail,desproblèmes seposent sur:

la rédu tionde latailledu vo abulaire;

l'extra tion etlapondération desmots visuels;

la ombinaisondesinformations textuelle etvisuelle;

la séle tion des atégories à asso ier àun do ument.

Le vo abulaire textuel se onstruit le plus simplement en utilisant les mots

appa-raissant danslesdo umentsdela olle tion. Cependant,même pourunnombreréduit

de do uments, le vo abulaire ainsi obtenu peut être de très grande taille.

Prin ipale-ment pour des raisons d'e a ité, mais aussi de performan e des algorithmes, il est

intéressant de réduire la taille de e vo abulaire. Dans un ontexte de atégorisation,

nousnoussommes demandés ommentréduire e a ement lataille duvo abulaire en

fon tion deladistribution desmotsqui apparaissent dansdesdo uments appartenant

auxmêmes atégories.

Àladiéren eduvo abulairetextuel,lesmotsvisuelsnesontpasaussibiendénis.

Trois étapes prin ipales peuvent être distinguées pour réer un vo abulaire visuel :

la déte tion de points d'intérêt, la des ription de ara téristiques lo ales autour de

es points d'intérêt et leur quanti ation. Nous avons étudié les diérents problèmes

liés à la réation d'un vo abulaire visuel : omment déte ter e a ement les points

d'intérêtsdanslesimages?Quelles ara téristiquessontà al ulerpourextraireleplus

d'informationutilepossible?Comment réerlesmotsvisuelsàpartirde esdes riptions

lo ales?Combiendemotsfaut-il hoisirpour dé rirelesimages?Commentutiliser es

mots pour représenter lesimages?

Les vo abulaires ainsi réés pour haque modalité permettent de représenter les

do uments de la olle tion. Cette représentation est ensuite utilisée pour lasser les

do umentsen atégories ou pour les ordonneren fon tion deleur pertinen epour une

requêteposéepar un utilisateur.

Nous nous sommes demandés omment ombiner les modalités textuelles et

vi-suelles,dansune tâ hede re her he d'informationmultimédia. Dans e ontexte,

l'uti-lisateur exprime son besoin sous la forme d'une requête omposée de quelques mots

textuelsou d'uneou quelquesimages. Lapremièreappro hequenousavonsenvisagée,

onsisteàn'utiliserqu'uneseulepartie,textuelleouvisuelle,delarequête.Notrebuta

ensuiteétédedévelopperunese ondeappro heexploitantlesmodalités onjointement.

Pour ela, nous avons onsidéré un système de re her he d'information qui ombine

linéairement lesrésultatsobtenuspar lesystèmepour haquemodalité.Plusieurs

ques-tions peuvent alors se poser : est-il possible d'améliorer les résultats en exploitant les

diérentes informations? Combien de modalités pouvons-nous ombiner? Quel poids

doitêtre a ordéà haquetype d'information (textuelleetvisuelle)?

Enn dans le ontexte le plus simple de la atégorisation de do uments, les

do u-ments nesont asso iés qu'à une seule atégorie. Pour réaliser ette atégorisation, des

algorithmes issus du domaine de l'apprentissage automatique sont utilisés pour

géné-rer un lassieur qui pour un nouveau do ument à lasser, retourne la atégorie qui

est la plus probable. S'il existe plusieurs atégories, nous parlerons de atégorisation

(11)

tons exploiterles résultats desalgorithmes de atégorisation multi lasse :le problème

estalorsdeséle tionnerlenombrede atégoriesà onserverpourunnouveaudo ument

en fon tion delapertinen edes atégories retournéespar le lassieur.

Obje tifs

Le prin ipal obje tif de notre travail est de proposer un modèle pour représenter

les do uments multimédias. Ce modèle doit pouvoir être utilisé pour des do uments

qui omportent une ou plusieurs images, du texteou les deux. Il doit être en mesure

d'exploiter touteslesinformations textuellesetvisuellesdisponiblesetdeles ombiner

pour améliorer les résultats dansdes ontextes de atégorisation de do uments et de

re her he d'information.

An de valider e modèle, nosre her hes ont été évaluées surdes olle tions

las-siques, maiségalement en parti ipant à des ompétitions internationales omme

Ima-geCLEF et INEX XMLMining [Moulin et al., 2008, Moulin et al., 2009, Géry et al.,

2009,Largeron et al.,2010℄.

Organisation du mémoire

Le premier hapitre, onsa réà l'étatde l'art, introduit toutd'abord lestâ hes de

atégorisationetdere her hed'informationainsiquelesmesuresd'évaluationasso iées.

Les appro hes permettant de représenter etde fusionner les informations textuelle et

visuellesont ensuite présentées.

Le deuxième hapitre porte sur la représentation des do uments textuels. Dans le

ontextedela atégorisation,nousintroduisonsunnouveau ritèremettantenavantles

mots lesplusreprésentatifsdes atégories danslebutde réduirelevo abulaire textuel

[Largeron et al., 2011℄. Nous proposons également une nouvelle méthode de séle tion

du nombre de atégories à asso ier auxdo uments dans le adre multilabel [Largeron

etMoulin,2010℄.

Le troisième hapitre s'intéresse à la représentation des imageset s'inspire des

ap-pro hes lassiquement utilisées ave des données textuelles. Les images sont ainsi

re-présentéesàl'aided'unmodèlebasésurlessa s demots visuels.Lesdiérentesétapes

de réation du vo abulaire visuel sont analysées et une étude sur la pondération des

mots visuelsainsique surlafusion de diérentsdes ripteurs est réalisée dansle adre

de la atégorisation d'images [Moulinet al.,2010a℄.

Lequatrième hapitre sepla edansle ontextedelare her hed'information

multi-médiaetétudiel'apportdel'informationvisuelleen ombinantlinéairementlesrésultats

obtenus séparément sur haquemodalité.Diérentesappro hes onsistant àapprendre

lesparamètres de ombinaisonontété onsidérées, soiten ee tuantune re her he

ex-haustive de la valeur optimale des paramètres de ombinaison, soit en le al ulant de

(12)

Représentation de do uments multimédia

Ave ledéveloppement desnouvelleste hnologies etdel'internet,lare her he s'est

intéressée au problème de l'a ès à l'information. L'information étudiée dans la suite

orrespond à des do uments multimédias sus eptibles de ontenir du texte et des

images.Ce hapitre est onsa réàl'étatdel'artdelareprésentation de esdo uments

multimédias.

Le problèmedere her he dedo umentsdansune olle tionainsiquelesappro hes

adoptés pour résoudre e problème seront tout d'abord introduits. Les modèles

las-siques utilisés pour représenter les données textuelles, puis les images seront ensuite

présentés. Enn, les diérentes possibilités permettant de fusionner es deux types

d'informationmultimédia seront étudiées.

1.1 Positionnement du problème

Deux appro hes prin ipales peuvent être utilisées pour répondre au problème de

la re her he de do uments dans une olle tion : la atégorisation de do uments et la

re her he d'information. La première onsiste à réduire le problème de la taille de la

olle tion en lassant en sous- atégories les do uments similaires pour n'avoir à

her- her que dans un sous-ensemble restreint de do uments plutt que dans la olle tion

omplète[Sebastiani,2002℄.Cetteappro heestparexempleexploitéeparlesannuaires

oulesportailsdel'internet quiproposent unelistedesites lasséshiérar hiquement en

diérentes atégories [Dumais etChen, 2000, Adami et al., 2003℄. Les plus onnus de

esportailssont Googledire tory 1

,Yahoodire tory 2

etOpen dire toryproje t 3

.

La se onde appro he, la re her he d'information, onsiste à her her une liste de

do uments pertinents pour une requête donnée dans l'ensemble des do uments de la

olle tion préalablement indexés [van Rijsbergen, 1979, Manning et al., 2008℄.

L'in-dexationestunephasequi onsisteàasso ierdestermesàdesdo uments; elapermet

en formulant une requête omposée de termesde l'index, de retrouver plus fa ilement

lesdo uments. Pour lesdo umentstextuels,l'indexation exploite dire tement lesmots

extraitsdesdo uments. Pour lesimages, ette indexation n'est pasimmédiate etpeut

1

http://www.google. om/dirhp 2

(13)

s'ee tuerpar exempleàl'aidedemots lésasso iésauximages[Barnardet al.,2003℄.

Cepro édéd'annotationpeutêtre ee tuémanuellement ouen utilisant desméthodes

de atégorisation [Hanbury, 2008℄. Cette appro he visant à re her her des do uments

indexésest utiliséepar les moteursde re her he omme Google 1 ,Yahoo 2 ,Exalead 3 .

La démar he générale sous-ja ente à es deux tâ hes est tout d'abord introduite

puis est suivie d'une présentation détaillée de la re her he d'information et de la

a-tégorisation. Un dernier paragraphe revient sur l'importan e de la représentation des

do uments.

1.1.1 Présentation de la démar he générale

Quelle que soit la tâ he onsidérée (re her he d'information ou atégorisation de

do uments),ladémar hegénéraleestlamême:dansunpremiertemps,lesdo uments

sont dé rits à l'aide d'un modèle de représentation qui permet ainsi de les manipuler

plusfa ilement.Ensuite, desoutilsde omparaison baséssurdesmesures desimilarité

sont utilisés pour mettre en orrespondan e les do uments. Enn, la pertinen e des

résultatsissusde diérentes méthodesestévaluée àl'aide deplusieurs ritères.

Pour lare her he d'informationetla atégorisation de do uments,l'évaluationdes

résultats se base sur deux prin ipaux ritères qui sont la pré ision (P) et le rappel

(R). La pré ision mesure la proportion des do uments pertinents retrouvés parmi les

do umentsretournésalorsquelerappelmesurelaproportionde do umentspertinents

retrouvés parmi les do uments à retrouver. La gure 1.1 illustre graphiquement es

deux ritères.

Fig. 1.1 Illustrationdes ritères de pré ision et de rappel.

Defaçongénérale,ilfautdon proposerdessystèmesquiretournentleplusde

résul-tatspertinents, 'est-à-direayantunrappelélevé,toutenlimitantlenombred'erreurs,

autrement ditayant une pré isionélevée.

1

http://www.google. om 2

(14)

Un ensemblede do uments

D = {d

1 , . . . , d

i

, . . . , d

|D|

}

,est appelé olle tionou or-pus. Le nombre de do uments de la olle tion ou sa taille orrespond au ardinal de

l'ensemble

D

etseranoté

|D|

.Lesdo uments onsidérésdanslasuitepeuventêtre om-posésd'imagesoudetexte.Quandlanaturedudo umentporteà onfusion,l'exposant

T

serautilisépourreprésenterl'informationtextuelleetl'exposant

V

pourl'information visuelle.

1.1.2 Re her he d'information

Pour re her her des do uments dans une olle tion donnée, un utilisateur peut

exprimer sous forme de requêtes ses besoins. Pour un ensemble de requêtes

Q =

{q

1 , . . . , q

k

, . . . , q

|Q|

}

fournies par un ou plusieurs utilisateurs , le but d'un système dere her he d'informationestde retournerpour haque requête

q

k

,une listede do u-mentsde

D

triéepar pertinen e. Unerequêtepeut orrespondreàdutexte,desimages ouune ombinaisondesdeux.Lapartietextuelled'unerequêteestgénéralementformée

de quelquesmots[O'Keefe etTrotman, 2003,Kampset al.,2005℄.

1.1.2.1 Prin ipes de la re her he d'information

Lessystèmesdere her hed'informationontétéintroduitsenbibliothé onomiean

d'améliorer les te hniques de gestion et d'organisation des bibliothèques [Cleverdon,

1991℄. Pour trouver une page parti ulière dans un livre, l'utilisation d'un index est

indispensable. Cette idée a été étendue dans les bibliothèques en utilisant un index

permettant deretrouverles livresplusfa ilement.

L'utilisation des ordinateurs et de l'informatique en général a permis la mise en

pla e d'outils fa ilitant le traitement de l'information et la réation automatique des

index.Lare her hed'informationestdevenuundomainetrèsa tif esdernièresannées;

L'arrivée de l'internet a né essité lamiseen pla e d'outils beau oup plusperformants

pour traiterdesquantitéstrès importantes d'information[Kobayashi etTakeda,2000℄.

Un système de re her he d'information possède deux parties prin ipales illustrées

parlagure1.2.La première on ernel'indexation desdo umentsalorsquelase onde

orrespond àlare her he elle-même.

1.1.2.2 Indexation

L'indexationapourbutdebienreprésenterlesdo umentsdela olle tionan

d'a - éderrapidement ete a ement àleur ontenu.Lire tousleslivresd'unebibliothèque

permet de trouver eux qui ontiennent une information parti ulière.Mais ette

solu-tion n'est pas viable et il est né essaire d'utiliser une indexation pour retrouver plus

simplement les livresintéressants pour la re her he envisagée. Une indexation simple,

maisnéanmoins e a e, est l'utilisation d'unindex inversé. À haque termeest

asso- iée laliste desdo uments qui ontiennent e terme à l'image d'unindex présent à la

nd'unlivre quiasso ieà haquemot léles pages orrespondantes.Pour untermeet

undo umentdonnés,desinformations omplémentairespeuvent êtreajoutéesselonles

(15)

?

Fig. 1.2Représentation d'unsystème dere her he d'information.

1.1.2.3 Re her he

La re her he orrespond à la phase du système qui produit une liste ordonnée de

do uments sus eptibles de répondre à une requête posée par un utilisateur. À partir

d'une requête

q

k

, un s ore est attribué à haque do ument

d

i

de la olle tion, noté

score(d

i

, q

k

)

. Il évalue la pertinen e entre la représentation du do ument

d

i

et elle de la requête

q

k

grâ e à une fon tion de mise en orrespondan e. Il est ensuite utilisé pour trier l'ensemble des do uments de

D

par pertinen e. Cela orrespond alors à la pertinen esystème.

Dans le but d'obtenir de meilleurs résultats, le système peut modier la requête

initialefournie parl'utilisateur.Deux appro hesprin ipalespeuventêtre utilisées,soit

globalement en modiant larequête de l'utilisateur avant d'ee tuer une nouvelle

re- her he, soit lo alement en demandant à l'utilisateur d'évaluer les résultats retournés

par lesystèmeà partirde larequêteinitiale.

L'appro he globale in lut l'extension de larequête fournie par l'utilisateur en

uti-lisant un thésaurus ou en la orrigeant. Le re ours à un thésaurus est très pratiqué

quand les appli ations sont limitées à un domaine très spé ique ommele thésaurus

médi al MeSH (Medi al Subje t Headings) 1

. Dans un ontexte général, le thésaurus

le plus utilisé en langue anglaise est Wordnet 2

, un thésaurus onstruit manuellement

[Miller et al., 1990℄. D'autres appro hes onstruisent automatiquement le thésaurus à

partirdesdo umentsdela olle tion[S hütze,1998℄.Larequêteinitialepeutégalement

ontenirdeserreursqu'ilestpossiblede orrigeren her hant lesmots lespluspro hes

1

(16)

en terme de distan e d'édition ou de voisinage du mot [Kuki h, 1992℄. La distan e

d'édition entre deux mots orrespond au nombre minimal d'insertion, de suppression

ou de substitution qu'il faut ee tuer pour passer d'un mot à l'autre tandis que le

voisinage des mots est généralement déterminé grâ e aux n-grammes. Ces te hniques

sont largement utilisées par les moteurs de re her he. Par exemple, en her hant ur

bleue, le moteur de re her he Google orrige larequête et retourne les résultats pour

la requête eur bleue. Il propose également d'étendre ette requête en her hant être

eur bleue, eur bleue des alpes ou eur bleue paroles, eur bleue étant une hanson

deCharles Trenet.

Contrairement àl'appro heglobale, l'appro he lo aletraitedansunpremiertemps

larequête initiale proposée par l'utilisateur et lui demande ensuite d'évaluer la

perti-nen e d'un ertain nombre de do uments retournés. Cela orrespond alors à la

perti-nen e utilisateur. Le jugement de pertinen e qu'il porte sur es premiers do uments

estensuite utilisé pour modier larequête en her hant à distinguer les mots quisont

présentsdanslesdo umentspertinents.L'algorithmeRo hioestleplus onnupour

ex-ploiter eretourdepertinen eutilisateuretmodierlarequêteen onséquen e[Salton

etBu kley,1990,Joa hims, 1997,Mos hitti,2003℄.

1.1.2.4 Évaluation

L'évaluation d'un système de re her he d'information s'ee tue généralement sur

une olle tiontest à l'aided'unensemble derequêtes

Q

pour lesquellesles do uments pertinents sont onnus pour haque requête. Pour une requête

q

k

, le sous-ensemble

D

k

=

{d

k,1

, . . . , d

k,i

, . . . , d

k,|D

k

|

}

de

D

orrespond à l'ensemble desdo uments quisont pertinentspour etterequête.Lerésultatretournépar unsystèmedere her he

d'infor-mationpourlarequête

q

k

estuneliste

L

k

ordonnéededo uments onsidéréspertinents et triés grâ e au s ore obtenu par la fon tion de mise en orrespondan e. Pour la

re-quête

q

k

,

|L

k

|

notéégalement

N

k

, orrespondaunombrededo umentsde

L

k

.Lerang

r

orrespondau

r

e

do umentretrouvéparlesystèmeparmiles

N

k

do uments;

r

estdon omprisentre

1

et

N

k

.Ilexiste plusieurs ritères quipermettent d'évaluerles systèmes de re her he d'information [Kamps et al., 2008, Manning et al., 2008℄, les prin ipaux

ités pré édemment étant la pré ision et le rappel, et des extensions de es derniers

ommelapré ision moyenne etlapré ision interpolée.

Pré ision et rappel

La pré ision

P

k

(N )

orrespond àla proportion de do umentspertinents retrouvés pourlarequête

q

k

parmiles

N

premiersdo umentsde

L

k

.Lerappel

R

k

(N )

orrespond au rapportentreles do uments pertinents pour larequête

q

k

gurant dansles

N

pre-miersdo umentsetlenombrededo umentspertinentsàretrouverpour etterequête.

P

k

(N )

et

R

k

(N )

s'obtiennent par :

P

k

(N ) =

P

N

r=1

rel

k

(r)

N

R

k

(N ) =

P

N

r=1

rel

k

(r)

|D

k

|

(1.1)

(17)

d'unsystème,il onvient fréquemment de al uler la ourbede pré ision-rappel. Cette

ourbe s'obtient enpar ourantlaliste desdo umentsretournés parlesystèmeduplus

pertinentau moinspertinent eten al ulant pour haque ranglapré ision etlerappel

orrespondant aux oordonnées du point à pla er sur la ourbe. L'allure générale de

ette ourbe estprésentéepar lagure1.3.

Fig. 1.3 Alluregénéraled'une ourbe pré ision-rappel.

Pré ision moyenne

Une première extension de es ritères orrespondant à lapré ision moyenne

AP

k

estégalement utiliséepour évaluerlesperforman esd'unsystèmedere her he

d'infor-mation. Elle se al ulepar :

AP

k

=

P

N

k

r=1

(P

k

(r).rel

k

(r))

|D

k

|

(1.2)

Les ritères de pré ision et de rappel sont al ulés sur un ensemble de do uments

retournéspar unsystème.Lorsque esystèmeretourne unelistetriéededo uments,le

ritère de pré ision moyenne peut être utilisé ar 'est un ritère global qui prend en

ompte l'ordre danslequelles do umentsont étéretrouvés.

Pré ision interpolée

La pré ision

iP

k

[x]

orrespond à la pré ision à un point de rappel donné

x

et se al ulepar :

iP

k

[x] =

max

1≤r≤N

k

(P

k

(r)

|R

k

(r)

≥ x)

si

x

≤ R

k

(N

k

)

0

sinon (1.3)

(18)

Évaluation pour un jeude requêtes

Pour évaluer globalement un systèmede re her he d'information les moyennes des

ritères de pré ision moyenne (

M AP

), de pré ision pour les

N

premiers do uments (

P @N

) et de pré ision interpolée à un point de rappel donné

x

sont al ulées sur l'ensembledesrequêtes

Q

par :

M AP =

P

|Q|

k=1

AP

k

|Q|

P @N =

P

|Q|

k=1

P

k

(N )

|Q|

iP [x] =

P

|Q|

k=1

iP

k

[x]

|Q|

(1.4) 1.1.3 Catégorisation de do uments

Leproblèmedelare her hed'undo umentdansune olle tionpeutêtresimpliéen

utilisantdesméthodesde atégorisationdedo uments.La atégorisationdedo uments

fait appel à des méthodesissues du domaine de l'apprentissage automatique. Dans la

pratique,unalgorithmed'apprentissageexploitedesobservationsextraitesd'une

popu-lationparti ulière, appelé é hantillon d'apprentissage, pour produireun modèle. Dans

le adrede l'apprentissage non supervisé,ou lassi ation, l'obje tif est de onstituer

un modèle qui regroupe les observations semblables entre elles. La atégorisation de

do uments onsidérée danslasuite s'ins rit dans le adre del'apprentissage supervisé

ou lassement.L'obje tif est alors deproduire unmodèleégalement appelé lassieur,

noté

φ

,qui pour une nouvelle observation, orrespondant i i à unnouveau do ument, prédit uneétiquette quidoit orrespondreàla atégorie asso iéeau do ument,appelé

label. Le prin ipe général de la atégorisation estillustré par lagure 1.4.L'ensemble

des atégories ou lasses qui peuvent être asso iéesà un do ument est représentépar

C = {c

1 , . . . , c

k

, . . . , c

|C|

}

. Les diérentes atégorisations qui existent, à savoir les a-tégorisations binaire, multi lasse et multilabel, sont présentées avant d'introduire les

lassieurs lassiques etles ritères qui permettent d'évaluer les résultats d'un

lasse-ment.

?

(19)

1.1.3.1 Catégorisations binaire, multi lasse et multilabel

La atégorisationdedo umentsfaitpartiedespremiersprin ipesd'organisation

uti-lisésà l'originedansles bibliothèques pour retrouver plusfa ilement lesouvrages. Dès

1627,leseptièmepointénon éparGabrielNaudésoulignel'importan edel'ordreetde

la dispositionque doiventgarder les livres dans une Bibliothèque : ar il n'ya pointde

doutequesansi elletoutenostrere her heseroitvaineetnostrelabeursansfrui t,puis

que les livres ne sontmis et réservez en et endroit que pouren tirer servi e aux

o a-sionsquiseprésentent.Ceque toutesfoisilest impossibledefaires'ilsnesontrangezet

disposezsuivantleursdiversesmatières,ouentelleautrefaçonqu'onlespuissetrouver

fa ilement et à point nommé. [Naudé,1627℄. Il existe diérentes lassi ations

biblio-graphiques, omme la lassi ation dé imale de Dewey 1

ou la lassi ation dé imale

universelle 2

qui répartissent les ouvrages en dix lasses, haque lasse étant dé oupée

en dix divisions elles-mêmes dé oupées en dix sous-divisions. Un ouvrage est ensuite

lassé en lui assignant une atégorie omposée d'au moins 3 hires orrespondant à

sa lasse, sadivision etsous-division. Pour un livre de uisine, la lasse asso iée est 6

(Te hniques),ladivisionest4(Viedomestique)etlasous-divisionest1(Alimentation).

D'autres hiresséparéspar unpointsontensuiteajoutéspour pré iserla atégoriedu

livre.Pour lelivrede uisine, la atégorie naleasso iée est641.5.

Pourretrouverfa ilement unlivredansunebibliothèque,les lassessontdéniesde

telle sorte qu'un livre ne puisse pasappartenir à plus d'une lasse. Ce i orrespond à

la atégorisation multi lasse. Dans d'autres ontextes, il peut arriver qu'un do ument

possèdent plusieurs labels e qui orrespondalors, àla atégorisation multilabel.

Dans lasuite, pour undo ument

d

i

,

L(d

i

)

orrespondraà l'ensembledeslabelsqui lui sont asso iés et

L(d

ˆ

i

)

l'ensemble des étiquettes qui ont été ae tées à

d

i

par un lassieur. Les labels et les étiquettes orrespondent à des atégories ou lasses de

C

, maisleslabelsreprésentent les lasses qui sontee tivement asso iéesà undo ument,

alors que les étiquettes orrespondent aux lasses qui ont été ae tées à un do ument

parun lassieur.Lebutdela atégorisationestalorsd'obtenirpour haquedo ument

d

i

que

L(d

i

)

soit égal à

L(d

ˆ

i

)

.Quelle que soit la atégorisation onsidérée, le nombre de lassespossiblesesttoujourssupérieurouégalàdeux(

|C| ≥ 2

).Eneet,quandune seule lasse

c

1

est onsidérée,l'ensembledes atégories

C

possède deux lassesqui sont égales à la lasse

c

1

et à son omplémentaire

c

¯

1

. Lorsque l'ensemble des atégories

C

est omposé de stri tement deux lasses (

|C| = 2

) et que les do uments ne possèdent qu'un seul label(

L(d

i

) = 1)

), il s'agit d'une atégorisation binaire. En revan he, si le nombrede lasses possibleseststri tement supérieurà deux(

|C| > 2

) etle nombrede labelsasso iésauxdo umentsresteégalàun(

L(d

i

) = 1)

),ils'agitd'une atégorisation multi lasse.Ennquelquesoitlenombrede lassespossibles(

|C| ≥ 2

),la atégorisation multilabel onsidère desdo umentspourlesquelsplusieurs labelspeuventêtreasso iés

auxdo uments(

L(d

i

)

≥ 1)

). Unrésuméde esdiérentes atégorisations possiblesest donné par latable 1.1.

1.1.3.2 Algorithmes de atégorisation

Dans le ontextede la atégorisation supervisée,un é hantillonde base orrespond

àunensemblededo umentspourlesquelslareprésentation etlaoules lassesasso iées

à esdo umentssont onnues. Danslapratique, eté hantillondebaseestpartitionné

1

(20)

Tab.1.1 Catégorisations binaire, multi lasse etmultilabel.

Typesde atégorisation

|L(d

i

)

| = 1 |L(d

i

)

| ≥ 1

|C| = 2

binaire

multilabel

|C| > 2

multi lasse

endeux an de onstituer uné hantillon d'apprentissage

D

A

etuné hantillon de test

D

T

.Lebutestalorsde onstruireun lassieuràl'aidedel'é hantillond'apprentissage

D

A

.Ce lassieur permettra ensuitede prédire les lasses à ae ter à n'importe quel autre do ument. L'évaluation du lassieur ainsi onstruit se fait à l'aide de

l'é han-tillon de test

D

T

. Dans ertains as, l'évaluation peut aussi être faite en pratiquant une validation roisée (ou ross-validation); 'est-à-dire en partitionnant l'é hantillon

de base en plusieurs é hantillons puisen itérant le pro essusd'apprentissage sur

l'en-sembledeséléments àl'ex eptionde euxgurant dansundesé hantillons quiservira

à l'évaluation. Cette validation est notamment utilisée lorsque la taille de la

olle -tion est limitée et permet alors de mieux estimer les taux de pré ision et de rappel

[Efron, 1983℄. Pour illustrer ettetâ he de atégorisation,les

k

pluspro hesvoisins,le lassieur naïfbayésien etles ma hines à ve teurs de support sont présentés dans un

ontexte de atégorisation binaireoumulti lasse.

k

plus pro hes voisins

Leprin ipe des

k

pluspro hesvoisins(oukppv) onsisteà lasserpourunnouveau do ument

d

i

,laliste des

k

do umentsde l'é hantillon d'apprentissage lesplus pro hes selon une distan e hoisie [Hinneburg et al., 2000℄. Le do ument

d

i

est alors asso ié à la atégorie majoritairement représentée parmi es

k

plus pro hesvoisins.

?

(21)

à ae ter au do ument rond vert entre les atégories arré bleu ettriangle rouge. Sur

ette gure, en utilisant la distan e eu lidienne et les trois plus pro hes voisins, le

do ument rond vert est ae té à la atégorie triangle rouge. En revan he, si les inq

do uments les plus pro hes sont pris en ompte, la atégorie à asso ier au do ument

rond vert est arré bleu.

Dans saversion la plus simple, et algorithme ore l'avantage d'être simple à

ap-préhender et à implémenter. Il né essite ependant le hoix du nombre

k

de voisins à onsidéreretdelamétrique,généralementladistan eeu lidienne,àutiliserpour

al u-lerladistan eentrelesdiérentséléments. Que esoiten atégorisation dedo uments

textuelsoud'images, etalgorithmeestrobuste etdonnedebonsrésultats[Hanetal.,

2001,SzummeretPi ard,1998℄. La omplexitéde l'algorithmedes

k

pluspro hes voi-sins esten revan he très élevée arpour haquenouveau do ument,les distan es ave

touslesélémentsde l'é hantillon d'apprentissage doivent être al ulées.Des appro hes

pourréduire ette omplexitéont étéproposéesenutilisantpar exempledesstru tures

arbores entes pour représenter les éléments de l'é hantillon d'apprentissage [Bentley,

1975℄.

Appro he naïve bayésienne

L'appro he naïve bayésienne permet d'ee tuer un lassement probabiliste basé

sur le théorème de Bayes. Pour lasser un do ument

d

i

, il faut al uler pour haque lasse

c

k

, la probabilité

P (c

k

|d

i

)

d'appartenir à la lasse

c

k

sa hant la représentation du do ument

d

i

.Cetteprobabilité peuts'obtenir par :

P (c

k

|d

i

) =

P (d

i

|c

k

).P (c

k

)

P (d

i

)

(1.5)

où

P (c

k

)

est la probabilité qu'un do ument quel onque appartienne à la lasse

c

k

,

P (d

i

)

est la probabilité asso iée au do ument

d

i

et

P (d

i

|c

k

)

est la probabilité d'avoir ledo ument

d

i

sa hant quela lasse

c

k

est onsidérée.

L'étiquette asso iée à

d

i

orrespond alors à la atégorie

c

k

pour laquellela proba-bilité

P (c

k

|d

i

)

est la plus élevée. Étant donné que

P (d

i

)

est onstante quelle que soit la lasse

c

k

,

P (c

k

|d

i

)

peutêtreestimée par leproduit

P (d

i

|c

k

).P (c

k

)

.En eet,l'ordre des probabilités pour les diérentes atégories n'est pas modiépar lasuppression de

la onstante

P (d

i

)

.

P (d

i

|c

k

).P (c

k

)

estensuite al uléenfaisantl'hypothèsequelesmotsqui omposent ledo ument

d

i

apparaissent de façon indépendantedansledo ument :

P (c

k

|d

i

) = P (c

k

)

Y

t

j

∈d

i

P (t

j

|c

k

)

(1.6)

où

P (t

j

|c

k

)

estlaprobabilité onditionnelle d'apparition duterme

t

j

dansla lasse

c

k

. C'est l'hypothèse del'apparition indépendantedestermesquiexpliquele ara tère

naïfdelaméthode.Cettehypothèsen'est évidemmentpasvériéepour desdo uments

textuels, ar par exemple, après le mot apprentissage, la probabilité d'apparition du

mot automatique n'est pasla même que elle du mot eur. Bien que dans la plupart

des as, l'apparition indépendante des termes ne soit pas vériée, l'appro he naïve

bayésienne permet d'obtenir de très bons résultats que e soit pour des do uments

(22)

été proposées sans pour autant améliorer signi ativement les résultats [Domingos et

Pazzani, 1997℄.

Ma hines à ve teurs de support

Lesma hinesàve teursdesupportouséparateursàvastemarge(SVM)regroupent

unensembledeméthodesoriginellementdéniespourrésoudredesproblèmesde

lasse-mentàdeux lasses[Boseretal.,1992℄.Leprin ipedesma hinesàve teursdesupport,

illustrépar lagure 1.6, onsiste à séparerles éléments de ha unedes lasses par un

hyperplan de façon à maximiser la distan e minimale qui existe entre les éléments et

l'hyperplan. Cettedistan e,appeléemarge, permetde hoisir l'hyperplan quioptimise

la séparation des deux lasses. Comme le montre la gure 1.6, il existe une innité

d'hyperplans en pointillés verts qui permettent de séparer les lasses. En revan he, il

n'existequ'un seulhyperplan entirets rougesqui maximise lamarge.Leséléments les

plus pro hes de l'hyperplan sont appelés ve teurs supports et sont entourés en bleu.

Cetteméthode est e a e si les lasses sont linéairement séparables.Lorsque e n'est

pasle as,ilestpossibled'utiliserdesmargesdou esquiautorisent ertaineserreursen

ajoutant despénalités en fon tion deladistan e àlamarge [Corteset Vapnik, 1995℄.

+

−

+

−

+

−

+

−

+

−

+

−

+

Fig.1.6Exempled'unproblèmede lassementàdeux lasseslinéairementséparable.

Danslapratique,l'hypothèsedeséparabilitélinéairen'étantengénéralpasvériée,

une proje tion des éléments dans un espa e de dimension plus grande permet de les

séparerlinéairement plusfa ilement.Cettetransformation sefaitàl'aidede fon tions,

appelées fon tions noyaux, qui sous ertaines onditions, permettent le hangement

d'espa esans onnaître expli itement la transformation à appliquer.Ces méthodes de

plus en plus utilisées ont des fondements théoriques solides et donnent de très bons

résultatssurles do umentstextuels[Abe,2010,Burges, 1998,Joa hims, 1998℄.

1.1.3.3 Évaluation

Le résultatd'un lassement s'évalueen al ulant letauxdedo uments bien lassés

oul'exa titude surl'é hantillon de test omposéde do umentspour lesquelsles labels

(23)

atégorisation binaireetmulti lasse,undo umentest orre tement lassésil'étiquette

préditeparle lassieur orrespondaulabeldudo ument.Dansle ontextemultilabel,

undo umentestbien lassésietseulement sitouteslesétiquettesontété orre tement

ae téespar lepro essusde lassement.Le ritèred'exa titude(

C

exact

)estalorsdéni par :

C

exact

=

|{d

i

∈ D

T

|L(d

i

) = ˆ

L(d

i

)

}|

|D

T

|

(1.7)

Pour évaluer les atégorisations binaire et multi lasse, le taux de bien lassés est

généralement le seul ritère utilisé.Dans le ontexte multilabel, il apparaît lairement

que e ritère esttrès ontraignant etne permet pasde prendre en ompte les

orres-pondan es partielles où seulement une partie des étiquettes est orre te. Deux autres

ritères basés sur la F-mesure [Yang et Liu, 1999℄, une mesure qui orrespond à la

moyenne harmonique de lapré ision (

P

) etdu rappel (

R

), sont alors onsidérés pour évaluerlesrésultatsd'un lassement.Ces ritères orrespondentàlamoyenne mi roet

ma ro de laF-mesure.

F

_{− mesure =}

2P R

P + R

(1.8)

Ilspeuventêtredénisàpartird'unetablede ontingen etellequelatable1.2dans

laquelle

c

¯

k

orrespondaux atégoriesde

C

quinesontpas

c

k

(

c

k

=

C \{c

k

}

).Cettetable est onstruite à partirdel'é hantillonde test

D

T

où

tp

k

(les vraispositifs,del'anglais true positive) orrespond aunombre de do umentsqui appartiennent à la atégorie

c

k

et qui ont été orre tement lassés,

tn

k

(les vrais négatifs, de l'anglais true negative) représente le nombre de do uments qui n'appartiennent pas à la atégorie

c

k

et qui ont été orre tement lassés omme n'appartenant pasà ette atégorie,

f p

k

(les faux positifs,del'anglais falsepositive) estlenombre dedo uments n'appartenant pasàla

atégorie

c

k

etquiont étéin orre tement lassés ommeappartenant àla atégorie

c

k

,

f n

k

(les fauxnégatifs,de l'anglaisfalsenegative) orrespond aunombrededo uments qui appartiennent à la atégorie

c

k

maisquin'ont pasété orre tement lassés.

Tab.1.2 Table de ontingen e déniepour la atégorie

c

k

. Classesà prédire

c

k

c

¯

k

Classesprédites

c

k

tp

k

f p

k

¯

c

k

f n

k

tn

k

tp

k

=

|{d

i

∈ D

T

|c

k

∈ L(d

i

), c

k

∈ ˆ

L(d

i

)

}|

f p

k

=

|{d

i

∈ D

T

|c

k

∈ L(d

/

i

), c

k

∈ ˆ

L(d

i

)

}|

f n

k

=

|{d

i

∈ D

T

|c

k

∈ L(d

i

), c

k

∈ ˆ

/

L(d

i

)

}|

tn

k

=

|{d

i

∈ D

T

|c

k

∈ L(d

/

i

), c

k

∈ ˆ

/

L(d

i

)

}|

Les moyennes mi ro de la pré ision, du rappel etde la F-mesure sont ensuite

(24)

P =

P

|C|

k=1

tp

k

P

|C|

k=1

(tp

k

+ f p

k

)

R =

P

|C|

k=1

tp

k

P

|C|

k=1

(tp

k

+ f n

k

)

(1.9)

La moyenne mi ro delaF-mesureest ensuite al ulée par :

C

micro

=

2P R

P + R

(1.10)

Les moyennes ma ro de la pré ision, du rappel et de la F-mesure sont al ulées

en faisant lamoyenne des s ores al ulés pour haque atégorie. Lespré ision (

P

k

) et rappel(

R

k

) sont dénis pour la atégorie

c

k

par :

P

k

=

tp

k

tp

k

+ f p

k

R

k

=

tp

k

tp

k

+ f n

k

(1.11)

La moyenne ma ro de laF-mesureest obtenue par:

C

macro

=

1 |C|

|C|

X

k=1

2P

k

R

k

P

k

+ R

k

(1.12)

Contrairement à lamoyenne mi ro de laF-mesure, la moyenne ma ro favorise les

atégories qui sont rares, 'est-à-dire les atégories pour lesquelles il ya peu de

do u-ments qui appartiennent à ette atégorie. Les trois ritères

C

exact

,

C

micro

et

C

macro

sontutilisés pour évaluerles performan es d'un lassement multilabel alors queseulle

ritère

C

exact

qui orrespond au taux de bien lassés est généralement utilisé pour un lassement binaireou multi lasse.

1.1.4 Importan e de la représentation

Lestâ hes onsidéréesdans ettethèseainsiquelesméthodesd'évaluationasso iées

ont été présentées sans tenir ompte de la représentation des do uments. Cependant,

pour se onvain re de l'importan e de la représentation de l'information, il sut de

penser au problème qui onsiste à re her her dans un di tionnaire la dénition d'un

mot dont l'orthographe est onnue. Si e problème est fa ile à résoudre, le problème

inversequi onsisteàre her herlesmotsdudi tionnaire orrespondantàunedénition

donnée,estbeau oupplusdi ile.Lorsdelare her he d'unmotdansundi tionnaire,

il estévident quele fait queles mots soient indexésdans l'ordre alphabétique rendla

re her he rapide etfa ile. Enrevan he, pour lare her he inverse,l'ordre alphabétique

des mots n'est plus d'au une utilité. Ce simple exemple montre que la représentation

del'information estessentiellepourpouvoira éderfa ilementete a ementà

l'infor-mationutile.Danslasuite,lesdo umentsmultimédias onsidéréssont omposésd'une

partie texte,d'uneimage ou desdeux.Lesdiérentes représentations pour ha unede

esmodalités,ainsiquelesméthodesquipermettentdelesfusionnerserontprésentées.

1.2 Représentation des données textuelles

Lesdo umentstextuelssontl'undessupportslesplusutiliséspour ommuniquerou

transmettredel'information.Dulivreaudo umentXMLenpassantparletélégramme

(25)

les représenter en onsidérant toute l'information sur la stru ture du texte ou en ne

onsidérant que le ontenu textuel. Plusieurs modèles ont été employés en re her he

d'informationetl'utilisationd'unindexpour représenterlesdo umentsestlaméthode

laplus ourante.

1.2.1 Qu'est- e qu'un do ument texte?

Du simple texte, ditplat, lorsqu'iln'animiseen page niformatage parti ulier, au

textestru turé ave l'utilisation debalises ommedansle formatXML, la

représenta-tiond'undo ument textuel esttrès importante ande onserver le plusd'information

utile pourretrouverles do umentstouten étant leplus on is possible.

1.2.1.1 Du do ument stru turé au texte plat

Quelle que soit le do ument textuel onsidéré, il peut être représenté selon

dié-rents points de vue [Fourel, 1998℄, omme illustré par la gure 1.7 [Fuhr, 2003℄. La

vue de ontenu, ou sémantique, ara térise l'information textuelle. Elle orrespond à

l'information la plus souvent re her hée par un utilisateur. C'est e qui représente le

fond du do ument. La vuelogique on erne l'organisationdu do ument généralement

sous la forme d'une arbores en e et peut s'utiliser pour la mise en forme, l'é riture

en gras ou en italique, mais également pour les métadonnées asso iées au do ument.

Pour unouvrage, elapeut orrespondreau nomde l'auteur,à ladatede parution,au

titreet auxdé oupages en hapitres, paragraphes. Les informationsasso iéesà lavue

logiquepermettent d'ee tuer desre her hesbeau ouppluspré ises,maisne sontpas

systématiquement existantes. La vuede présentation on erne lesinformations liées à

la mise en page de l'information textuelle et au dé oupage du texte ave la position

desentêtes,l'alignement desparagraphes, et .Ces informationspeuvent, parexemple,

aider àidentier lastru turelogique.

(26)

e dernier re her he une information parti ulière, il formule sa requête et attend une

réponserapide dusystème de re her he d'information. Des hoix on ernant les

dié-rentesinformationsdesdo umentsà onserversontdon àfaireandepouvoirrépondre

auxdiérentsbesoinsdesutilisateursdansdestemps raisonnables. Deplusen plus,la

stru ture des do uments est utilisée, notamment ave le développement des formats

ommeXML,pouraméliorer lesrésultats d'unere her he en ne retournant à

l'utilisa-teur qu'une sous partie du do ument original [Géry et al., 2009, Lalmas, 2009℄ ou en

exploitant lesliensentreles do uments [Verbyst etMulhem,2009℄.

Lesdo umentstextuels onsidérés danslasuitesont lesdo umentsqui ontiennent

uniquement du texte plat. Quand le texte est formaté ou stru turé, les informations

asso iées ommelamiseenformeoulesmétadonnéessontsimplementsuppriméespour

ne onsidérerque dutexteplat.

1.2.1.2 Spé i ité des do uments texte

Siundo umenttextuelparti ulierestgénéralementmonolingue,ilsepeutquepour

deux do uments issus d'une même olle tion, les langues utilisées soient diérentes.

Ce problème de olle tion multilingue peutse résoudre en utilisant une appro he par

di tionnaire qui onsiste à traduire tous les do uments dans une même langue avant

l'indexation. La requête fournie par l'utilisateur devra également être traduite avant

d'ee tuer la re her he [Hull et Grefenstette, 1996℄. Les spé i ités des langues sont

également àprendreen ompte.Lesidéogrammesde lalangue hinoisenepeuventpas

être manipulés omme les mots issus de langues indo-européennes. Dans la suite, la

langue anglaise sera prin ipalement utilisée. Pour représenter l'information textuelle,

plusieurs problèmes liés à la langue sont à onsidérer. Le problème de la polysémie

orrespond aufaitque plusieursdénitions peuvent orrespondrepourun même mot;

'estle asparexempledumotblan quipeutdésigner,une ouleur,unvin,uneespa e

typographique, et . Ceproblème est pro he de elui de l'homonymie pour lequel deux

mots peuvent s'é rire (homographe) ou se pronon er (homophone)de lamême façon,

maisavoirdessensdiérents;lemotest peutdésigneràlafoisleverbeêtre onjuguéà

latroisièmepersonnedusingulierdel'indi atifprésentetladire tionopposéeàl'Ouest.

Cesdeuxproblèmessontpro hesmaisnéanmoinsdistin ts.Contrairementauproblème

depolysémie,deuxmotshomonymespossèdentdeuxentréesdansundi tionnaire.Enn

le problème de la synonymie on erne deux mots distin ts qui ont le même sens; les

mots souvent etfréquemment sont onsidérés omme synonymes.

1.2.1.3 Représentation des do umentstexte

Les diérentes informations qu'il est possible d'extraire d'untexte plat dépendent

del'analyse envisagée ommelemontrela gure1.8.

Laplussimpledesanalysesestl'analyselexi alequi onsisteàdé ouperletexteen

unesuite demots.Ledé oupagesefaitgénéralementgrâ e aux ara tères de

pon tua-tionetauxespa es.Lesmots quiressortentde edé oupagepeuventalors êtreutilisés

séparément (sa de mots) [Lewis,1998℄, sousforme de séquen e (n-grammes) [Cavnar

etTrenkle, 1994℄ou regroupésen on epts [Vosset al.,1999℄.

L'analyse grammati ale asso ie à haque mot une étiquette orrespondant à sa

partie du dis ours (nom, adje tif, verbe,et .). En utilisant ette analyse plus ne que

(27)

Fig. 1.8 Lesdiérentes analyses possiblesd'untexteplat.

Enn, l'analyse sémantique s'atta he à omprendre le sens des phrases pour

om-prendre le texte. Des appro hes existent pour traiter des do uments stru turés ou

semi-stru turés, mais il n'existe au une méthode qui permette de faire ette analyse

e a ement enpartant detexte plat[Shahet al.,2002℄.

Danslasuite,l'a entseramissurlareprésentationensa demots.Cette

représen-tation nepermetpasdere onstituer letexteoriginal dudo ument puisquel'ordredes

mots dansledo ument est perdu. Bien que ette représentation sembletrès simpliste,

ellealargement faitsespreuves e quiexpliquequ'ellereste l'unedesplusutiliséepour

lareprésentation desdo uments textuels[Salton et al.,1975, Lewis, 1998℄.

1.2.2 Modèle de représentation par sa de mots

La représentation en sa de mots reposesur un ensemble

T =

{t

1 , . . . , t

j

, . . . , t

|T |

}

demots outermesformantlevo abulaireadaptépermettant dereprésenterle ontenu

d'undo ument.Cevo abulaire estgénéralement onstruit à partirdesmots qui

appa-raissent dansles do umentsde la olle tion

D

.Le nombre de mots

|T |

qui omposent e vo abulaire orrespondà sataille(ou dimension)etpeutêtretrès élevémême pour

unfaiblenombre dedo uments. Lareprésentation desdo umentsdansde trèsgrandes

dimensions entraîne des problèmes lorsqu'ilfaut al uler desdistan es entre les

do u-ments. En eet, lerapportentre ladistan e maximale etladistan e minimale en très

grande dimension tendvers un : et eet est onnu ommele éau ou la malédi tion

deladimension [IndyketMotwani,1998℄. Ilest alorsintéressant de her heràréduire

latailleduvo abulaire[Lewis,1992b,Sebastiani,2002℄.Pourunmot

t

j

duvo abulaire

T

et un do ument

d

i

de la olle tion

D

,

w

i,j

orrespond au poids du mot

t

j

dans le do ument

d

i

.

Il existe troisgrandes famillesde modèles prin ipalement issusdesétudes réalisées

en re her he d'information qui exploitent un tel sa de mots : les modèles booléens,

ve torielsetprobabilistes. Le modèlebooléen seratoutd'abordprésenté;il estleplus

simpleets'appuiesurlathéoriedesensembles.Lemodèleve toriel,basésurune

intui-tiongéométrique,sera ensuiteintroduit. Enn lemodèleprobabiliste quireposesurla

théoriedesprobabilitésseraexpliqué.Cesmodèlesserontprésentésdansun ontextede

(28)

orrespondan eutiliséepourjugerdelapertinen ed'undo ument

d

i

parrapportàune requête

q

k

.Ces modèles seront illustrésà l'aidede plusieurs arti lesextraitsde l'en y- lopédie Wikipedia (Australie, James Bond, Motus (jeu télévisé), Natation, Origami,

Para hute etRoller)enutilisant unvo abulairelimitéàquelquesmots(base,épreuve,

papillon, pliage,porteetsport).

1.2.2.1 Modèles booléens

Les modèles booléens se servent du vo abulaire

T

pour représenter les do uments sousformed'ensembles.Ave lemodèlestandard,lesdo umentssont ara térisésparla

présen eoul'absen e de haqueterme

t

j

dansleur ontenu. Enutilisant leformalisme de l'algèbre de Boole [Boole, 1854℄, un do ument

d

i

est représenté par un ve teur omportant autant de omposantesqu'il yadetermes dans

T

.Le poids

w

i,j

duterme

t

j

dansledo ument

d

i

vaut 1si leterme

t

j

apparaît dansledo ument

d

i

,0sinon.

Une requête peutse onstruire grâ eaux troisopérateurslogiques(et :

∧

,ou:

∨

, non:

¬

).Lelangagedesrequêtesesttrèsexpressifetpermetd'ee tuerdesre her hes très pré ises.

La mise en orrespondan e s'ee tue ensuiteà l'aide des opérations d'union,

d'in-terse tion etde diéren e entre les ensembles de résultatsasso iés à haque terme de

larequête. Unexemple de l'utilisation de emodèleestillustré par lagure1.9.

La table 1.3 représente un ensemble de termes et de do uments extraits

de Wikipedia où un élément (

d

i

,

t

j

) vaut 1 si le terme

t

j

apparaît dans le do ument

d

i

,et0 sinon.

Pour re her her un do ument, il sut de onsidérer les ve teurs asso iés

auxtermes de la requêteet d'ee teur le al ulen utilisant les propriétés de

l'algèbrede Boole.

Pourreprésenteruntermed'unerequête, ilfautregarder danslatable1.3la

olonnequi luiest asso iée.Le mot épreuve est ainsireprésentépar 1011000.

Pourlarequête:épreuve oupapillonousport,ilsutd'ee tuerl'opération

booléenneouentre lesve teurs représentatifsde épreuve, papillon etsport :

1011000

∨

0101001

∨

1101011 =1111011

Lesdo umentsquirépondentàlarequêtesontdon :Australie,JamesBond,

Motus, Natation, Para hute etRoller.

Pour larequête:épreuve etpapillon etsport :

1011000

∧

0101001

∧

1101011 =0001000

Le do ument qui orrespondà larequêteest don ledo ument Natation.

Fig.1.9 Exemple de l'utilisationd'un modèlebooléen.

Leprin ipalavantagede emodèleestqu'ilestsimpleà omprendreparl'utilisateur.

Ilesttrèse a edansle adrede olle tionsspé iquesoùdesspé ialistes onnaissent

les termes exa ts pour formuler les requêtes. Cette e a ité n'est malheureusement

(29)

Tab.1.3Matri edo ument-termeoùunélément(

d

i

,

t

j

)vaut1sileterme

t

j

apparaît dansledo ument

d

i

,et0sinon.

`

Do uments Termes

base épreuve papillon pliage porte sport

Australie 1 1 0 0 1 1 JamesBond 0 0 1 0 1 1 Motus 1 1 0 0 0 0 Natation 0 1 1 0 1 1 Origami 1 0 0 1 1 0 Para hute 1 0 0 1 1 1 Roller 0 0 1 0 0 1

desdo uments quirépondent partiellement à larequête. Enn, l'utilisation d'uns ore

binairede lapertinen e desdo uments nepermetpasde lesordonner.

Des extensions de ette appro he omme le modèle booléen étendu [Salton et al.,

1983℄ et les modèles basées sur la logique oue permettent de orriger ertains de

es in onvénients. Les deux prin ipaux représentants utilisant la logique oue sont le

modèleMMM(MixedMin andMax)etlemodeldePai e[Foxet Sharan,1986,Lee et

Fox,1988, Mer ieretBeigbeder, 2006℄.

1.2.2.2 Modèles ve toriels

Le modèle ve toriel se base sur une intuition géométrique et représente les

do u-ments sous forme de ve teurs dans l'espa e des termes du vo abulaire [Salton et al.,

1975℄. Le do ument

d

i

est alors dé rit par le ve teur

d

~

i

= (w

i,1

, . . . , w

i,j

, . . . , w

i,|T |

)

. Dans sa version la plus simple, le poids

w

i,j

orrespond au nombre d'o urren es du terme

t

j

dansledo ument

d

i

[Gar ia, 2006℄.

Une requête

q

k

est également représentée sous la forme d'un ve teur de la même façon qu'un do ument :

q

~

k

= (w

k,1

, . . . , w

k,j

, . . . , w

k,|T |

)

où lepoids

w

k,j

est égalà 1.

Pour al uler la pertinen e d'une requête ave un do ument, il faut hoisir une

mesuredesimilarité.La plusutiliséeestladistan edu osinus quiestdéniepour une

requête

q

k

etundo ument

d

i

par :

score(d

i

, q

k

) = cos α =

~

d

i

· ~

q

k

||~

d

i

|| || ~

q

k

||

(1.13)

où

d

~

i

· ~

q

k

représente leproduits alaireentre

d

~

i

et

q

~

k

etoù

||~

d

i

||

et

|| ~

q

k

||

représentent les normes des ve teurs

d

~

i

et

q

~

k

. D'autres mesures de similarité peuvent être utilisées ommeladistan edu

χ

2

ouladistan ede Kullba k-Leibler[RajmanetLebart,1998℄.

Une illustration du al ul de la distan e du osinus est donnée par la gure 1.10

en utilisant les valeursdelatable 1.4pour lesmots sport et papillon etlesdo uments

James Bond,Natation etRoller.

Cemodèlequiutiliseuneappro hebaséesurl'algèbrelinéaireorel'avantaged'être

simple.Iln'imposepasunepondérationbinairedestermes etpermetde retournerune

(30)

Tab. 1.4 Matri e do ument-terme où un élément (

d

i

,

t

j

) orrespond au nombre d'o urren es duterme

t

j

dansledo ument

d

i

.

`

Do uments Termes

base épreuve papillon pliage porte sport

Australie 7 1 0 0 1 20 James Bond 0 0 1 0 5 2 Motus 1 1 0 0 0 0 Natation 0 6 6 0 1 8 Origami 10 0 0 11 1 0 Para hute 1 0 0 1 1 4 Roller 0 0 1 0 0 4

Fig.1.10 Représentation de ladistan e osinus.

Pour re her her les do uments pertinents, il sut de al uler la distan e

osinusentrelarequêteet haquedo ument ommeillustrédanslagure1.10.

Pour larequête :épreuve papillon sport, lesrésultatsretournés dansl'ordre

deladistan e osinus dé roissante sont :

do uments distan e osinus

Natation 0,990 JamesBond 0,775 Roller 0,700 Australie 0,605 Para hute 0,577 Motus 0 Origami 0