HAL Id: tel-00630438
https://tel.archives-ouvertes.fr/tel-00630438v2
Submitted on 2 May 2012
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
application à la catégorisation et à la recherche
d’information multimédia
Christophe Moulin
To cite this version:
Laboratoire Hubert-Curien, UMRCNRS 5516
Modélisation de do uments ombinant
texte et image :
appli ation à la atégorisation et
à la re her he d'information multimédia
Thèseenvue del'obtention du diplmede
do teur de l'université de Saint-Étienne
mention Informatique
Christophe Moulin
Cettethèsea étésoutenue le22 juin2011
devant lejury onstitué de :
Annie Morin présidente
Patri k Gros rapporteur
Philippe Mulhem rapporteur
Matthieu Cord examinateur
Christine Largeron dire tri e
Christophe Du ottet odire teur
Cé ile Barat en adrante
La re onnaissan e silen ieuse nesert àpersonne (GladysBronwynStern);jetiens
don àremer iertous euxet ellesquid'unefaçonoud'uneautrem'ontaidéàréaliser
e travailde thèse.
Je souhaiteadressermespremiers remer iementsàmes quatreen adrants:
j'aime-raistoutd'abord remer iermadire tri e, ChristineLargeron,pour m'avoirproposé e
sujetde thèse ainsique ChristopheDu ottetpour l'avoir odirigée. Mer iégalement à
Cé ileBaratetMathiasGérypourm'avoir o-en adrépendant esquatreannées. T
ra-vaillerave quatrepersonnesn'apasététoujourssimple,mais ettethèsen'enaétéque
plus enri hissante tant au niveau s ientique qu'au niveau relationnel. Je les remer ie
don pour tout ela ainsiquepour m'avoir oert un adre detravail très agréable.
Je voudrais ensuiteremer ierles membresdu juryetplusparti ulièrement Patri k
GrosetPhilippeMuhlemquiont a eptéderapportermontravail ainsiquepourleurs
remarquesetleurs ommentairessurmonmanus rit.Mer iennàAnnieMorind'avoir
présidélejury etMathieuCord pour sonrle d'examinateur.
J'aimerais remer ier tous mes ollègues et les personnes du laboratoire qui ont
ontribué de près ou de loin au bon déroulement de e travail : Adriana, Amélie,
Anne-Laure, Aurélien, Baptiste, Catherine, Chahrazed, Claude, Colin, Dalila, David,
Élisa, Éri , Fabien, Fabri e,Florent, Florian, François, Fran k, Hazaël, Jean, Jeanine,
Jean-Christophe,Jean-Philippe,Julien,Léo,Mar ,Mattias,Nathalie,Patri ia,Patri k,
Pierre,Philippe, Ri hard, Sabri, Stéphanie,Tung et tous eux quej'oublie.
Et par e que j'ai peur de me faire taper, je n'oublie évidemment pas Émilie et
Laurent ave qui j'ai débuté et partagé un bureau où le travail et la bonne humeur
ohabitaient. Même si nousn'avons pasréussi à gagnerle gros lot, mer i à vousdeux
pour tous lesbonsmoments passésensemble.
J'aurais sûrement en ore d'autresquestions, ou d'autresra our is à tedemander,
mais mer i Frédéri pour tout : awk, bash, CJ, di, ema s, refox, GR, hexdump,
isket h, J, KK, lpr,
µ
T, NC, olds hool, Python,QT, RL,SQ, tubulo, unsort, Vi tor, WeChall,xk d,λ
,z at... Mer iégalement Thierrypout toustes onseils ettess ripts. Je remer ie également aragorn,frodon,gandalf, gimli, legolas, magohamoth, peregrin,samettiteuf sans quimes expérimentations tourneraient sûrement en ore.
Mer i enn à toutes les personnes queje n'ai pas nommé maisqui étaient làpour
mesoutenir toutes es années. Je penseà ma famille,mes parents, Maryline,Samuel,
d'attra tion; Anthony,Carole, Cé ile,David, Ni olas,Qi, Rémi,tous eux de laTour
pour les inés, lesquiz, les balades etles soirées;lespara hutistes de l'ASPL ave qui
j'espère m'envoyer en l'air en ore longtemps et par e qu'on est tellement bien entre
nous. Mer iBenoît d'avoirété ompréhensif etdem'avoir supportéjusqu'aubout.
3__ ..4
_4 1.
32:-y11
_1 3_
Introdu tion 3
1 Représentation de do uments multimédia 7
1.1 Positionnement duproblème . . . 7
1.1.1 Présentation deladémar he générale . . . 8
1.1.2 Re her he d'information . . . 9
1.1.3 Catégorisationde do uments . . . 13
1.1.4 Importan ede lareprésentation . . . 19
1.2 Représentation desdonnéestextuelles . . . 19
1.2.1 Qu'est- equ'un do ument texte? . . . 20
1.2.2 Modèle dereprésentation par sa demots . . . 22
1.2.3 Pondération tf.idf. . . 27
1.3 Représentation desimages . . . 30
1.3.1 Qu'est- equ'une image? . . . 31
1.3.2 Représentation lo aledesimages . . . 35
1.3.3 Représentation desimagesà l'aided'unsa de mots visuels . . . 38
1.4 Combinaison multimodale . . . 40
1.4.1 Fusionpré o e . . . 40
1.4.2 Fusiontardive. . . 41
1.5 Positionnement dutravail . . . 43
2 Représentation de l'information textuelle 45 2.1 Rédu tion duvo abulaire . . . 45
2.1.1 Diérentes appro hespourréduire levo abulaire . . . 46
2.1.2 Propositiond'unnouveau ritère de séle tion :CCDE . . . 48
2.1.3 Expérimentations . . . 50
2.2 Problèmede la atégorisation multilabel . . . 55
2.2.1 Transformationdes problèmes multilabels . . . 56
2.2.2 Méthodesde séle tion dunombre de atégories . . . 59
3 Représentation des images par sa s de mots visuels pondérés tf.idf 71
3.1 Présentation desdiérentsparamètres . . . 72
3.1.1 Création d'unvo abulairevisuel . . . 72
3.1.2 Pondération . . . 75
3.2 Modèle adaptéà la atégorisation d'images . . . 75
3.2.1 Présentation dela olle tion . . . 75
3.2.2 Modèleetproto ole expérimental . . . 76
3.2.3 Résultats . . . 76
3.3 Pondération
tf.idf
pour les images . . . 783.3.1 Pondérations . . . 78
3.3.2 Expérimentation . . . 80
3.4 Fusion dedes ripteurs visuels . . . 84
3.4.1 Présentation desdiérentes fusions . . . 84
3.4.2 Expérimentations . . . 85
4 Combinaison des informations textuelle et visuelle 89 4.1 Présentation dumodèle . . . 90
4.1.1 Ar hite ture globaledu système. . . 90
4.1.2 Modèlede représentation textuelleetvisuelle . . . 90
4.1.3 Combinaisonlinéaire . . . 91
4.1.4 Appli ation du systèmeàla olle tion ImageCLEF . . . 92
4.2 Appro he empiriqueglobale . . . 94
4.2.1 Mesuresd'évaluation . . . 95
4.2.2 Proto ole expérimental. . . 95
4.2.3 Résultats . . . 96
4.3 Étude avan ée del'utilisation du paramètre defusion
α
. . . 1004.3.1 Proto ole expérimental . . . 100
4.3.2 Résultats . . . 101
4.4 Appro he analytique . . . 102
4.4.1 Présentation del'analyse dis riminante . . . 103
4.4.2 Cas d'unproblèmeà deux lasses . . . 105
4.4.3 Proto ole expérimental. . . 106
4.4.4 Résultats . . . 107
Con lusion et perspe tives 111 Annexes 115 A Présentation des olle tions XML Mining 2008 et 2009 117 A.1 XML Mining2008 . . . 117
A.2 XML Mining2009 . . . 119
B Présentation des olle tions ImageCLEF 2008 et 2009 125 B.1 ImageCLEF 2008 . . . 125
B.2 ImageCLEF 2009 . . . 131
L'augmentation roissante des apa ités de produ tion,de sto kage etde diusion
desdo umentsmultimédiasrendl'a èsàl'informationutiledeplusenplusdi ile.Dès
lorsquelenombrededo umentsqui omposentune olle tiondépassela entaine,ilest
fastidieuxdere her hermanuellementundo umentparti ulierouunsous-ensemblede
ette olle tion. Lamise enpla e d'outils automatiques d'organisation et de re her he
dedo uments estdon indispensable.
Le développement des nouvelles te hnologies a également entraîné une
diversi a-tion de es do uments. Ces derniers peuvent omporter du texte, desimages, du son,
desvidéosouune ombinaisonde esdiérentséléments.An d'organiseretde
re her- heraumieux esdo uments,lesoutilsdoiventprendreen ompte ettediversité.Cette
thèse s'intéresse àlareprésentation de do umentsmultimédias permettant d'exploiter
les diérentes informations ontenues dansles do uments etplus parti ulièrement les
informationstextuelle etvisuelle.
Après avoir introduit le ontextegénéral dans lequel sesitue ette re her he, nous
détaillerons les problématiques auxquelles nous nous sommes intéressés. Enn, nous
présenterons les obje tifsetl'organisation de e mémoire.
Contexte du travail : a ès à l'information multimédia
Ave le développement des terminaux mobiles et embarqués, les utilisateurs sont
de plus en plus assistés par des outils qui tentent d'exploiter le maximum
d'informa-tiondisponiblepour répondreàleurs besoins. Unutilisateur quisouhaite par exemple
réaliserun a hat, peut sevoir proposer une liste de produits en fon tion de ses
préfé-ren es etdesonhistorique de ommandes.Ces systèmesde re ommandation sont très
présents sur les sites mar hands etexploitent tous les a hats ee tués par l'ensemble
des utilisateurs du système. Ave l'augmentation des plateformes de réseaux so iaux,
lesrelations entreles diérentsutilisateurssontégalement trèsutilisées pour onseiller
es derniers. Toutes es informations sont très hétérogènes et rendent di ile la mise
enpla edesystèmespermettant derépondreàtouslesbesoinsdetousles utilisateurs.
Dans la suite, nous nous intéresserons plus parti ulièrement aux situations où un
utilisateur a un besoin parti ulier d'information. Pour satisfaire e besoin, il dispose
utiliser des outils automatiques de atégorisation et de re her he d'information. Ces
outilspermettentd'organiserlesdo umentsdela olle tion ommel'illustrelagure1.
Dans ertains as, l'utilisateur peut exprimer son besoin sous la forme d'une requête
omposée de quelques mots ou d'une ou plusieurs images. Les systèmes de re her he
d'information (SRI) ont alors pour obje tif de fournir une liste triée de do uments
sensés répondreau besoin de l'utilisateur. Dans d'autres as, l'utilisateur ne peut pas
exprimersonbesoinparunerequêteetilpréférerare her herdansunsous-ensemblede
do umentsde la olle tion. Cesous-ensemble seraforméde quelquesdo umentsayant
parexempleunthème ommundanslesquelsl'utilisateur serasus eptibledetrouverla
réponseàsonbesoin.C'estla atégorisationdedo umentsqui,àl'aided'un lassieur,
regroupeles do umentssimilaires en atégories.
?
Fig.1Présentationdela atégorisationetdelare her hed'informationpourrépondre
au besoin d'unutilisateur.
Quel que soit le ontexte de travail, nous utiliserons une représentation des
do u-ments parsa demots. Sil'ordredesmots dansun do ument permetd'analyser etde
omprendre en détail son ontenu, il n'est pas for ément né essaire pour extraireson
sujetprin ipal.Eneet,quelquesmots lésprésentsdansledo umentsusentsouvent
àsaisir lesujetde edernier. Pour desdo uments textuels,l'appro he parsa de mots
orrespond à une représentation sous la forme d'un ensemble non ordonné des mots
extraits du texte. L'ensemble des mots possibles forme alors un vo abulaire de mots
textuels. Cette idée a ensuite été étendue à la représentation des images.
Contraire-mentauxdo umentstextuelsoùlevo abulairepeutêtre onstruitdire tement àpartir
desmots présentsdansles do uments, l'appro he par sa de mots pour les images
Problématiques
La représentation des do uments en sa s de mots né essite la réation d'un
vo a-bulaire spé ique pour haque modalité, texte et image. En fon tion de la modalité
onsidérée etdu ontextede travail,desproblèmes seposent sur:
la rédu tionde latailledu vo abulaire;
l'extra tion etlapondération desmots visuels;
la ombinaisondesinformations textuelle etvisuelle;
la séle tion des atégories à asso ier àun do ument.
Le vo abulaire textuel se onstruit le plus simplement en utilisant les mots
appa-raissant danslesdo umentsdela olle tion. Cependant,même pourunnombreréduit
de do uments, le vo abulaire ainsi obtenu peut être de très grande taille.
Prin ipale-ment pour des raisons d'e a ité, mais aussi de performan e des algorithmes, il est
intéressant de réduire la taille de e vo abulaire. Dans un ontexte de atégorisation,
nousnoussommes demandés ommentréduire e a ement lataille duvo abulaire en
fon tion deladistribution desmotsqui apparaissent dansdesdo uments appartenant
auxmêmes atégories.
Àladiéren eduvo abulairetextuel,lesmotsvisuelsnesontpasaussibiendénis.
Trois étapes prin ipales peuvent être distinguées pour réer un vo abulaire visuel :
la déte tion de points d'intérêt, la des ription de ara téristiques lo ales autour de
es points d'intérêt et leur quanti ation. Nous avons étudié les diérents problèmes
liés à la réation d'un vo abulaire visuel : omment déte ter e a ement les points
d'intérêtsdanslesimages?Quelles ara téristiquessontà al ulerpourextraireleplus
d'informationutilepossible?Comment réerlesmotsvisuelsàpartirde esdes riptions
lo ales?Combiendemotsfaut-il hoisirpour dé rirelesimages?Commentutiliser es
mots pour représenter lesimages?
Les vo abulaires ainsi réés pour haque modalité permettent de représenter les
do uments de la olle tion. Cette représentation est ensuite utilisée pour lasser les
do umentsen atégories ou pour les ordonneren fon tion deleur pertinen epour une
requêteposéepar un utilisateur.
Nous nous sommes demandés omment ombiner les modalités textuelles et
vi-suelles,dansune tâ hede re her he d'informationmultimédia. Dans e ontexte,
l'uti-lisateur exprime son besoin sous la forme d'une requête omposée de quelques mots
textuelsou d'uneou quelquesimages. Lapremièreappro hequenousavonsenvisagée,
onsisteàn'utiliserqu'uneseulepartie,textuelleouvisuelle,delarequête.Notrebuta
ensuiteétédedévelopperunese ondeappro heexploitantlesmodalités onjointement.
Pour ela, nous avons onsidéré un système de re her he d'information qui ombine
linéairement lesrésultatsobtenuspar lesystèmepour haquemodalité.Plusieurs
ques-tions peuvent alors se poser : est-il possible d'améliorer les résultats en exploitant les
diérentes informations? Combien de modalités pouvons-nous ombiner? Quel poids
doitêtre a ordéà haquetype d'information (textuelleetvisuelle)?
Enn dans le ontexte le plus simple de la atégorisation de do uments, les
do u-ments nesont asso iés qu'à une seule atégorie. Pour réaliser ette atégorisation, des
algorithmes issus du domaine de l'apprentissage automatique sont utilisés pour
géné-rer un lassieur qui pour un nouveau do ument à lasser, retourne la atégorie qui
est la plus probable. S'il existe plusieurs atégories, nous parlerons de atégorisation
tons exploiterles résultats desalgorithmes de atégorisation multi lasse :le problème
estalorsdeséle tionnerlenombrede atégoriesà onserverpourunnouveaudo ument
en fon tion delapertinen edes atégories retournéespar le lassieur.
Obje tifs
Le prin ipal obje tif de notre travail est de proposer un modèle pour représenter
les do uments multimédias. Ce modèle doit pouvoir être utilisé pour des do uments
qui omportent une ou plusieurs images, du texteou les deux. Il doit être en mesure
d'exploiter touteslesinformations textuellesetvisuellesdisponiblesetdeles ombiner
pour améliorer les résultats dansdes ontextes de atégorisation de do uments et de
re her he d'information.
An de valider e modèle, nosre her hes ont été évaluées surdes olle tions
las-siques, maiségalement en parti ipant à des ompétitions internationales omme
Ima-geCLEF et INEX XMLMining [Moulin et al., 2008, Moulin et al., 2009, Géry et al.,
2009,Largeron et al.,2010℄.
Organisation du mémoire
Le premier hapitre, onsa réà l'étatde l'art, introduit toutd'abord lestâ hes de
atégorisationetdere her hed'informationainsiquelesmesuresd'évaluationasso iées.
Les appro hes permettant de représenter etde fusionner les informations textuelle et
visuellesont ensuite présentées.
Le deuxième hapitre porte sur la représentation des do uments textuels. Dans le
ontextedela atégorisation,nousintroduisonsunnouveau ritèremettantenavantles
mots lesplusreprésentatifsdes atégories danslebutde réduirelevo abulaire textuel
[Largeron et al., 2011℄. Nous proposons également une nouvelle méthode de séle tion
du nombre de atégories à asso ier auxdo uments dans le adre multilabel [Largeron
etMoulin,2010℄.
Le troisième hapitre s'intéresse à la représentation des imageset s'inspire des
ap-pro hes lassiquement utilisées ave des données textuelles. Les images sont ainsi
re-présentéesàl'aided'unmodèlebasésurlessa s demots visuels.Lesdiérentesétapes
de réation du vo abulaire visuel sont analysées et une étude sur la pondération des
mots visuelsainsique surlafusion de diérentsdes ripteurs est réalisée dansle adre
de la atégorisation d'images [Moulinet al.,2010a℄.
Lequatrième hapitre sepla edansle ontextedelare her hed'information
multi-médiaetétudiel'apportdel'informationvisuelleen ombinantlinéairementlesrésultats
obtenus séparément sur haquemodalité.Diérentesappro hes onsistant àapprendre
lesparamètres de ombinaisonontété onsidérées, soiten ee tuantune re her he
ex-haustive de la valeur optimale des paramètres de ombinaison, soit en le al ulant de
Représentation de do uments multimédia
Ave ledéveloppement desnouvelleste hnologies etdel'internet,lare her he s'est
intéressée au problème de l'a ès à l'information. L'information étudiée dans la suite
orrespond à des do uments multimédias sus eptibles de ontenir du texte et des
images.Ce hapitre est onsa réàl'étatdel'artdelareprésentation de esdo uments
multimédias.
Le problèmedere her he dedo umentsdansune olle tionainsiquelesappro hes
adoptés pour résoudre e problème seront tout d'abord introduits. Les modèles
las-siques utilisés pour représenter les données textuelles, puis les images seront ensuite
présentés. Enn, les diérentes possibilités permettant de fusionner es deux types
d'informationmultimédia seront étudiées.
1.1 Positionnement du problème
Deux appro hes prin ipales peuvent être utilisées pour répondre au problème de
la re her he de do uments dans une olle tion : la atégorisation de do uments et la
re her he d'information. La première onsiste à réduire le problème de la taille de la
olle tion en lassant en sous- atégories les do uments similaires pour n'avoir à
her- her que dans un sous-ensemble restreint de do uments plutt que dans la olle tion
omplète[Sebastiani,2002℄.Cetteappro heestparexempleexploitéeparlesannuaires
oulesportailsdel'internet quiproposent unelistedesites lasséshiérar hiquement en
diérentes atégories [Dumais etChen, 2000, Adami et al., 2003℄. Les plus onnus de
esportailssont Googledire tory 1
,Yahoodire tory 2
etOpen dire toryproje t 3
.
La se onde appro he, la re her he d'information, onsiste à her her une liste de
do uments pertinents pour une requête donnée dans l'ensemble des do uments de la
olle tion préalablement indexés [van Rijsbergen, 1979, Manning et al., 2008℄.
L'in-dexationestunephasequi onsisteàasso ierdestermesàdesdo uments; elapermet
en formulant une requête omposée de termesde l'index, de retrouver plus fa ilement
lesdo uments. Pour lesdo umentstextuels,l'indexation exploite dire tement lesmots
extraitsdesdo uments. Pour lesimages, ette indexation n'est pasimmédiate etpeut
1
http://www.google. om/dirhp 2
s'ee tuerpar exempleàl'aidedemots lésasso iésauximages[Barnardet al.,2003℄.
Cepro édéd'annotationpeutêtre ee tuémanuellement ouen utilisant desméthodes
de atégorisation [Hanbury, 2008℄. Cette appro he visant à re her her des do uments
indexésest utiliséepar les moteursde re her he omme Google 1 ,Yahoo 2 ,Exalead 3 .
La démar he générale sous-ja ente à es deux tâ hes est tout d'abord introduite
puis est suivie d'une présentation détaillée de la re her he d'information et de la
a-tégorisation. Un dernier paragraphe revient sur l'importan e de la représentation des
do uments.
1.1.1 Présentation de la démar he générale
Quelle que soit la tâ he onsidérée (re her he d'information ou atégorisation de
do uments),ladémar hegénéraleestlamême:dansunpremiertemps,lesdo uments
sont dé rits à l'aide d'un modèle de représentation qui permet ainsi de les manipuler
plusfa ilement.Ensuite, desoutilsde omparaison baséssurdesmesures desimilarité
sont utilisés pour mettre en orrespondan e les do uments. Enn, la pertinen e des
résultatsissusde diérentes méthodesestévaluée àl'aide deplusieurs ritères.
Pour lare her he d'informationetla atégorisation de do uments,l'évaluationdes
résultats se base sur deux prin ipaux ritères qui sont la pré ision (P) et le rappel
(R). La pré ision mesure la proportion des do uments pertinents retrouvés parmi les
do umentsretournésalorsquelerappelmesurelaproportionde do umentspertinents
retrouvés parmi les do uments à retrouver. La gure 1.1 illustre graphiquement es
deux ritères.
Fig. 1.1 Illustrationdes ritères de pré ision et de rappel.
Defaçongénérale,ilfautdon proposerdessystèmesquiretournentleplusde
résul-tatspertinents, 'est-à-direayantunrappelélevé,toutenlimitantlenombred'erreurs,
autrement ditayant une pré isionélevée.
1
http://www.google. om 2
Un ensemblede do uments
D = {d
1
, . . . , d
i
, . . . , d
|D|
}
,est appelé olle tionou or-pus. Le nombre de do uments de la olle tion ou sa taille orrespond au ardinal del'ensemble
D
etseranoté|D|
.Lesdo uments onsidérésdanslasuitepeuventêtre om-posésd'imagesoudetexte.Quandlanaturedudo umentporteà onfusion,l'exposantT
serautilisépourreprésenterl'informationtextuelleetl'exposantV
pourl'information visuelle.1.1.2 Re her he d'information
Pour re her her des do uments dans une olle tion donnée, un utilisateur peut
exprimer sous forme de requêtes ses besoins. Pour un ensemble de requêtes
Q =
{q
1
, . . . , q
k
, . . . , q
|Q|
}
fournies par un ou plusieurs utilisateurs , le but d'un système dere her he d'informationestde retournerpour haque requêteq
k
,une listede do u-mentsdeD
triéepar pertinen e. Unerequêtepeut orrespondreàdutexte,desimages ouune ombinaisondesdeux.Lapartietextuelled'unerequêteestgénéralementforméede quelquesmots[O'Keefe etTrotman, 2003,Kampset al.,2005℄.
1.1.2.1 Prin ipes de la re her he d'information
Lessystèmesdere her hed'informationontétéintroduitsenbibliothé onomiean
d'améliorer les te hniques de gestion et d'organisation des bibliothèques [Cleverdon,
1991℄. Pour trouver une page parti ulière dans un livre, l'utilisation d'un index est
indispensable. Cette idée a été étendue dans les bibliothèques en utilisant un index
permettant deretrouverles livresplusfa ilement.
L'utilisation des ordinateurs et de l'informatique en général a permis la mise en
pla e d'outils fa ilitant le traitement de l'information et la réation automatique des
index.Lare her hed'informationestdevenuundomainetrèsa tif esdernièresannées;
L'arrivée de l'internet a né essité lamiseen pla e d'outils beau oup plusperformants
pour traiterdesquantitéstrès importantes d'information[Kobayashi etTakeda,2000℄.
Un système de re her he d'information possède deux parties prin ipales illustrées
parlagure1.2.La première on ernel'indexation desdo umentsalorsquelase onde
orrespond àlare her he elle-même.
1.1.2.2 Indexation
L'indexationapourbutdebienreprésenterlesdo umentsdela olle tionan
d'a - éderrapidement ete a ement àleur ontenu.Lire tousleslivresd'unebibliothèque
permet de trouver eux qui ontiennent une information parti ulière.Mais ette
solu-tion n'est pas viable et il est né essaire d'utiliser une indexation pour retrouver plus
simplement les livresintéressants pour la re her he envisagée. Une indexation simple,
maisnéanmoins e a e, est l'utilisation d'unindex inversé. À haque termeest
asso- iée laliste desdo uments qui ontiennent e terme à l'image d'unindex présent à la
nd'unlivre quiasso ieà haquemot léles pages orrespondantes.Pour untermeet
undo umentdonnés,desinformations omplémentairespeuvent êtreajoutéesselonles
?
Fig. 1.2Représentation d'unsystème dere her he d'information.
1.1.2.3 Re her he
La re her he orrespond à la phase du système qui produit une liste ordonnée de
do uments sus eptibles de répondre à une requête posée par un utilisateur. À partir
d'une requête
q
k
, un s ore est attribué à haque do umentd
i
de la olle tion, notéscore(d
i
, q
k
)
. Il évalue la pertinen e entre la représentation du do umentd
i
et elle de la requêteq
k
grâ e à une fon tion de mise en orrespondan e. Il est ensuite utilisé pour trier l'ensemble des do uments deD
par pertinen e. Cela orrespond alors à la pertinen esystème.Dans le but d'obtenir de meilleurs résultats, le système peut modier la requête
initialefournie parl'utilisateur.Deux appro hesprin ipalespeuventêtre utilisées,soit
globalement en modiant larequête de l'utilisateur avant d'ee tuer une nouvelle
re- her he, soit lo alement en demandant à l'utilisateur d'évaluer les résultats retournés
par lesystèmeà partirde larequêteinitiale.
L'appro he globale in lut l'extension de larequête fournie par l'utilisateur en
uti-lisant un thésaurus ou en la orrigeant. Le re ours à un thésaurus est très pratiqué
quand les appli ations sont limitées à un domaine très spé ique ommele thésaurus
médi al MeSH (Medi al Subje t Headings) 1
. Dans un ontexte général, le thésaurus
le plus utilisé en langue anglaise est Wordnet 2
, un thésaurus onstruit manuellement
[Miller et al., 1990℄. D'autres appro hes onstruisent automatiquement le thésaurus à
partirdesdo umentsdela olle tion[S hütze,1998℄.Larequêteinitialepeutégalement
ontenirdeserreursqu'ilestpossiblede orrigeren her hant lesmots lespluspro hes
1
en terme de distan e d'édition ou de voisinage du mot [Kuki h, 1992℄. La distan e
d'édition entre deux mots orrespond au nombre minimal d'insertion, de suppression
ou de substitution qu'il faut ee tuer pour passer d'un mot à l'autre tandis que le
voisinage des mots est généralement déterminé grâ e aux n-grammes. Ces te hniques
sont largement utilisées par les moteurs de re her he. Par exemple, en her hant ur
bleue, le moteur de re her he Google orrige larequête et retourne les résultats pour
la requête eur bleue. Il propose également d'étendre ette requête en her hant être
eur bleue, eur bleue des alpes ou eur bleue paroles, eur bleue étant une hanson
deCharles Trenet.
Contrairement àl'appro heglobale, l'appro he lo aletraitedansunpremiertemps
larequête initiale proposée par l'utilisateur et lui demande ensuite d'évaluer la
perti-nen e d'un ertain nombre de do uments retournés. Cela orrespond alors à la
perti-nen e utilisateur. Le jugement de pertinen e qu'il porte sur es premiers do uments
estensuite utilisé pour modier larequête en her hant à distinguer les mots quisont
présentsdanslesdo umentspertinents.L'algorithmeRo hioestleplus onnupour
ex-ploiter eretourdepertinen eutilisateuretmodierlarequêteen onséquen e[Salton
etBu kley,1990,Joa hims, 1997,Mos hitti,2003℄.
1.1.2.4 Évaluation
L'évaluation d'un système de re her he d'information s'ee tue généralement sur
une olle tiontest à l'aided'unensemble derequêtes
Q
pour lesquellesles do uments pertinents sont onnus pour haque requête. Pour une requêteq
k
, le sous-ensembleD
k
=
{d
k,1
, . . . , d
k,i
, . . . , d
k,|D
k
|
}
deD
orrespond à l'ensemble desdo uments quisont pertinentspour etterequête.Lerésultatretournépar unsystèmedere her hed'infor-mationpourlarequête
q
k
estunelisteL
k
ordonnéededo uments onsidéréspertinents et triés grâ e au s ore obtenu par la fon tion de mise en orrespondan e. Pour lare-quête
q
k
,|L
k
|
notéégalementN
k
, orrespondaunombrededo umentsdeL
k
.Lerangr
orrespondaur
e
do umentretrouvéparlesystèmeparmiles
N
k
do uments;r
estdon omprisentre1
etN
k
.Ilexiste plusieurs ritères quipermettent d'évaluerles systèmes de re her he d'information [Kamps et al., 2008, Manning et al., 2008℄, les prin ipauxités pré édemment étant la pré ision et le rappel, et des extensions de es derniers
ommelapré ision moyenne etlapré ision interpolée.
Pré ision et rappel
La pré ision
P
k
(N )
orrespond àla proportion de do umentspertinents retrouvés pourlarequêteq
k
parmilesN
premiersdo umentsdeL
k
.LerappelR
k
(N )
orrespond au rapportentreles do uments pertinents pour larequêteq
k
gurant danslesN
pre-miersdo umentsetlenombrededo umentspertinentsàretrouverpour etterequête.P
k
(N )
etR
k
(N )
s'obtiennent par :P
k
(N ) =
P
N
r=1
rel
k
(r)
N
R
k
(N ) =
P
N
r=1
rel
k
(r)
|D
k
|
(1.1)d'unsystème,il onvient fréquemment de al uler la ourbede pré ision-rappel. Cette
ourbe s'obtient enpar ourantlaliste desdo umentsretournés parlesystèmeduplus
pertinentau moinspertinent eten al ulant pour haque ranglapré ision etlerappel
orrespondant aux oordonnées du point à pla er sur la ourbe. L'allure générale de
ette ourbe estprésentéepar lagure1.3.
Fig. 1.3 Alluregénéraled'une ourbe pré ision-rappel.
Pré ision moyenne
Une première extension de es ritères orrespondant à lapré ision moyenne
AP
k
estégalement utiliséepour évaluerlesperforman esd'unsystèmedere her hed'infor-mation. Elle se al ulepar :
AP
k
=
P
N
k
r=1
(P
k
(r).rel
k
(r))
|D
k
|
(1.2)
Les ritères de pré ision et de rappel sont al ulés sur un ensemble de do uments
retournéspar unsystème.Lorsque esystèmeretourne unelistetriéededo uments,le
ritère de pré ision moyenne peut être utilisé ar 'est un ritère global qui prend en
ompte l'ordre danslequelles do umentsont étéretrouvés.
Pré ision interpolée
La pré ision
iP
k
[x]
orrespond à la pré ision à un point de rappel donnéx
et se al ulepar :iP
k
[x] =
max
1≤r≤N
k
(P
k
(r)
|R
k
(r)
≥ x)
six
≤ R
k
(N
k
)
0
sinon (1.3)Évaluation pour un jeude requêtes
Pour évaluer globalement un systèmede re her he d'information les moyennes des
ritères de pré ision moyenne (
M AP
), de pré ision pour lesN
premiers do uments (P @N
) et de pré ision interpolée à un point de rappel donnéx
sont al ulées sur l'ensembledesrequêtesQ
par :M AP =
P
|Q|
k=1
AP
k
|Q|
P @N =
P
|Q|
k=1
P
k
(N )
|Q|
iP [x] =
P
|Q|
k=1
iP
k
[x]
|Q|
(1.4) 1.1.3 Catégorisation de do umentsLeproblèmedelare her hed'undo umentdansune olle tionpeutêtresimpliéen
utilisantdesméthodesde atégorisationdedo uments.La atégorisationdedo uments
fait appel à des méthodesissues du domaine de l'apprentissage automatique. Dans la
pratique,unalgorithmed'apprentissageexploitedesobservationsextraitesd'une
popu-lationparti ulière, appelé é hantillon d'apprentissage, pour produireun modèle. Dans
le adrede l'apprentissage non supervisé,ou lassi ation, l'obje tif est de onstituer
un modèle qui regroupe les observations semblables entre elles. La atégorisation de
do uments onsidérée danslasuite s'ins rit dans le adre del'apprentissage supervisé
ou lassement.L'obje tif est alors deproduire unmodèleégalement appelé lassieur,
noté
φ
,qui pour une nouvelle observation, orrespondant i i à unnouveau do ument, prédit uneétiquette quidoit orrespondreàla atégorie asso iéeau do ument,appelélabel. Le prin ipe général de la atégorisation estillustré par lagure 1.4.L'ensemble
des atégories ou lasses qui peuvent être asso iéesà un do ument est représentépar
C = {c
1
, . . . , c
k
, . . . , c
|C|
}
. Les diérentes atégorisations qui existent, à savoir les a-tégorisations binaire, multi lasse et multilabel, sont présentées avant d'introduire leslassieurs lassiques etles ritères qui permettent d'évaluer les résultats d'un
lasse-ment.
?
1.1.3.1 Catégorisations binaire, multi lasse et multilabel
La atégorisationdedo umentsfaitpartiedespremiersprin ipesd'organisation
uti-lisésà l'originedansles bibliothèques pour retrouver plusfa ilement lesouvrages. Dès
1627,leseptièmepointénon éparGabrielNaudésoulignel'importan edel'ordreetde
la dispositionque doiventgarder les livres dans une Bibliothèque : ar il n'ya pointde
doutequesansi elletoutenostrere her heseroitvaineetnostrelabeursansfrui t,puis
que les livres ne sontmis et réservez en et endroit que pouren tirer servi e aux
o a-sionsquiseprésentent.Ceque toutesfoisilest impossibledefaires'ilsnesontrangezet
disposezsuivantleursdiversesmatières,ouentelleautrefaçonqu'onlespuissetrouver
fa ilement et à point nommé. [Naudé,1627℄. Il existe diérentes lassi ations
biblio-graphiques, omme la lassi ation dé imale de Dewey 1
ou la lassi ation dé imale
universelle 2
qui répartissent les ouvrages en dix lasses, haque lasse étant dé oupée
en dix divisions elles-mêmes dé oupées en dix sous-divisions. Un ouvrage est ensuite
lassé en lui assignant une atégorie omposée d'au moins 3 hires orrespondant à
sa lasse, sadivision etsous-division. Pour un livre de uisine, la lasse asso iée est 6
(Te hniques),ladivisionest4(Viedomestique)etlasous-divisionest1(Alimentation).
D'autres hiresséparéspar unpointsontensuiteajoutéspour pré iserla atégoriedu
livre.Pour lelivrede uisine, la atégorie naleasso iée est641.5.
Pourretrouverfa ilement unlivredansunebibliothèque,les lassessontdéniesde
telle sorte qu'un livre ne puisse pasappartenir à plus d'une lasse. Ce i orrespond à
la atégorisation multi lasse. Dans d'autres ontextes, il peut arriver qu'un do ument
possèdent plusieurs labels e qui orrespondalors, àla atégorisation multilabel.
Dans lasuite, pour undo ument
d
i
,L(d
i
)
orrespondraà l'ensembledeslabelsqui lui sont asso iés etL(d
ˆ
i
)
l'ensemble des étiquettes qui ont été ae tées àd
i
par un lassieur. Les labels et les étiquettes orrespondent à des atégories ou lasses deC
, maisleslabelsreprésentent les lasses qui sontee tivement asso iéesà undo ument,alors que les étiquettes orrespondent aux lasses qui ont été ae tées à un do ument
parun lassieur.Lebutdela atégorisationestalorsd'obtenirpour haquedo ument
d
i
queL(d
i
)
soit égal àL(d
ˆ
i
)
.Quelle que soit la atégorisation onsidérée, le nombre de lassespossiblesesttoujourssupérieurouégalàdeux(|C| ≥ 2
).Eneet,quandune seule lassec
1
est onsidérée,l'ensembledes atégoriesC
possède deux lassesqui sont égales à la lassec
1
et à son omplémentairec
¯
1
. Lorsque l'ensemble des atégoriesC
est omposé de stri tement deux lasses (|C| = 2
) et que les do uments ne possèdent qu'un seul label(L(d
i
) = 1)
), il s'agit d'une atégorisation binaire. En revan he, si le nombrede lasses possibleseststri tement supérieurà deux(|C| > 2
) etle nombrede labelsasso iésauxdo umentsresteégalàun(L(d
i
) = 1)
),ils'agitd'une atégorisation multi lasse.Ennquelquesoitlenombrede lassespossibles(|C| ≥ 2
),la atégorisation multilabel onsidère desdo umentspourlesquelsplusieurs labelspeuventêtreasso iésauxdo uments(
L(d
i
)
≥ 1)
). Unrésuméde esdiérentes atégorisations possiblesest donné par latable 1.1.1.1.3.2 Algorithmes de atégorisation
Dans le ontextede la atégorisation supervisée,un é hantillonde base orrespond
àunensemblededo umentspourlesquelslareprésentation etlaoules lassesasso iées
à esdo umentssont onnues. Danslapratique, eté hantillondebaseestpartitionné
1
Tab.1.1 Catégorisations binaire, multi lasse etmultilabel.
Typesde atégorisation
|L(d
i
)
| = 1 |L(d
i
)
| ≥ 1
|C| = 2
binairemultilabel
|C| > 2
multi lasseendeux an de onstituer uné hantillon d'apprentissage
D
A
etuné hantillon de testD
T
.Lebutestalorsde onstruireun lassieuràl'aidedel'é hantillond'apprentissageD
A
.Ce lassieur permettra ensuitede prédire les lasses à ae ter à n'importe quel autre do ument. L'évaluation du lassieur ainsi onstruit se fait à l'aide del'é han-tillon de test
D
T
. Dans ertains as, l'évaluation peut aussi être faite en pratiquant une validation roisée (ou ross-validation); 'est-à-dire en partitionnant l'é hantillonde base en plusieurs é hantillons puisen itérant le pro essusd'apprentissage sur
l'en-sembledeséléments àl'ex eptionde euxgurant dansundesé hantillons quiservira
à l'évaluation. Cette validation est notamment utilisée lorsque la taille de la
olle -tion est limitée et permet alors de mieux estimer les taux de pré ision et de rappel
[Efron, 1983℄. Pour illustrer ettetâ he de atégorisation,les
k
pluspro hesvoisins,le lassieur naïfbayésien etles ma hines à ve teurs de support sont présentés dans unontexte de atégorisation binaireoumulti lasse.
k
plus pro hes voisinsLeprin ipe des
k
pluspro hesvoisins(oukppv) onsisteà lasserpourunnouveau do umentd
i
,laliste desk
do umentsde l'é hantillon d'apprentissage lesplus pro hes selon une distan e hoisie [Hinneburg et al., 2000℄. Le do umentd
i
est alors asso ié à la atégorie majoritairement représentée parmi esk
plus pro hesvoisins.?
à ae ter au do ument rond vert entre les atégories arré bleu ettriangle rouge. Sur
ette gure, en utilisant la distan e eu lidienne et les trois plus pro hes voisins, le
do ument rond vert est ae té à la atégorie triangle rouge. En revan he, si les inq
do uments les plus pro hes sont pris en ompte, la atégorie à asso ier au do ument
rond vert est arré bleu.
Dans saversion la plus simple, et algorithme ore l'avantage d'être simple à
ap-préhender et à implémenter. Il né essite ependant le hoix du nombre
k
de voisins à onsidéreretdelamétrique,généralementladistan eeu lidienne,àutiliserpoural u-lerladistan eentrelesdiérentséléments. Que esoiten atégorisation dedo uments
textuelsoud'images, etalgorithmeestrobuste etdonnedebonsrésultats[Hanetal.,
2001,SzummeretPi ard,1998℄. La omplexitéde l'algorithmedes
k
pluspro hes voi-sins esten revan he très élevée arpour haquenouveau do ument,les distan es avetouslesélémentsde l'é hantillon d'apprentissage doivent être al ulées.Des appro hes
pourréduire ette omplexitéont étéproposéesenutilisantpar exempledesstru tures
arbores entes pour représenter les éléments de l'é hantillon d'apprentissage [Bentley,
1975℄.
Appro he naïve bayésienne
L'appro he naïve bayésienne permet d'ee tuer un lassement probabiliste basé
sur le théorème de Bayes. Pour lasser un do ument
d
i
, il faut al uler pour haque lassec
k
, la probabilitéP (c
k
|d
i
)
d'appartenir à la lassec
k
sa hant la représentation du do umentd
i
.Cetteprobabilité peuts'obtenir par :P (c
k
|d
i
) =
P (d
i
|c
k
).P (c
k
)
P (d
i
)
(1.5)
où
P (c
k
)
est la probabilité qu'un do ument quel onque appartienne à la lassec
k
,P (d
i
)
est la probabilité asso iée au do umentd
i
etP (d
i
|c
k
)
est la probabilité d'avoir ledo umentd
i
sa hant quela lassec
k
est onsidérée.L'étiquette asso iée à
d
i
orrespond alors à la atégoriec
k
pour laquellela proba-bilitéP (c
k
|d
i
)
est la plus élevée. Étant donné queP (d
i
)
est onstante quelle que soit la lassec
k
,P (c
k
|d
i
)
peutêtreestimée par leproduitP (d
i
|c
k
).P (c
k
)
.En eet,l'ordre des probabilités pour les diérentes atégories n'est pas modiépar lasuppression dela onstante
P (d
i
)
.P (d
i
|c
k
).P (c
k
)
estensuite al uléenfaisantl'hypothèsequelesmotsqui omposent ledo umentd
i
apparaissent de façon indépendantedansledo ument :P (c
k
|d
i
) = P (c
k
)
Y
t
j
∈d
i
P (t
j
|c
k
)
(1.6)où
P (t
j
|c
k
)
estlaprobabilité onditionnelle d'apparition dutermet
j
dansla lassec
k
. C'est l'hypothèse del'apparition indépendantedestermesquiexpliquele ara tèrenaïfdelaméthode.Cettehypothèsen'est évidemmentpasvériéepour desdo uments
textuels, ar par exemple, après le mot apprentissage, la probabilité d'apparition du
mot automatique n'est pasla même que elle du mot eur. Bien que dans la plupart
des as, l'apparition indépendante des termes ne soit pas vériée, l'appro he naïve
bayésienne permet d'obtenir de très bons résultats que e soit pour des do uments
été proposées sans pour autant améliorer signi ativement les résultats [Domingos et
Pazzani, 1997℄.
Ma hines à ve teurs de support
Lesma hinesàve teursdesupportouséparateursàvastemarge(SVM)regroupent
unensembledeméthodesoriginellementdéniespourrésoudredesproblèmesde
lasse-mentàdeux lasses[Boseretal.,1992℄.Leprin ipedesma hinesàve teursdesupport,
illustrépar lagure 1.6, onsiste à séparerles éléments de ha unedes lasses par un
hyperplan de façon à maximiser la distan e minimale qui existe entre les éléments et
l'hyperplan. Cettedistan e,appeléemarge, permetde hoisir l'hyperplan quioptimise
la séparation des deux lasses. Comme le montre la gure 1.6, il existe une innité
d'hyperplans en pointillés verts qui permettent de séparer les lasses. En revan he, il
n'existequ'un seulhyperplan entirets rougesqui maximise lamarge.Leséléments les
plus pro hes de l'hyperplan sont appelés ve teurs supports et sont entourés en bleu.
Cetteméthode est e a e si les lasses sont linéairement séparables.Lorsque e n'est
pasle as,ilestpossibled'utiliserdesmargesdou esquiautorisent ertaineserreursen
ajoutant despénalités en fon tion deladistan e àlamarge [Corteset Vapnik, 1995℄.
+
−
−
+
+
+
+
+
+
+
+
+
+
+
−
−
−
−
−
−
−
−
−
−
−
−
−
+
−
−
−
−
−
−
−
+
+
+
+
−
−
+
+
+
+
+
+
+
+
+
+
+
−
−
−
−
−
−
−
−
−
−
−
−
−
+
−
−
−
−
−
−
−
+
+
+
Fig.1.6Exempled'unproblèmede lassementàdeux lasseslinéairementséparable.
Danslapratique,l'hypothèsedeséparabilitélinéairen'étantengénéralpasvériée,
une proje tion des éléments dans un espa e de dimension plus grande permet de les
séparerlinéairement plusfa ilement.Cettetransformation sefaitàl'aidede fon tions,
appelées fon tions noyaux, qui sous ertaines onditions, permettent le hangement
d'espa esans onnaître expli itement la transformation à appliquer.Ces méthodes de
plus en plus utilisées ont des fondements théoriques solides et donnent de très bons
résultatssurles do umentstextuels[Abe,2010,Burges, 1998,Joa hims, 1998℄.
1.1.3.3 Évaluation
Le résultatd'un lassement s'évalueen al ulant letauxdedo uments bien lassés
oul'exa titude surl'é hantillon de test omposéde do umentspour lesquelsles labels
atégorisation binaireetmulti lasse,undo umentest orre tement lassésil'étiquette
préditeparle lassieur orrespondaulabeldudo ument.Dansle ontextemultilabel,
undo umentestbien lassésietseulement sitouteslesétiquettesontété orre tement
ae téespar lepro essusde lassement.Le ritèred'exa titude(
C
exact
)estalorsdéni par :C
exact
=
|{d
i
∈ D
T
|L(d
i
) = ˆ
L(d
i
)
}|
|D
T
|
(1.7)
Pour évaluer les atégorisations binaire et multi lasse, le taux de bien lassés est
généralement le seul ritère utilisé.Dans le ontexte multilabel, il apparaît lairement
que e ritère esttrès ontraignant etne permet pasde prendre en ompte les
orres-pondan es partielles où seulement une partie des étiquettes est orre te. Deux autres
ritères basés sur la F-mesure [Yang et Liu, 1999℄, une mesure qui orrespond à la
moyenne harmonique de lapré ision (
P
) etdu rappel (R
), sont alors onsidérés pour évaluerlesrésultatsd'un lassement.Ces ritères orrespondentàlamoyenne mi roetma ro de laF-mesure.
F
− mesure =
2P R
P + R
(1.8)Ilspeuventêtredénisàpartird'unetablede ontingen etellequelatable1.2dans
laquelle
c
¯
k
orrespondaux atégoriesdeC
quinesontpasc
k
(c
k
=
C \{c
k
}
).Cettetable est onstruite à partirdel'é hantillonde testD
T
oùtp
k
(les vraispositifs,del'anglais true positive) orrespond aunombre de do umentsqui appartiennent à la atégoriec
k
et qui ont été orre tement lassés,tn
k
(les vrais négatifs, de l'anglais true negative) représente le nombre de do uments qui n'appartiennent pas à la atégoriec
k
et qui ont été orre tement lassés omme n'appartenant pasà ette atégorie,f p
k
(les faux positifs,del'anglais falsepositive) estlenombre dedo uments n'appartenant pasàlaatégorie
c
k
etquiont étéin orre tement lassés ommeappartenant àla atégoriec
k
,f n
k
(les fauxnégatifs,de l'anglaisfalsenegative) orrespond aunombrededo uments qui appartiennent à la atégoriec
k
maisquin'ont pasété orre tement lassés.Tab.1.2 Table de ontingen e déniepour la atégorie
c
k
. Classesà prédirec
k
c
¯
k
Classespréditesc
k
tp
k
f p
k
¯
c
k
f n
k
tn
k
tp
k
=
|{d
i
∈ D
T
|c
k
∈ L(d
i
), c
k
∈ ˆ
L(d
i
)
}|
f p
k
=
|{d
i
∈ D
T
|c
k
∈ L(d
/
i
), c
k
∈ ˆ
L(d
i
)
}|
f n
k
=
|{d
i
∈ D
T
|c
k
∈ L(d
i
), c
k
∈ ˆ
/
L(d
i
)
}|
tn
k
=
|{d
i
∈ D
T
|c
k
∈ L(d
/
i
), c
k
∈ ˆ
/
L(d
i
)
}|
Les moyennes mi ro de la pré ision, du rappel etde la F-mesure sont ensuite
P =
P
|C|
k=1
tp
k
P
|C|
k=1
(tp
k
+ f p
k
)
R =
P
|C|
k=1
tp
k
P
|C|
k=1
(tp
k
+ f n
k
)
(1.9)La moyenne mi ro delaF-mesureest ensuite al ulée par :
C
micro
=
2P R
P + R
(1.10)Les moyennes ma ro de la pré ision, du rappel et de la F-mesure sont al ulées
en faisant lamoyenne des s ores al ulés pour haque atégorie. Lespré ision (
P
k
) et rappel(R
k
) sont dénis pour la atégoriec
k
par :P
k
=
tp
k
tp
k
+ f p
k
R
k
=
tp
k
tp
k
+ f n
k
(1.11)La moyenne ma ro de laF-mesureest obtenue par:
C
macro
=
1
|C|
|C|
X
k=1
2P
k
R
k
P
k
+ R
k
(1.12)Contrairement à lamoyenne mi ro de laF-mesure, la moyenne ma ro favorise les
atégories qui sont rares, 'est-à-dire les atégories pour lesquelles il ya peu de
do u-ments qui appartiennent à ette atégorie. Les trois ritères
C
exact
,C
micro
etC
macro
sontutilisés pour évaluerles performan es d'un lassement multilabel alors queseulleritère
C
exact
qui orrespond au taux de bien lassés est généralement utilisé pour un lassement binaireou multi lasse.1.1.4 Importan e de la représentation
Lestâ hes onsidéréesdans ettethèseainsiquelesméthodesd'évaluationasso iées
ont été présentées sans tenir ompte de la représentation des do uments. Cependant,
pour se onvain re de l'importan e de la représentation de l'information, il sut de
penser au problème qui onsiste à re her her dans un di tionnaire la dénition d'un
mot dont l'orthographe est onnue. Si e problème est fa ile à résoudre, le problème
inversequi onsisteàre her herlesmotsdudi tionnaire orrespondantàunedénition
donnée,estbeau oupplusdi ile.Lorsdelare her he d'unmotdansundi tionnaire,
il estévident quele fait queles mots soient indexésdans l'ordre alphabétique rendla
re her he rapide etfa ile. Enrevan he, pour lare her he inverse,l'ordre alphabétique
des mots n'est plus d'au une utilité. Ce simple exemple montre que la représentation
del'information estessentiellepourpouvoira éderfa ilementete a ementà
l'infor-mationutile.Danslasuite,lesdo umentsmultimédias onsidéréssont omposésd'une
partie texte,d'uneimage ou desdeux.Lesdiérentes représentations pour ha unede
esmodalités,ainsiquelesméthodesquipermettentdelesfusionnerserontprésentées.
1.2 Représentation des données textuelles
Lesdo umentstextuelssontl'undessupportslesplusutiliséspour ommuniquerou
transmettredel'information.Dulivreaudo umentXMLenpassantparletélégramme
les représenter en onsidérant toute l'information sur la stru ture du texte ou en ne
onsidérant que le ontenu textuel. Plusieurs modèles ont été employés en re her he
d'informationetl'utilisationd'unindexpour représenterlesdo umentsestlaméthode
laplus ourante.
1.2.1 Qu'est- e qu'un do ument texte?
Du simple texte, ditplat, lorsqu'iln'animiseen page niformatage parti ulier, au
textestru turé ave l'utilisation debalises ommedansle formatXML, la
représenta-tiond'undo ument textuel esttrès importante ande onserver le plusd'information
utile pourretrouverles do umentstouten étant leplus on is possible.
1.2.1.1 Du do ument stru turé au texte plat
Quelle que soit le do ument textuel onsidéré, il peut être représenté selon
dié-rents points de vue [Fourel, 1998℄, omme illustré par la gure 1.7 [Fuhr, 2003℄. La
vue de ontenu, ou sémantique, ara térise l'information textuelle. Elle orrespond à
l'information la plus souvent re her hée par un utilisateur. C'est e qui représente le
fond du do ument. La vuelogique on erne l'organisationdu do ument généralement
sous la forme d'une arbores en e et peut s'utiliser pour la mise en forme, l'é riture
en gras ou en italique, mais également pour les métadonnées asso iées au do ument.
Pour unouvrage, elapeut orrespondreau nomde l'auteur,à ladatede parution,au
titreet auxdé oupages en hapitres, paragraphes. Les informationsasso iéesà lavue
logiquepermettent d'ee tuer desre her hesbeau ouppluspré ises,maisne sontpas
systématiquement existantes. La vuede présentation on erne lesinformations liées à
la mise en page de l'information textuelle et au dé oupage du texte ave la position
desentêtes,l'alignement desparagraphes, et .Ces informationspeuvent, parexemple,
aider àidentier lastru turelogique.
e dernier re her he une information parti ulière, il formule sa requête et attend une
réponserapide dusystème de re her he d'information. Des hoix on ernant les
dié-rentesinformationsdesdo umentsà onserversontdon àfaireandepouvoirrépondre
auxdiérentsbesoinsdesutilisateursdansdestemps raisonnables. Deplusen plus,la
stru ture des do uments est utilisée, notamment ave le développement des formats
ommeXML,pouraméliorer lesrésultats d'unere her he en ne retournant à
l'utilisa-teur qu'une sous partie du do ument original [Géry et al., 2009, Lalmas, 2009℄ ou en
exploitant lesliensentreles do uments [Verbyst etMulhem,2009℄.
Lesdo umentstextuels onsidérés danslasuitesont lesdo umentsqui ontiennent
uniquement du texte plat. Quand le texte est formaté ou stru turé, les informations
asso iées ommelamiseenformeoulesmétadonnéessontsimplementsuppriméespour
ne onsidérerque dutexteplat.
1.2.1.2 Spé i ité des do uments texte
Siundo umenttextuelparti ulierestgénéralementmonolingue,ilsepeutquepour
deux do uments issus d'une même olle tion, les langues utilisées soient diérentes.
Ce problème de olle tion multilingue peutse résoudre en utilisant une appro he par
di tionnaire qui onsiste à traduire tous les do uments dans une même langue avant
l'indexation. La requête fournie par l'utilisateur devra également être traduite avant
d'ee tuer la re her he [Hull et Grefenstette, 1996℄. Les spé i ités des langues sont
également àprendreen ompte.Lesidéogrammesde lalangue hinoisenepeuventpas
être manipulés omme les mots issus de langues indo-européennes. Dans la suite, la
langue anglaise sera prin ipalement utilisée. Pour représenter l'information textuelle,
plusieurs problèmes liés à la langue sont à onsidérer. Le problème de la polysémie
orrespond aufaitque plusieursdénitions peuvent orrespondrepourun même mot;
'estle asparexempledumotblan quipeutdésigner,une ouleur,unvin,uneespa e
typographique, et . Ceproblème est pro he de elui de l'homonymie pour lequel deux
mots peuvent s'é rire (homographe) ou se pronon er (homophone)de lamême façon,
maisavoirdessensdiérents;lemotest peutdésigneràlafoisleverbeêtre onjuguéà
latroisièmepersonnedusingulierdel'indi atifprésentetladire tionopposéeàl'Ouest.
Cesdeuxproblèmessontpro hesmaisnéanmoinsdistin ts.Contrairementauproblème
depolysémie,deuxmotshomonymespossèdentdeuxentréesdansundi tionnaire.Enn
le problème de la synonymie on erne deux mots distin ts qui ont le même sens; les
mots souvent etfréquemment sont onsidérés omme synonymes.
1.2.1.3 Représentation des do umentstexte
Les diérentes informations qu'il est possible d'extraire d'untexte plat dépendent
del'analyse envisagée ommelemontrela gure1.8.
Laplussimpledesanalysesestl'analyselexi alequi onsisteàdé ouperletexteen
unesuite demots.Ledé oupagesefaitgénéralementgrâ e aux ara tères de
pon tua-tionetauxespa es.Lesmots quiressortentde edé oupagepeuventalors êtreutilisés
séparément (sa de mots) [Lewis,1998℄, sousforme de séquen e (n-grammes) [Cavnar
etTrenkle, 1994℄ou regroupésen on epts [Vosset al.,1999℄.
L'analyse grammati ale asso ie à haque mot une étiquette orrespondant à sa
partie du dis ours (nom, adje tif, verbe,et .). En utilisant ette analyse plus ne que
Fig. 1.8 Lesdiérentes analyses possiblesd'untexteplat.
Enn, l'analyse sémantique s'atta he à omprendre le sens des phrases pour
om-prendre le texte. Des appro hes existent pour traiter des do uments stru turés ou
semi-stru turés, mais il n'existe au une méthode qui permette de faire ette analyse
e a ement enpartant detexte plat[Shahet al.,2002℄.
Danslasuite,l'a entseramissurlareprésentationensa demots.Cette
représen-tation nepermetpasdere onstituer letexteoriginal dudo ument puisquel'ordredes
mots dansledo ument est perdu. Bien que ette représentation sembletrès simpliste,
ellealargement faitsespreuves e quiexpliquequ'ellereste l'unedesplusutiliséepour
lareprésentation desdo uments textuels[Salton et al.,1975, Lewis, 1998℄.
1.2.2 Modèle de représentation par sa de mots
La représentation en sa de mots reposesur un ensemble
T =
{t
1
, . . . , t
j
, . . . , t
|T |
}
demots outermesformantlevo abulaireadaptépermettant dereprésenterle ontenu
d'undo ument.Cevo abulaire estgénéralement onstruit à partirdesmots qui
appa-raissent dansles do umentsde la olle tion
D
.Le nombre de mots|T |
qui omposent e vo abulaire orrespondà sataille(ou dimension)etpeutêtretrès élevémême pourunfaiblenombre dedo uments. Lareprésentation desdo umentsdansde trèsgrandes
dimensions entraîne des problèmes lorsqu'ilfaut al uler desdistan es entre les
do u-ments. En eet, lerapportentre ladistan e maximale etladistan e minimale en très
grande dimension tendvers un : et eet est onnu ommele éau ou la malédi tion
deladimension [IndyketMotwani,1998℄. Ilest alorsintéressant de her heràréduire
latailleduvo abulaire[Lewis,1992b,Sebastiani,2002℄.Pourunmot
t
j
duvo abulaireT
et un do umentd
i
de la olle tionD
,w
i,j
orrespond au poids du mott
j
dans le do umentd
i
.Il existe troisgrandes famillesde modèles prin ipalement issusdesétudes réalisées
en re her he d'information qui exploitent un tel sa de mots : les modèles booléens,
ve torielsetprobabilistes. Le modèlebooléen seratoutd'abordprésenté;il estleplus
simpleets'appuiesurlathéoriedesensembles.Lemodèleve toriel,basésurune
intui-tiongéométrique,sera ensuiteintroduit. Enn lemodèleprobabiliste quireposesurla
théoriedesprobabilitésseraexpliqué.Cesmodèlesserontprésentésdansun ontextede
orrespondan eutiliséepourjugerdelapertinen ed'undo ument
d
i
parrapportàune requêteq
k
.Ces modèles seront illustrésà l'aidede plusieurs arti lesextraitsde l'en y- lopédie Wikipedia (Australie, James Bond, Motus (jeu télévisé), Natation, Origami,Para hute etRoller)enutilisant unvo abulairelimitéàquelquesmots(base,épreuve,
papillon, pliage,porteetsport).
1.2.2.1 Modèles booléens
Les modèles booléens se servent du vo abulaire
T
pour représenter les do uments sousformed'ensembles.Ave lemodèlestandard,lesdo umentssont ara térisésparlaprésen eoul'absen e de haqueterme
t
j
dansleur ontenu. Enutilisant leformalisme de l'algèbre de Boole [Boole, 1854℄, un do umentd
i
est représenté par un ve teur omportant autant de omposantesqu'il yadetermes dansT
.Le poidsw
i,j
dutermet
j
dansledo umentd
i
vaut 1si letermet
j
apparaît dansledo umentd
i
,0sinon.Une requête peutse onstruire grâ eaux troisopérateurslogiques(et :
∧
,ou:∨
, non:¬
).Lelangagedesrequêtesesttrèsexpressifetpermetd'ee tuerdesre her hes très pré ises.La mise en orrespondan e s'ee tue ensuiteà l'aide des opérations d'union,
d'in-terse tion etde diéren e entre les ensembles de résultatsasso iés à haque terme de
larequête. Unexemple de l'utilisation de emodèleestillustré par lagure1.9.
La table 1.3 représente un ensemble de termes et de do uments extraits
de Wikipedia où un élément (
d
i
,t
j
) vaut 1 si le termet
j
apparaît dans le do umentd
i
,et0 sinon.Pour re her her un do ument, il sut de onsidérer les ve teurs asso iés
auxtermes de la requêteet d'ee teur le al ulen utilisant les propriétés de
l'algèbrede Boole.
Pourreprésenteruntermed'unerequête, ilfautregarder danslatable1.3la
olonnequi luiest asso iée.Le mot épreuve est ainsireprésentépar 1011000.
Pourlarequête:épreuve oupapillonousport,ilsutd'ee tuerl'opération
booléenneouentre lesve teurs représentatifsde épreuve, papillon etsport :
1011000
∨
0101001∨
1101011 =1111011Lesdo umentsquirépondentàlarequêtesontdon :Australie,JamesBond,
Motus, Natation, Para hute etRoller.
Pour larequête:épreuve etpapillon etsport :
1011000
∧
0101001∧
1101011 =0001000Le do ument qui orrespondà larequêteest don ledo ument Natation.
Fig.1.9 Exemple de l'utilisationd'un modèlebooléen.
Leprin ipalavantagede emodèleestqu'ilestsimpleà omprendreparl'utilisateur.
Ilesttrèse a edansle adrede olle tionsspé iquesoùdesspé ialistes onnaissent
les termes exa ts pour formuler les requêtes. Cette e a ité n'est malheureusement
Tab.1.3Matri edo ument-termeoùunélément(
d
i
,t
j
)vaut1siletermet
j
apparaît dansledo umentd
i
,et0sinon.`
`
`
`
`
`
`
`
`
`
`
`
`
`
Do uments Termesbase épreuve papillon pliage porte sport
Australie 1 1 0 0 1 1 JamesBond 0 0 1 0 1 1 Motus 1 1 0 0 0 0 Natation 0 1 1 0 1 1 Origami 1 0 0 1 1 0 Para hute 1 0 0 1 1 1 Roller 0 0 1 0 0 1
desdo uments quirépondent partiellement à larequête. Enn, l'utilisation d'uns ore
binairede lapertinen e desdo uments nepermetpasde lesordonner.
Des extensions de ette appro he omme le modèle booléen étendu [Salton et al.,
1983℄ et les modèles basées sur la logique oue permettent de orriger ertains de
es in onvénients. Les deux prin ipaux représentants utilisant la logique oue sont le
modèleMMM(MixedMin andMax)etlemodeldePai e[Foxet Sharan,1986,Lee et
Fox,1988, Mer ieretBeigbeder, 2006℄.
1.2.2.2 Modèles ve toriels
Le modèle ve toriel se base sur une intuition géométrique et représente les
do u-ments sous forme de ve teurs dans l'espa e des termes du vo abulaire [Salton et al.,
1975℄. Le do ument
d
i
est alors dé rit par le ve teurd
~
i
= (w
i,1
, . . . , w
i,j
, . . . , w
i,|T |
)
. Dans sa version la plus simple, le poidsw
i,j
orrespond au nombre d'o urren es du termet
j
dansledo umentd
i
[Gar ia, 2006℄.Une requête
q
k
est également représentée sous la forme d'un ve teur de la même façon qu'un do ument :q
~
k
= (w
k,1
, . . . , w
k,j
, . . . , w
k,|T |
)
où lepoidsw
k,j
est égalà 1.Pour al uler la pertinen e d'une requête ave un do ument, il faut hoisir une
mesuredesimilarité.La plusutiliséeestladistan edu osinus quiestdéniepour une
requête
q
k
etundo umentd
i
par :score(d
i
, q
k
) = cos α =
~
d
i
· ~
q
k
||~
d
i
|| || ~
q
k
||
(1.13)
où
d
~
i
· ~
q
k
représente leproduits alaireentred
~
i
etq
~
k
etoù||~
d
i
||
et|| ~
q
k
||
représentent les normes des ve teursd
~
i
etq
~
k
. D'autres mesures de similarité peuvent être utilisées ommeladistan eduχ
2
ouladistan ede Kullba k-Leibler[RajmanetLebart,1998℄.
Une illustration du al ul de la distan e du osinus est donnée par la gure 1.10
en utilisant les valeursdelatable 1.4pour lesmots sport et papillon etlesdo uments
James Bond,Natation etRoller.
Cemodèlequiutiliseuneappro hebaséesurl'algèbrelinéaireorel'avantaged'être
simple.Iln'imposepasunepondérationbinairedestermes etpermetde retournerune
Tab. 1.4 Matri e do ument-terme où un élément (
d
i
,t
j
) orrespond au nombre d'o urren es dutermet
j
dansledo umentd
i
.`
`
`
`
`
`
`
`
`
`
`
`
`
`
Do uments Termesbase épreuve papillon pliage porte sport
Australie 7 1 0 0 1 20 James Bond 0 0 1 0 5 2 Motus 1 1 0 0 0 0 Natation 0 6 6 0 1 8 Origami 10 0 0 11 1 0 Para hute 1 0 0 1 1 4 Roller 0 0 1 0 0 4
Fig.1.10 Représentation de ladistan e osinus.
Pour re her her les do uments pertinents, il sut de al uler la distan e
osinusentrelarequêteet haquedo ument ommeillustrédanslagure1.10.
Pour larequête :épreuve papillon sport, lesrésultatsretournés dansl'ordre
deladistan e osinus dé roissante sont :
do uments distan e osinus
Natation 0,990 JamesBond 0,775 Roller 0,700 Australie 0,605 Para hute 0,577 Motus 0 Origami 0