Un modèle de mixture de modèles génératifs pour les documents structurés multimédias

(1)

génératifs pour les documents structurés multimédias

Application à la classification de documents XML et HTML

Ludovic Denoyer — Patrick Gallinari

LIP6

8 rue du capitaine Scott F-75015 Paris

ludovic.denoyer@lip6.fr patrick.gallinari@lip6.fr

RÉSUMÉ.Nous présentons un modèle général permettant la classification supervisée de docu- ments structurés multimédias. Nous proposons un modèle génératif basé sur les réseaux bayé- siens afin de modéliser les documents de type XML ou HTML. Nous étudions une extension de ce modèle génératif en modèle discriminant à l’aide du formalisme des noyaux de Fisher. Enfin, nous testons notre modèle sur trois grands corpus de documents.

ABSTRACT.We present a general model for the supervised classification of multimedia structured documents. We propose a generative model based on the belief network formalism in order to model XML or HTML documents. We transform our generative model into a discriminant one using the Fisher Kernel method. Then, we test this model using three information retrieval documents databases

MOTS-CLÉS :classification, documents structurés, XML, documents multimédias, réseaux bayé- siens, apprentissage.

KEYWORDS:classification, structured documents, XML, multimedia documents, belief networks, machine learning.

(2)

1. Introduction

Le développement du web et le nombre croissant de documents électroniques dis- ponibles ont permis l’émergence de formats semi-structurés permettant la représenta- tion et le stockage de documents textuels ou multimédias. Différents formats comme le HTML, le XHTML ou le XML sont aujourd’hui très populaires. Ces formats prennent en compte la structure logique des documents et permettent d’enrichir le contenu à l’aide de différents descripteurs ou métadonnées. Ils sont utilisés pour faciliter le stockage et l’accès à l’information.

Nous étudions ici le problème de la classification de documents structurés mul- timédias. Nous considérons des documents structurés où les médias sont multiples (texte, image, son...). La classification supervisée de documents est une probléma- tique générique de la recherche d’informations. Elle est utile pour différentes tâches telles que le filtrage d’email ou de Spam, l’indexation de documents, l’organisation de corpus, notamment sous forme hiérarchique, etc. Les modèles actuels ont été dévelop- pés avant l’émergence des documents structurés et ils ne sont pas adaptés à ce nouveau type de documents. Quelques tentatives ont été réalisées pour la classification de documents plus complexes (XML ou multimédias par exemple). Ces approches sont basées sur la combinaison de classifieurs « plats » et sont spécifiques à certains types de documents ; une méthode ne fonctionnera par exemple que pour les pages HTML et pas pour les documents XML en général.

Nous proposons pour la classification de documents structurés un modèle général qui permet la prise en compte simultanée de l’information de structure et de l’information de contenu des documents électroniques. Cette approche permet également l’intégration de manière naturelle de différentes sources d’information (texte et image par exemple). Il s’agit d’un modèle statistique basé sur le formalisme des réseaux bayésiens.

L’article est organisé de la manière suivante : tout d’abord, nous présentons un état de l’art dans le domaine du traitement des documents structurés axé sur la classification ; nous décrivons ensuite le modèle général proposé et détaillons deux instances de ce modèle, l’une pour les documents structurés textuels et l’autre pour les documents structurés constitués de texte et d’images ; nous voyons ensuite comment transformer le modèle en un modèle discriminant plus performant à l’aide du formalisme du noyau de Fisher ; nous présentons finalement les résultats obtenus sur trois bases de données différentes de grande taille.

2. Etat de l’art

De nombreux travaux ont été consacrés à la tâche de classification de documents qu’ils soient textuels ou sous forme d’image. Cependant, peu concernent la classification de documents structurés et/ou multimédias dont l’émergence et l’exploitation massive est récente. La plupart des modèles proposés concernent uniquement les do-

(3)

cuments « plats ». La représentation dite en « sac de mots » est la plus utilisée par les modèles de classification.

Les classifieurs utilisés en texte comme ailleurs, sont soit des modèle génératifs qui estiment les densités conditionnelles des différentes classesP(document/class) soit des modèles discriminants qui estiment directement les probabilités a posteriori P(class/document). Par exemple, le modèle Naïve Bayes ([LEW 98]) est un modèle génératif fréquemment utilisé en texte tandis que le modèle des machines à vecteurs supports est actuellement souvent cité pour la classification de documents textuels.

Sebastiani ([SEB 02]) propose une revue complète des différents modèles de classification de documents textuels plats.

Nous allons tout d’abord présenter les travaux concernant la classification de documents structurés puis nous ferons un état de l’art des travaux concernant les documents multimédias. Il n’y a pas à notre connaissance de travaux permettant de traiter de façon générique les documents structurés multimédias.

La plupart des classifieurs sont conçus pour le traitement de vecteurs ou de sé- quences et très peu de modèles permettent la prise en compte simultanée de l’information de structure et de contenu. L’importance croissante des documents structurés a cependant récemment suscité l’intérêt de la communauté de l’apprentissage pour ce type de modèles. Il y a quelques années, le développement du web a fait naître le be- soin de développer des classifieurs pour les pages HTML (voir les deux dernières com- pétitions TREC). Dans les pages HTML, les différentes parties d’une page n’ont pas la même importance. Les titres, les tableaux et les liens peuvent être considérés comme différentes sources d’information. La plupart des techniques développées prennent en considération une information a priori concernant spécifiquement la sémantique intro- duite par le format HTML. Ces techniques utilisent habituellement une combinaison de classifieurs sur les différentes parties des pages rencontrées ([DUM 00], [YAN 02]).

Ces premières tentatives de classification de documents structurés montrent que la combinaison de différents types d’informations peut parfois accroître les scores de bonne classification. Plus récemment, des méthodes ont été développées pour la classification de documents structurés génériques (par opposition aux documents HTML).

Par exemple, Yi ([YI 00]) présente une extension du modèle Naïve Bayes pour les documents semi-structurés où les estimateurs globaux usuels de densité de mots d’un document sont remplacés par des estimateurs locaux qui dépendent du chemin permettant d’arriver à un nœud du document structuré. L’inconvénient de cette technique est le nombre important de paramètres qui ne peuvent pas être estimés de manière robuste. Le modèle proposé par Diligenti ([DIL 01] à base d’arbre de Markov cachés (Hidden Tree Markov Model - HTMM) étend les modèles de Markov cachés à la gé- nération de documents structurés en arbres. Le modèle permet l’apprentissage d’un HTMM pour la génération de ces arbres. Ce modèle a été utilisé pour la classification de pages HTML. Piwowarski et al. ([PIW ]) propose un modèle discriminant à base de réseaux bayésiens qui calcule directement la probabilité a posteriori correspondante à la pertinence d’un document pour chacune des classes du problèmes.

(4)

La classification de documents multimédias est un sujet de travail relativement ré- cent. Par exemple, Cascia et al. ([CAS 98]) proposent un système qui combine des statistiques textuelles et visuelles en un seul et unique vecteur permettant la repré- sentation d’un document. Barnard et al. ([BAR 01]) présentent un modèle génératif hiérarchique où les données sont décrites par une hiérarchie fixe de nœuds. Dans l’ar- ticle de Ortega et al. ([ORT 99]), les différents objets sont décrits par des vecteurs de caractéristiques qui sont ensuite combinées. Plus récemment, une méthode permettant de lever les ambiguïtés sur les mots a été proposée par Barnard ([BAR 03]). Pour la tâche de filtrage de sites web, ([CHA 99], [JON 02]) s’intéressent à la classification d’images pornographiques en s’aidant également du contenant textuel. Mais ces approches ne considèrent pas le contexte global contenu dans les documents et ignorent les relations entre les différentes parties des documents.

3. Modèle proposé

Dans cette section, nous décrivons un modèle de documents structurés multimé- dias à structure explicite (de type XML). Nous présentons un modèle général puis deux instances du modèle, l’une pour les documents uniquement textuels et l’autre appliquée aux pages web texte + image.

3.1. Document structuré

Nous représentons un document structuré comme un graphe orienté sans cycle (DAG pour Directed Acyclic Graph), ce qui correspond à la représentation usuelle utilisée dans les langages à base de balises (HTML et XML). Chaque nœud du graphe représente une entité structurelle (paragraphe, titre, section...) du document et chaque arc représente une relation hiérarchique entre 2 entités (par exemple, un paragraphe est inclus dans une section, deux paragraphes se suivent, etc.). Pour garder un niveau de complexité raisonnable, nous ne considérons pas les relations circulaires entre les nœuds qui pourraient apparaître pour certains types de documents (par exemple des sites web).

Chaque nœud du DAG est composé d’une étiquette et d’un contenu. Une étiquette peut par exemple être section, paragraphe, titre et représente la « sémantique » de l’unité structurelle. Le contenu d’un nœud peut être un morceau de texte (on parlera de contenu textuel), une image, un son, une vidéo, etc.

Un document structuré contient alors trois types d’information : – une information d’organisation contenue dans les arcs du DAG, – une information d’étiquette contenue dans les étiquettes des nœuds, – une information de contenu (texte, image, son...).

Ces trois types d’information devront être pris en compte par nos modèles. La figure 1 donne un exemple simple de document structuré.

(5)

Label : PARAGRAPH Text : "This is the second paragraph"

Label : PARAGRAPH Text :"This is the first paragraph "

Label : SECTION Text : "This is the first section."

Label : INTRODUCTION Text : "This document is an example of structured document "

Label : SECTION Text : "The second section is composed of one single paragrah"

Label : PARAGRAPH

Texte : "This is the third paragraph"

Label : DOCUMENT Text :

Figure 1. Un exemple de document structuré

3.2. Le modèle génératif de document

Nous faisons l’hypothèse que, pour chaque type d’information, nous possédons un modèle génératif permettant de calculer une estimation de la probabilité d’un document plat constitué uniquement de ce type d’information. Cette hypothèse est peu restrictive car, pour chaque type d’information rencontrée, plusieurs modèles généra- tifs ont déjà été développés (image, son, texte...).

3.3. Notations

Nous définissons les notations suivantes :

–dun document (nous ne ferons pas de différence entre un document et le graphe qui le représente).

–s_d la structure du document, donnée par l’ensemble des couples s_d = {(sⁱ_d, pa(sⁱ_d))}pouride1à|s_d|.|s_d|représente le nombre de nœuds du document, sⁱ_d ∈Λcorrespond à l’étiquette du nœudioùΛreprésente l’ensemble des étiquettes possibles (décrites, pour un document XML, dans la DTD ; par exemple : TITLE, H1...

pour le XHTML),pa(sⁱ_d)∈s_d représente l’ensemble des nœuds parents du nœudi.

Cette relation définit l’information organisationnelle du document.

–t_dl’information de contenu.t_dest l’ensemble{tⁱ_d}pouride1à|s_d|oùtⁱ_dest l’information de contenu du nœudi. Nous faisons l’hypothèse que, pour une étiquette donnée, l’information est toujours de même nature (une certaine étiquette ne contient soit que du texte soit que de l’image mais ne peut contenir, dans un document du texte et dans un autre de l’image). Cette hypothèse peut, dans le cas où elle ne correspond pas à la réalité des documents, être respectée par l’ajout de tags supplémentaires.

(6)

–θ est l’ensemble des paramètres de notre modèle génératif.θ est l’ensemble {θ_l}

θ^s pourl ∈ Λ. Nous considérons que nous possédons un ensemble de pa- ramètres pour chaque valeur d’étiquette possible tel que, pour touttⁱ_d nous pouvons calculer la probabilitéP(tⁱ_d/θ) =P(tⁱ_d|θ_si

d). Le vecteurθ^scorrespond lui aux para- mètres permettant le calcul de la probabilité structurelle tel queP(s_d|θ) =P(s_d|θ^s) (par simplification, nous noteronsP(s_d|θ)).

3.3.1. Composantes du modèle génératif

Nous nous plaçons dans un cadre probabiliste. Un document sera décrit par un réseau bayésien, ce formalisme permet de modéliser à la fois l’information de contenu et les relations entre les contenus. Chaque nœud du réseau bayésien correspond soit à une étiquette (un nœud du DAG), soit à un des éléments de contenu (le contenu attaché à un nœud du DAG).

Un corpus sera alors représenté par un ensemble de réseaux bayésiens (un par document). Le modèle des réseaux bayésiens représentera le modèle de génération des documents structurés. Ce processus de génération peut être vu de la façon suivante : une personne voulant créer un document d’une certaine classe va successive- ment et récursivement créer l’organisation du document et le contenu correspondant.

Par exemple, il décide que son document aura un titre, puis choisit ce titre ; il y ajoute une section contenant l’introduction du document puis un paragraphe avec une image, etc.

Nous avons :

3.3.2. Probabilité structurelle

La probabilité structurelleP(s_d)est encodée par les étiquettes et les arcs du DAG.

La structure du document dsera représentée par un réseau bayésien calqué sur le graphe représentant le document. Cependant, nous nous permettrons d’envisager dif- férents types de dépendances (séquence, inclusion) afin d’essayer d’avoir une modé- lisation plus fine de l’organisation d’un document. La probabilité d’un tel document s’écrit :

P(s_d/θ) =P(s_d|θ^s) =

|sd|

i=1

P(sⁱ_d|pa(sⁱ_d), θ^s) (2)

Les paramètresθ^scorrespondent à l’estimation des probabilitésP(sⁱ_d|pa(sⁱ_d))qui sont les probabilités d’observer un nœudsⁱ_dsachant que ses parents sontpa(sⁱ_d).

(7)

Document

Introduction Section Section

Paragraph Paragraph Paragraph

Document

MODELE 1 MODELE 2

Figure 2. Deux modélisations possibles de la structure

Pour avoir une estimation robuste de nos paramètres, nous considérons que les ré- seaux bayésiens de tous les documents partagent les mêmes paramètresθ. Ainsi, pour les paramètres de structure, nous faisons l’hypothèse que les probabilités {P(sⁱ_d|pa(sⁱ_d)} ne dépendent que des étiquettes des nœudssⁱ_d etpa(sⁱ_d). Cette pro- babilité sera notéeθ^s_s_i

d,pa(sⁱ_d).

Plusieurs réseaux bayésiens peuvent être associés à un document. La figure 2 nous montre deux exemples de réseaux bayésiens correspondant à deux modélisations dif- férentes de la structure du document de la figure 1. Dans la seconde, on modélise uniquement l’inclusion tandis que dans la première, on modélise l’inclusion (flèches verticales) ainsi que la séquence (flèches horizontales). Les modèles présentés sont une simplification de la réalité : ils ne prennent en compte qu’une partie des relations entre les différents éléments d’un document. Ce choix résulte d’un compromis entre capacité et complexité. Il s’agit en l’occurrence de réaliser lors de l’apprentissage une estimation robuste des paramètres en limitant leur nombre (égal à card(Λ×Λ)), et également de réaliser des inférences exactes à faible coût.

3.3.3. Probabilité de contenu

La modélisation de la probabilité du contenu suit les hypothèses suivantes : – les différents éléments de contenu sont indépendants les uns des autres, – la probabilité du contenu ne dépend que de l’étiquette qui contient cette information,

– cette probabilité suit le modèle génératif choisi pour le type d’information mo- délisé.

(8)

Figure 3. Le réseau bayésien final. Les nœuds ronds sont des nœuds de structure tan- dis que les nœuds rectangulaires sont des nœuds de contenu. Les arcs représentent les dépendances entre éléments de structure et ceux en pointillés la dépendance contenu / structure

Nous avons alors :

P(t_d|s_d, θ) =

|sd|

i=1

P(tⁱ_d|s_d, θ) =

|sd|

i=1

P(tⁱ_d|sⁱ_d, θ_si

d) (3)

Rappelons que la probabilitéP(tⁱ_d|sⁱ_d, θ_si

d)est la probabilité calculée par le modèle génératif choisi pour modéliser le type d’information contenu par les nœuds d’éti- quettesⁱ_d. Nous détaillerons plus loin le modèle dans le cas où cette probabilité est estimée en utilisant le modèle classique Naïve Bayes.

3.3.4. Réseau bayésien final

Par la suite, nous retenons la modélisation correspondant au modèle numéro 2 (les deux modèles donnent des résultats très similaires). Les hypothèses précédentes conduisent alors à la modélisation de notre document par le réseau bayésien représenté en figure 3. Les probabilités conditionnelles entre les nœuds terminaux (nœuds de contenu) et leurs parents sont estimées directement par comptage. Le modèle global peut ainsi être vu comme un modèle de mélange de modèles génératifs.

(9)

Ce réseau calcule le score suivant pour un documentd: P(d|θ) =P(s_d|θ^s)P(t_d|θ, s_d)

=



^|s^d^|

i=1

P(sⁱ_d|θ^s, pa(sⁱ_d))







^|s^d^|

i=1

P(tⁱ_d|θ_si d)





=



^|s^d^|

i=1

θ_s^si d,pa(sⁱ_d)







^|s^d^|

i=1

P(tⁱ_d|θ_si d)





(4)

3.3.5. Apprentissage

Afin de pouvoir utiliser notre modèle, nous devons passer par une phase d’apprentissage permettant l’estimation des paramètres du réseau. Rappelons que les pa- ramètresθsont de deux natures :

– le vecteurθ^s = {θ_i,j^s } avec (i, j) ∈ Λ ×Λ correspondant aux probabilités structurelles,

– les vecteursθ_i pouri ∈ Λ correspondant aux paramètres du modèle génératif choisi pour la modélisation de l’information des nœuds d’étiquettei.

Pour apprendre les paramètres de notre modèle, nous allons maximiser la vraisemblance des données.

SoitDT RAIN la base d’apprentissage. La log-vraisemblance de ces documents est :

L=





d∈DT RAIN

|sd|

i=1

logP(sⁱ_d|pa(sⁱ_d), θ^s)



+





d∈DT RAIN

|sd|

i=1

logP(tⁱ_d|θ_si d)





=L_structure+L_contenu

(5) Les deux termes (probabilité structurelle et probabilité de contenu) de notre somme ne partageant pas de paramètre, la maximisation deLrevient à la maximisation indé- pendante des deux termes.

3.3.5.1. Apprentissage des paramètres de structureθ^s Nous voulons maximiser :

L_structure=

d∈DT RAIN

|sd|

i=1

logP(sⁱ_d|pa(sⁱ_d), θ^s)

=

d∈DT RAIN

|sd|

i=1

logθ_s^si d,pa(sⁱ_d)

(6)

(10)

sous la contrainte

sⁱ_d∈Λ

θ^s

sⁱ_d,pa(sⁱ_d)= 1.

En utilisant la méthode des multiplicateurs de Lagrange, on résout :

∂(L_structure−λ_m(

n

θ^s_n,m−1))

∂θ_n,m^s = 0 (7)

Pour tous les couples(n, m)∈Λ.

SoitN_n,mle nombre de fois qu’un nœud d’étiquettena son parent d’étiquettem pour tous les documents deDT RAIN, nous avons alors :

θ_n,m^s = N_n,m

i

N_i,m (8)

Afin d’accroître la fiabilité de nos estimations, nous utiliserons un lissage : θ^s_n,m= N_n,m+ 1

i

N_i,m+|Λ| (9)

La complexité de cet apprentissage estO(

d∈ DT RAIN|s_d|)(linéaire en fonction de la taille des arbres des documents).

3.3.5.2. Apprentissage des paramètres de contenuθ_i Nous voulons maximiser la log-vraisemblance :

L_contenu=

d∈DT RAIN

|sd|

i=1

logP(tⁱ_d|θ_si d)

=

l∈Λ





d∈DT RAIN

|sd|

i=1/sⁱ_d=l

logP(tⁱ_d|θ_l)



 =

l∈Λ

L^l_contenu

(10)

Cette maximisation revient à la maximisation séparée de chacun des termes L^l_contenu. La maximisation deL^l_contenurevient à l’apprentissage du modèle génératif choisi pour l’étiquettel sur l’ensemble des données correspondant à cette étiquette dansD_{T RAIN}. Les modèles génératifs pour les différentes étiquettes sont appris in- dépendamment les uns des autres.

(11)

3.4. Une instance particulière : contenu textuel et estimation des densités conditionnelles par Naïve Bayes

Nous présentons maintenant de façon détaillée une instance du modèle, elle concerne la classification de documents structurés textuels uniquement et utilise comme modèle génératif de texte le modèle classique Naïve Bayes.

Nous posons les notations suivantes :

–tⁱ_d ={w_d,kⁱ }pourk ∈[1..|tⁱ_d|]avec|tⁱ_d|le nombre de mots de l’élémentidans le documentdetwⁱ_d,kreprésente lek−iememot detⁱ_d. Les mots sont à valeur dans un vocabulaire notéV.

Sous les hypothèses d’indépendance de Naïve Bayes, nous pouvons réécrire l’équa- tion 3 de la manière suivante :

P(t_d|s_d, θ) =

|sd|

i=1

P(tⁱ_d|sⁱ_d, θ_si d) =

|sd|

i=1



^|t

id|

k=1

P(wⁱ_d,k|sⁱ_d, θ_si d)



 (11)

L’équation globale de notre modèle devient alors :

P(d|θ) =





|sd|

i=1

θ^s_si d,pa(sⁱ_d)









|sd|

i=1



^|t

id|

k=1

P(w_d,kⁱ |sⁱ_d, θ_si d)







 (12)

Un tel modèle correspond au réseau bayésien présenté en figure 4.

3.4.1. Apprentissage et complexité Notonsθ_wi

d,k,sⁱ_dl’estimateur de la probabilitéP(wⁱ_d,k|sⁱ_d) Dans le cas Naïve Bayes, la log-vraisemblance s’écrit :

L_contenu=

d∈DT RAIN

|sd|

i=1

logP(tⁱ_d|θ_si d)

=

d∈DT RAIN

|sd|

i=1



^|t

i d|

k=1

logP(w_d,kⁱ |sⁱ_d, θ_si d)





=

d∈DT RAIN

|sd|

i=1



^|t

id|

k=1

logθ_wi d,k,sⁱ_d





(13)

(12)

Document

This Document

structured of example

an is

document

section first

the is this

paragraph single

one of composed

is section second the

paragraph first the is this

paragraph second

the is this

paragraph third

the is this

Figure 4. Le réseau bayésien final pour le modèle textuel

En utilisant les multiplicateurs de Lagrange, on veut résoudre, pour tous les couples (n, m)∈V ×Λ:

∂(L_contenu−λ_m(

n

θ_n,m−1))

∂θ_n,m = 0 (14)

En notantN W_n,mle nombre de fois où dans tous les documents deDT RAIN le motnapparaît dans une partie d’étiquettem, on obtient :

N W_n,m= N W_n,m

i∈V

N W_i,m (15)

(13)

document

This document is a flat document.

</document>

This document is a flat document

Figure 5. Le réseau bayésien construit pour un document plat

De la même manière que précédemment, nous utiliserons un lissage : N W_n,m= N W_n,m+ 1

i∈V

N W_i,m+|V| (16)

La complexité d’apprentissage du modèle complet est enO(

d∈DT RAIN

|s_d|+|t_d|).

Le nombre de nœuds d’un document étant très inférieur à son nombre de mots, cette complexité est sensiblement équivalente àO(

d∈DT RAIN

|t_d|)qui est la complexité du modèle Naïve Bayes sur documents plats. En pratique, notre modèle apprend aussi ra- pidement que Naïve Bayes. En inférence, la complexité est également

O(

d∈DT RAIN

|s_d|+|t_d|), i.e. linéaire en fonction de la taille du document.

3.4.2. Adéquation avec le modèle Naïve Bayes plat

Considérons un document plat présenté en figure 5. La probabilité calculée par notre modèle est :

P(d) =

|td|

k=1

P(w_d,k|s_d=document) (17) C’est l’équation du modèle Naïve Bayes. Dans le cas de documents plats, cette instance de notre modèle est équivalente au modèle Naïve Bayes. Ce modèle structuré constitue une extension du modèle Naïve Bayes.

3.5. Modèle multimédia Texte + Image

Nous allons considérer ici que, pour un documentdde contenut_d, l’information tⁱ_dest soit du texte, soit une image. Dans le cas d’un nœud de texte, nous utiliserons le modèle Naïve Bayes comme présenté précédemment. Dans le cas d’un nœud image nous utiliserons un modèle génératif simple présenté ci-dessous. D’autres modèles peuvent bien sûr être utilisés. Nous introduisons cet exemple pour montrer que notre modèle permet une intégration naturelle de différentes sources d’information.

(14)

Figure 6. Un document structuré comprenant une image et un texte

La figure 6 donne un exemple de document de ce type.

3.5.1. Modèle d’image

Si le contenutⁱ_d est une image, nous le représentons par un histogrammetⁱ_d = (pⁱ_d,1, ..., pⁱ_d,nc)oùncest le nombre de couleurs de l’image etpⁱ_d,kest le nombre de pixels de l’image de couleurk. Nous normalisons les images de façon à ce qu’elles possèdent toutes le même nombre de couleurs dans l’espace de couleur RGB et qu’elles soient toutes composées deN ppixels (normalisation de la taille).

Le modèle génératif permettant de calculer la vraisemblance de l’image tⁱ_d est alors, sous l’hypothèse de l’indépendance des composantes de l’histogramme :

P(tⁱ_d|θ_si d) =^nc

k=1

P(P_k =pⁱ_d,k|θ_si

d) (18)

Ce modèle est un modèle simple de génération d’image. Nous avons effectué dif- férents tests dans d’autres espaces de couleur (LSI notamment) ainsi qu’avec d’autres caractéristiques des images comme des moments ou des textures. Les meilleurs résul- tats ont été obtenus avec une caractérisation uniquement dans l’espace des couleurs avec une légère préférence pour l’espace RGB. Le modèle présenté peut sûrement être amélioré, mais offre déjà des performances de bon niveau.

3.5.2. Apprentissage du modèle d’image

Comme pour le cas du texte, apprendre le modèle génératif revient à compter le nombre de fois où une certaine couleur apparaît pour les images possédant une éti- quette donnée. Nous ne détaillons pas les équations qui sont similaires à ce que l’on a déjà vu pour le texte.

(15)

4. Des modèles génératifs aux modèles discriminants : les noyaux de Fisher Les modèles génératifs permettent de représenter des données complexes comme des séquences ou encore des arbres comme nous venons de le voir. Par contre, ils abordent le problème de discrimination de façon indirecte via l’estimation de densité.

Les modèles discriminants résolvent directement le problème de discrimination et se révèlent en général plus efficaces pour cela. En revanche, la plupart de ces modèles ne permettent de traiter que des données vectorielles. Récemment, pour la classification de séquences biologiques, Jaakkola a proposé d’utiliser ([JAA 99]) l’information capturée dans les paramètres d’un modèle génératif pour entraîner un modèle discriminant. Cette idée a été reprise par différents auteurs [HOF 00]. Elle est attractive car elle permet d’utiliser sur des données complexes toute la palette des classifieurs vectoriels classiques. Nous proposons une extension de cette méthode développée pour les séquences aux arbres. Nous introduisons tout d’abord le principe des noyaux de Fisher qui est au cœur de cette méthode.

Soit un modèle génératif de paramètreθ. [JAA 99] propose de calculer, pour chaque exempledle score de Fisher :

U_d=∇θlogP(d|θ) (19) Ce score est le gradient de la log-vraisemblance de l’exempledpour le modèle θ. C’est un vecteur de dimension fixée (la dimension deθ) qui exprime combien un paramètre du modèle génératif contribue à générer un exemple donné.

Grâce à ce score, nous pouvons alors définir une similarité entre deux exemplesx etycomme une fonction noyau :

K(x, y) =U_x^TM⁻¹U_y (20) OùM =E_X[U_X^TU_X].

Ce noyau peut ensuite être utilisé avec n’importe quel classifieur à base de noyau (SVM par exemple). On peut ainsi dès que l’on possède un modèle génératif, obtenir une représentation vectorielle des exemples et une similarité entre exemples qui peuvent être utilisées dans des systèmes discriminants vectoriels classiques. Cette idée peut être naturellement adaptée à notre modèle.

4.1. Application au modèle textuel

Pour les expériences, nous avons appliqué la méthode du noyau de Fisher uniquement au modèle textuel présenté précédemment. L’utilisation sur des images ne pose pas de difficulté supplémentaire. En notantθ_n,mla probabilité qu’un nœud du réseau bayésien final ait une valeurnsachant que son parent à pour valeurn, nous avons :

∂logP(d|θ)

∂θ_n,m = N_n,m^d

θ_n,m (21)

(16)

OùN_n,m^d désigne le nombre de fois où, dans le réseau bayésien représentantd, un nœud d’étiquettenà son parent d’étiquettem.

En pratique, la méthode du noyau de Fisher ne s’applique pas telle quelle et il est nécessaire, notamment quand le nombre des paramètres est très important, de faire un ensemble de simplifications si l’on veut qu’elle conduise à de bonnes performances ([JAA 99], [HOF 00]).

Nous avons choisi d’utiliser les approximations suivantes :

– la matriceM est approximée par la matrice identitéI([JAA 99]), – nous calculons le gradient par rapport à2

θ_n,m([HOF 00]).

Soitρ_n,m= 2

θ_n,m, nous avons :

∂logP(d|θ)

∂ρ_n,m = 2∗ N_n,m^d

ρ_n,m = N_n,m^d

θ_n,m (22)

Cette dernière formule est celle que nous avons utilisée pour le test de notre modèle sur les corpus.

5. Expériences et résultats

Nous présentons les résultats de nos expériences pour les 2 modèles : modèle textuel structuré et modèle multimédia texte+image.

5.1. Modèle textuel structuré

Le modèle textuel structuré a été testé sur deux corpus, l’un, webKB ([WEB 99]) est un corpus de pages HTML, et l’autre, INEX [FUH 02] est un corpus développé à l’origine pour la recherche documentaire sur des documents XML.

5.1.1. Corpus

Le corpus WebKB [WEB 99] est composé de 8282 documents HTML issus de sites web de départements d’informatique de diverses universités. Il est devenu un corpus de référence dans la communauté Apprentissage pour la classification de documents HTML et pour la classification de documents structurés en général. Il est composé de 7 classes : student, faculty, course, project, department, staff, other. Other est une classe « poubelle » et elle est ici ignorée comme il est de coutume dans les tests.

Il reste alors 4 520 documents. Nous avons utilisé le Stemming de Porter et enlevé tous les termes qui apparaissent dans moins de 5 documents. La taille du vocabulaire est alors de 8 038 termes. Nous avons gardé les tags qui apparaissent fréquemment (H1,H2,H3,TITLE,B,I,A). Nous avons pratiqué une validation croisée à 5 ensembles (80 % pour l’apprentissage et 20 % pour le test).

(17)

cou. dep. sta. fac. stu. pro. Macro Micro Naive Bayes (NB) 0.96 0.93 0.07 0.67 0.91 0.65 0.70 0.81

BN Model 0.96 0.82 0.03 0.72 0.93 0.76 0.70 0.83

SVM 0.90 0.79 0.17 0.85 0.91 0.77 0.73 0.85

NB + Fisher 0.95 0.77 0.17 0.82 0.91 0.71 0.72 0.85 BN + Fisher 0.95 0.83 0.14 0.84 0.94 0.72 0.73 0.87 Tableau 1. Performance des 5 classifieurs testés sur le corpus WebKB

Macro Micro

Naive Bayes 0.61 0.64

BN Model 0.67 0.66

SVM 0.71 0.70

Naive Bayes Fisher 0.69 0.69

BN Model Fisher 0.72 0.71

Tableau 2. Performance des 5 classifieurs sur le corpus INEX

Le corpus INEX [FUH 02] est un corpus récent devenu une référence dans le domaine de la recherche documentaire sur des documents XML. Il est composé d’articles de différents journaux et proceedings de la IEEE Computer Society. La base contient environ 15 000 articles de 18 journaux différents. Nous avons utilisé le Stemming de Porter et enlevé les mots qui apparaissent dans moins de 50 documents. La taille fi- nale du vocabulaire est de 50 000 termes et le nombre de tags est d’environ 100. Nous avons fait une coupure aléatoire afin d’utiliser 50 % des documents en apprentissage et 50 % en test. La tâche consiste à classifier les articles dans le bon journal (18 classes).

5.1.2. Résultats

Les deux corpus étant des corpus de type multiclasses disjointes, nous utiliserons comme critère de performance le rappel micro-average et macro-average pour chaque classe. Le rappel micro-average est le rapport entre le nombre de documents correc- tement classés par rapport au nombre total de documents. Le rappel macro-average est la moyenne des rappels pour chacune des classes. Dans le cas de la classification multiclasses disjointes, le rappel micro-average et le rappel macro-average sont des mesures de performances suffisantes pour apprécier la qualité des modèles. Les résul- tats pour les deux corpus sont présentés dans les tableaux 1 et 2. Pour le corpus INEX, nous ne donnons que les performances moyennes vu le grand nombre de classes.

Nous avons utilisé le modèle Naïve Bayes comme classifieur de référence pour le modèle génératif et les SVMs ([JOA 98]) comme référence pour la version discrimi- nante.

(18)

PORNO GENERAL AMBIGUS TOTAL NON PORNO

French 830 2042 420 2462

English 3808 1827 640 2467

German 357 1428 290 1718

Dutch 349 1200 220 1420

Portuguese 63 200 93 293

Spanish 530 1448 641 2089

Greek 309 870 359 1229

Italian 386 1138 223 1361

Total 6614 10153 2886 13039

Tableau 3. Composition de la base de données

Sur WebKB, le modèle BN est de 3 % supérieur en micro-average au modèle Naïve Bayes. C’est un résultat encourageant et supérieur à ce qui a déjà été publié sur ce corpus ([DIL 01]). Le modèle de Fisher l’augmente quant à lui de 4 %. Cela correspond à 2 % de mieux que le modèle SVM.

Sur la grande base INEX, notre modèle génératif augmente le micro-average de 2 % par rapport à Naïve Bayes et la méthode du noyau de Fisher augmente encore le score de notre modèle génératif structuré de 6 %, mais seulement de 1 % par rapport au modèle SVM de référence. Les résultats obtenus ici confirment les bons résultats obtenus sur WebKB. Il est important de noter que ces résultats sont les premiers obtenus en discrimination sur une base XML réelle.

5.2. Modèle multimédia texte+image

5.2.1. Corpus

Le corpus utilisé a été construit à partir d’un corpus issu du projet NetProtectII.

Il est constitué d’un ensemble de sites pornographiques et non pornographiques en 8 langues. Nous détaillons en tableau 3 la composition de ce corpus. Il est important de noter que la classe non pornographique contient des sites web généraux ainsi que des sites web ambigus (sexualité, médecine, mariage).

Pour les tests, nous avons conservé uniquement les images aux formats JPEG afin de ne pas conserver les éléments de décorations habituellement au format GIF ou PNG. Nous avons coupé le corpus aléatoirement en deux pour l’apprentissage et le test et gardé en test uniquement des documents avec images. Nous avons obtenu 9 711 pages HTML en apprentissage (6 514 NOTPORNO et 3 197 PORNO) et 8 147 en test (6 520 NOTPORNO et 1 627 PORNO). Nous avons enlevé les mots qui apparaissent dans moins de 20 pages.

(19)

Modèle Micro-average Macro-average

Naive Bayes 88.4 89.9

BN Text 92.9 92.5

BN Texte+Image 94.7 93.5

Tableau 4. Rappel Micro-average et Macro-average sur la base NetProtect

5.2.2. Résultats

Le tableau de résultats donne le rappel micro-average et macro-average pour les 3 modèles suivants : le modèle de référence Naïve Bayes, le modèle structuré uniquement textuel et le modèle texte+image. Les résultats sont présentés tableau 4.

Nous voyons que le modèle structuré Texte+Image donne 6 % de mieux que le modèle Naïve Bayes pour le rappel Micro-average et environ 4 % de mieux pour le macro-average. Il est supérieur au modèle structuré textuel de respectivement 2 et 1 % qui lui-même améliore le rappel par rapport à Naïve Bayes de 4,5 et 3 %. Notre modèle texte+image réduit l’erreur de classification de 50 % par rapport au modèle Naïve Bayes qui traite uniquement le texte.

6. Conclusion

Le modèle de document présenté permet de prendre en compte simultanément la structure et le contenu ainsi que des informations de nature différente. Il est basé sur l’existence de modèles génératifs permettant le calcul de la probabilité a priori pour un document plat d’un certain type (texte, image, son). Nous avons instancié ce modèle en un modèle purement textuel ayant pour vocation la modélisation des documents de type XML ou HTML et en un modèle « Texte+Image » qui a été utilisé pour la classification de sites web. Nous avons montré comment à partir de ce modèle génératif, il était possible de construire par le biais du noyau de Fisher un modèle discriminant qui permet en général d’obtenir de meilleures performances quand on travaille à nombre de classes fixé. Des tests ont été effectués sur 3 corpus de grande taille : un corpus de pages web texte, un de documents XML, un corpus web texte + images. Les résultats démontrent les qualités opérationnelles du modèle proposé et des performances supérieures aux modèles plats. Le modèle est générique et peut être décliné en de nombreuses autres instances pour le traitement de documents structurés et multimédias.

7. Bibliographie

[BAR 01] BARNARDK., FORSYTHD., « Combining Textual and Visual Cues for Content- Based Image Retrieval on the World Wide Web », Proc. 8th Int. Conference on Computer Vision, vol. 2, 2001, p. 408–415.

(20)

[BAR 03] BARNARD K., JOHNSON M., FORSYTHD., « Word sense disambiguation with pictures », Workshop on learning word meaning from non-linguistic data, 2003.

[CAS 98] CASCIAM. L., SETHIS., SCLAROFFS., « Combining Textual and Visual Cues for Content-Based Image Retrieval on the World Wide Web », Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, juin 1998.

[CHA 99] CHANY., HARVEYR., SMITHD., « Building Systems to Block Pornography », Challenge of Image Retrieval, 1999.

[DIL 01] DILIGENTIM., GORIM., MAGGINIM., SCARSELLIF., « Classification of HTML documents by Hidden Tree-Markov Models », Proceedings of ICDAR, Seatle, 2001, WA (USA), p. 849–853.

[DUM 00] DUMAISS. T., CHENH., « Hierarchical classification of Web content », BELKIN

N. J., INGWERSENP., LEONGM.-K., Eds., Proceedings of SIGIR-00, ACM Press, 2000, p. 256–263.

[FUH 02] FUHRN., GOVERTN., KAZAIG., LALMASM., « INEX : Initiative for the Eva- luation of XML Retrieval », Proceedings ACM SIGIR 2002 Workshop on XML and Infor- mation Retrieval, 2002.

[HOF 00] HOFMANNT., « Learning the Similarity of Documents : An Information-Geometric Approach to Document Retrieval and Categorization », Research and Development in Information Retrieval, 2000, p. 369-371.

[JAA 99] JAAKKOLAT. S., DIEKHANSM., HAUSSLERD., « Using the Fisher kernel method to detect remote protein homologies », Intelligent Systems for Molecular Biology Conference (ISMB’99), Heidelberg, Germany, août 1999, AAAI.

[JOA 98] JOACHIMST., « Text categorization with support vector machines : learning with many relevant features », Proceedings of ECML-98, Chemnitz, DE, 1998, Springer Verlag, Heidelberg, DE, p. 137–142.

[JON 02] JONESM. J., REHGJ. M., « Detecting Adult Images », rapport, 2002.

[LEW 98] LEWISD. D., « Naive (Bayes) at forty : The independence assumption in information retrieval. », Proceedings of ECML-98,, Chemnitz, DE, 1998, Springer Verlag, Heidelberg, DE, p. 4–15.

[ORT 99] ORTEGAM., PORKAEWK., MEHROTRAS., « Information Retrieval over Multi- media Documents », the SIGIR Post-Conference Workshop on Multimedia Indexing and Retrieval (ACM SIGIR), 1999.

[PIW ] PIWOWARSKIB., DENOYERL., GALLINARIP., « Un modele pour la recherche d’in- formations sur les documents structures », Proceedings of the 6emes journees Internatio- nales d’Analyse Statistique des Donnees Textuelles (JADT2002).

[SEB 02] SEBASTIANIF., « Machine learning in automated text categorization », ACM Com- puting Surveys, vol. 34, n^o 1, 2002, p. 1–47.

[WEB 99] WEBKB, « http ://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/lf, 1999.

[YAN 02] YANGY., SLATTERYS., GHANIR., « A Study of Approaches to Hypertext Cate- gorization », Journal of Intelligent Information Systems, vol. 18, n^o 2/3, 2002, p. 219–241.

[YI 00] YIJ., SUNDARESANN., « A classifier for semi-structured documents », Proceedings of KDD-00, 6th ACM International Conference on Knowledge Discovery and Data Mining, Boston, US, 2000, ACM Press, New York, US, p. 340–344.