Notre approche de validation Web - La validation par le Web

6.3 Le ﬁltrage des objets complémentaires

6.3.2 La validation par le Web

6.3.2.2 Notre approche de validation Web

L’approche de validation par le Web que nous proposons a pour objectif de mesurer la dépendance entre un verbe et un objet d’une relation induite aﬁn d’établir un classement par pertinence des relations. Pour cela, nous interrogeons le Web en fournissant à un moteur de recherche une requête (relation syntaxique) sous forme de chaîne de caractères (par exemple, “consommer un fruit”). Cette approche présente la particularité de reﬂéter la popularité d’une relation syntaxique sur le Web, s’adaptant ainsi à une époque ou une certaine mode d’écriture. Plusieurs questions se posent alors.

1. L’information donnée par le Web est-elle un bon indice de plausibilité ?

2. Comment formater une chaîne de caractères afin de décrire une relation syntaxique ? 3. Comment introduire des informations contextuelles du Web afin de prendre en compte la popularité d’une relation syntaxique et de chaque terme la composant. En d’autres termes, est-il suffisant d’interroger le Web avec uniquement une relation syntaxique ?

• Le premier point pose le problème de la qualité des informations fournies par le Web. Le moteur de recherche de Yahoo ! indexait plus de 10 milliards de pages Web en Août 200537_{. Ceci donne alors un ordre d’idée du nombre d’utilisateurs contribuant}

à la création de ces pages Web. Ainsi, est il audacieux d’affirmer que la fréquence des pages retournées par Yahoo ! lors de la soumission de termes reflète, dans une certaine mesure, la popularité de ces termes dans une société (francophone dans notre cas, sachant que nous ne traitons que la langue française) ? Nous émettons cette hypothèse afin de proposer cette approche visant à mesurer la dépendance entre un verbe et un objet d’une relation induite. En effet une simple expérience consistant à interroger le moteur de

Yahoo ! avec un terme mal orthographié et un second bien orthographié montre que les ressources du Web reﬂètent une certaine qualité. Par exemple :

– antropofagie = 122 pages indexées contenant ce terme

– anthropophagie = 197 000 pages indexées contenant ce terme

• Bien que notre approche soit similaire à celle de [Cilibrasi & Vitanyi, 2007], rappelons que nous devons soumettre au moteur de recherche une relation syntaxique. Supposons respectivement que consommer et fruit représentent un verbe et un objet d’une relation syntaxique38_{. Le fait de mesurer la qualité d’une telle relation en s’intéres-}

sant au nombre de pages retournées par un moteur de recherche contenant consommer et fruit n’est pas pertinent car l’information portée par la relation syntaxique n’est pas prise en compte. Ainsi, nous proposons d’eﬀectuer une requête sous forme de chaîne de caractères entre doubles quottes, aﬁn de conserver le caractère séquentiel d’une relation syntaxique.

Nous devons alors dans un premier temps lemmatiser la relation syntaxique in- duite. Puis nous soumettons par exemple la requête “consommer fruit” au moteur de recherche. Cependant, il est peu probable que cette séquence retourne des résultats. En effet, en français, une relation syntaxique est souvent séparée par des articles comme “le” ou “un” produisant les relations “consommer le fruit” ou bien “consommer un fruit”. Ainsi, il nous est nécessaire d’introduire dans notre requête cinq articles fréquemment utilisés en français : un, une, le, la, l′_{. Il en résulte alors cinq requêtes contenant chacune} un article différent. Nous devons par ailleurs déterminer quel est l’article le plus adapté à une relation syntaxique donnée afin de limiter la quantité de bruit pouvant apparaître. Nous proposons deux variantes : une première dont le principe est de sélectionner la requête retournant un nombre maximal de pages Web et une seconde faisant la somme des résultats de chaque requête. Nous présentons ci-dessous un exemple de calcul de plausibilité pour la relation syntaxique induite “consommerfruit” issue de la figure6.2. Nous soumettons dans un premier temps au moteur de recherche les cinq requêtes prenant en compte les articles.

nb(“consommer un fruit′′_{) = 571 pages contenant cette séquence} nb(“consommer une fruit′′_{) = 0 page contenant cette séquence} nb(“consommer le fruit′′_{) = 875 pages contenant cette séquence} nb(“consommer la fruit′′_{) = 2 pages contenant cette séquence} nb(“consommer l’fruit′′_{) = 0 page contenant cette séquence}

Notons que la fonction “nb(x)” calcule le nombre de pages retournées lors de l’interroga-

38_{Notons que l’approche présentée dans cette section, bien qu’originalement créée pour mesurer la}

tion d’un moteur de recherche en lui soumettant une requête x.

Dans le cas d’une relation syntaxique de type verbe-objet nous noterons cette fonction nb(v, o) avec v le verbe et o l’objet. Alors, nos deux méthodes utilisant la somme ou le maximum seront notées respectivement nbsum(v, o) et nbmax(v, o). Nous obtenons avec notre exemple les résultats suivants :

nbsum(v, o) = 571 + 0 + 875 + 2 + 0 = 1448 nbmax(v, o) = max{571, 0, 875, 2, 0} = 875

Remarquons à titre comparatif que nous avons obtenu les scores suivants avec l’autre relation induite issue de la ﬁgure 6.2 “manger essence” :

nbsum(v, o) = 1 + 1 + 0 + 1 + 39 = 42 nbmax(v, o) = max{1, 1, 0, 1, 39} = 39

Nous montrons par cet exemple qu’avec la validation Web, la relation syntaxique “manger essence” est moins plausible que “consommer fruit”.

• Le dernier point de cette section s’interroge sur le fait d’introduire le nombre de requêtes individuelles pour chaque composante de la relation syntaxique à savoir le verbe et l’objet. En eﬀet, si nous sommes en présence d’un verbe ou d’un objet assez rare, la simple interrogation du Web avec nb(v, o) peut se voir pénalisée. Par exemple avec le verbe “quérir” qui est assez rare, la relation “quérir un sac” renvoie seulement 4 résultats soit moins que “manger l′_essence_{”. L’association sémantique de “quérir” et “sac” semble} pourtant plus cohérente que celle de “manger” et “essence”.

Afin de contourner ce problème, nous utilisons différentes mesures statistiques permettant d’introduire l’information portée par le verbe et l’objet de manière individuelle. Certaines de ces mesures ont déjà été utilisées dans la section 3.3.4 dans le but de les comparer à la mesure d’Asium. L’objectif dans ce chapitre est différent, visant à faire ressortir la popularité de relations syntaxiques sur le Web et de mesurer celle-ci sur la base de différentes mesures statistiques. Rappelons que ces dernières mesurent une certaine forme de dépendance entre les mots (verbes et objets dans notre cas). Ces mesures sont les suivantes :

– La fréquence39

– L’information mutuelle

Adaptée à notre approche, l’information mutuelle entre le verbe noté “v” et l’objet noté

39_{La fréquence représente ici uniquement l’interrogation de la relation syntaxique seule avec nb(v, o) et}

“o” d’une relation syntaxique s’écrit :

IM(v, o) = nb(v, o)

nb(v)nb(o) (6.13)

– L’information mutuelle au cube :

IM3(v, o) = nb(v, o) 3 nb(v)nb(o) (6.14) – Le coeﬃcient de Dice : Dice(v, o) = 2 × nb(v, o) nb(v) + nb(o) (6.15)

Ainsi, nous pouvons utiliser huit variantes pour la validation de relations syntaxiques induites avec l’approche “validation Web”. En eﬀet, les quatre mesures présentées ci-dessus utilisent nb(v, o) qui peut être la somme (nbsum(v, o)) ou bien le maximum (nbmax(v, o)).

Remarquons ﬁnalement qu’avec cette approche, les relations populaires sont valorisées. En d’autres termes, une relation qui n’est plus “à la mode” obtiendra un score de plausibilité inférieur à une autre qui pourrait être de moins bonne qualité d’un point de vue sémantique.

Après avoir déﬁni nos deux approches permettant une validation automatique des relations syntaxiques induites, nous proposons dans la section suivante deux manières de les combiner en motivant par la même notre choix.

Dans le document Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes (Page 185-188)