• Aucun résultat trouvé

3.4 Le modèle SELDE

3.4.3 La sélection des objets en tant que descripteurs

Une fois les verbes d’un corpus jugés sémantiquement proches avec la mesure d’Asium et les objets de ces verbes regroupés, nous devons sélectionner certains de ces objets constituant nos descripteurs (étape 5 de la figure3.12). Dans un premier temps, nous nous intéressons à la provenance des objets. Sont-ils objets des deux verbes du couple ou d’un seul ?

Ainsi, nous distinguons deux types d’objets à ces verbes : – Les objets communs

– Les objets complémentaires

Considérons deux verbes sémantiquement proches V1 et V2.

Soit ObjV1

1 ...ObjnV1 et Obj V2

1 ...ObjmV2 les objets des verbes V1 et V2.

ObjV1

i (i ∈ [0, n]) est appelé un objet commun si ∃j ∈ [1, m] tel que Obj V1

i = Obj V2

j . Si ObjV1

k (et respectivement Obj V2

k ) n’est pas un objet commun, alors la relation syntax- ique V2-ObjkV1 (et respectivement V1-ObjkV2) est appelée relation syntaxique induite et l’objet ObjV1

k est appelé objet complémentaire.

Par exemple, dans la figure 3.14 où les verbes consommer et manger sont jugés proches, nous identifions les objets de ces deux verbes : essence, légume, nourriture et fruit. Les objets légume et nourriture sont des objets communs aux deux verbes consommer et manger. L’objet fruit qui est objet du verbe manger est un objet complémentaire du verbe consommer, tout comme l’objet essence pour le verbe manger. Les relations syntaxiques induites sont donc sur l’exemple de la figure 3.14

Fig. 3.14 – Objets communs et complémentaires des verbes “consommer” et “manger”.

les relations manger essence et consommer fruit. Notons que ces relations syntaxiques induites sont des connaissances nouvelles “apprises” à partir des corpus car elles ne sont pas explicitement présentes dans les données textuelles.

Nous utilisons dans le modèle SelDe uniquement les objets communs des verbes. Mais ces objets complémentaires ont un intérêt essentiel qui sera développé dans le chapitre 6 traitant du modèle SelDeF (Sélection de Descripteurs avec Filtrage). La section 3.4.4 discutera à la fin de ce chapitre de ces objets complémentaires et montrera qu’une simple sélection statistique de ceux-ci ne peut être pertinente.

3.4.3.2 Le Seuil d’Asium – SA

Afin de considérer deux couples de verbes comme proches avec la mesure d’Asium, nous devons fixer un seuil. Celui-ci, que nous noterons dans la suite de ce mémoire SA pour Seuil d’Asium, doit en effet déterminer quelle valeur obtenue avec le score d’Asium doit être atteinte afin de considérer deux verbes comme proches. Rappelons que les scores obtenus avec la mesure d’Asium appartiennent à l’intervalle [0, 1].

Ainsi, un seuil SA fixé à 0, 9 signifie un nombre réduit de descripteurs sélectionnés car peu de verbes vont obtenir un score supérieur à 0, 9. Mais ceci implique un regroupement de descripteurs (objets) de meilleure qualité car le score est assez proche de 1, score signifiant que les deux verbes partagent exactement les mêmes objets. À l’inverse, un score de 0, 6 signifie un nombre important de descripteurs mais de moins bonne qualité. Notons fixer des scores SA à 0,6 ou bien à 0,9 revient à favoriser respectivement le rappel ou la précision avec notre approche.

Par exemple, avec un corpus d’une taille moyenne d’environ 600 000 mots : – 3132 couples de verbes ont obtenu un score d’Asium supérieur ou égal à 0, 6 – 255 couples de verbes ont obtenus un score d’Asium supérieur ou égal à 0, 9

Un exemple de couples de verbes ayant respectivement obtenu un score supérieur à 0,9 et un score supérieur à 0,6 (mais inférieur à 0,7) est donné ci-dessous. Les objets communs de ses couples, définissant nos descripteurs avec SelDe, sont également reportés.

Couple de verbes = analyser-traiter, objets communs : “cas(6 occurrences), problème(18), situation(3), sujet(2), question(3)”

Couple de verbes = sentir-manifester, objets communs : “présence(2), autonomie(2), inquiétude(2), intérêt(2), attention(5), résistance(2)”

Nous remarquons avec les exemples ci-dessus que le nombre de couples de verbes est en effet bien supérieur pour un score d’Asium au delà de 0, 6 par rapport à 0, 9. Notons par ailleurs que la proximité sémantique des verbes obtenus avec le couple analyser-traiter est avérée. Cette même proximité est plus discutable pour le couple sentir-manifester. En effet, rappelons que plus le score d’Asium est proche de 1 et plus la proximité établie entre deux verbes sera avérée.

Rappelons pour finir qu’avec l’utilisation de SelDe, seuls les objets communs vont être utilisés comme descripteurs et non les objets complémentaires. L’utilisation de tels objets sera abordée avec le modèle de sélection de descripteurs filtrés SelDeF (section 6.2).

3.4.3.3 Les différents paramètres pour la sélection de descripteurs

Nous présentons dans cette section les paramètres que nous avons définis afin d’améliorer la sélection effectuée dans l’approche d’Asium originale.

Le nombre d’occurrences d’un objet : NbOccMin et NbOccMax.

Dans un corpus donné, le nombre d’occurrences des mots est dépendant de chaque mot. En d’autres termes, tous les mots ne reviennent pas à la même fréquence. Une loi empirique énoncée en 1936 par le sociologue américain G. Zipf (publié dans [Zipf, 1941]) indique que si nous classons les mots d’un texte donné par ordre décroissant de leur nombre d’occurrences, la fréquence du kième mot est approximativement proportionnelle à 1/k. Ainsi, si le mot le plus fréquent d’un corpus a pour nombre d’occurrences occmax, alors le moins fréquent du même corpus se voit classer au rang occmax, si son nombre d’occurrences est minimal.

Nous proposons dans ce paragraphe de nous concentrer sur le nombre d’occur- rences d’un objet pour une relation syntaxique donnée. Par exemple, combien de fois l’objet “viande” a-t’il été objet du verbe “manger” ? En effet, il existe dans un texte un nombre très important de termes présents une seule fois dans un corpus et à l’inverse un

nombre important d’occurrences de termes peu fréquents, en suivant plus ou moins la loi de Zipf. Deux cas doivent ainsi être considérés pour les relations syntaxiques : un nombre d’occurrences trop faible et trop élevé.

Le premier cas propose de ne pas sélectionner les objets rares qui, suivant la tâche pour laquelle nous utiliserons les descripteurs, pourront s’avérer pertinents. Par exemple pour une tâche d’enrichissement de corpus, un terme trop isolé n’apportera pas d’information supplémentaire. Nous notons ce paramètre nbOccMin.

Le second aura la conséquence inverse à savoir ne pas sélectionner les objets trop fréquents du corpus pour un couple de verbe donné. Par exemple, afin d’effectuer une tâche d’indexation de documents, utiliser toujours le même mot-clé afin de décrire un document ne se révèle pas très judicieux. Nous notons ce second paramètre nbOccMax. Il est donc nécessaire de trouver un compromis entre ces deux paramètres. Ainsi, pour résumer l’utilisation de ces deux paramètres, nous sélectionnerons les descripteurs en fonction de leur nombre d’occurrences, tel qu’appartenant à l’intervalle indiqué ci-dessous :

nbOccM in ≥ Descripteurs sélectionnés ≥ nbOccMax Limiter le nombre d’objets résultant de chaque couple : nbObj.

Un autre paramètre présenté dans cette section permet de limiter le nombre d’objets ré- sultant de chaque couple de verbes jugés sémantiquement proches. Un tel paramètre va permettre par exemple de ne pas avoir un nombre trop important d’objets par couple. Il n’est en effet pas rare d’obtenir plus d’une cinquantaine d’objets distincts pour un couple de verbes. Ainsi ce paramètre fixe un nombre maximal d’objets possibles par couple. Par exemple si nbObj vaut 5, seulement cinq objets par couple de verbes seront conservés. Cependant, avec ce seul paramètre, nous ne pouvons pas extraire d’objets précis. Prenons par exemple le couple de verbes précédemment cité :

analyser-traiter, objets communs : “cas(6 occurrences), problème(18), situation(3), su- jet(2), question(3)”

En fixant nbObj à 2, quels objets allons nous conserver ? Afin de remédier à ce problème nous introduisons le nombre d’occurrences à cette sélection. Nous proposons en effet de ne conserver que les objets plus fréquents ou les moins fréquents en termes de nombre d’oc- currences. Un terme fréquent va en effet être plus représentatif d’un corpus, cependant, les objets moins fréquents sont porteurs d’informations nouvelles. Ce choix sera déterminé par le paramètre Order. Celui-ci peut alors prendre les valeurs “c” dans le cas où nous sélectionnons les objets en ordre croissant en terme de nombre d’occurrences ou bien “d” dans le cas contraire. Avec notre exemple précédent, nous extrairions avec Order = c les termes “sujet, question” ou “sujet, situation” et avec Order = d les termes “problème,

cas”. Notons qu’en cas d’égalité, comme c’est le cas dans cet exemple, nous sélectionnons aléatoirement le terme approprié (ici “question” ou “situation”).

Une fois tous les paramètres permettant de sélectionner les descripteurs, nous revenons dans la section suivante sur notre choix, dans un premier temps, de ne pas intégrer les objets complémentaires à SelDe.

3.4.4 Les objets complémentaires dans le modèle SelDe

Les objets complémentaires qui forment avec un verbe des relations syntaxiques induites constituent des connaissances nouvelles, non initialement présentes dans un corpus. En effet, aucun analyseur syntaxique n’est en mesure d’extraire ces relations à partir d’un corpus. Cependant, ces relations sont dans de très nombreux cas porteuses de bruit. Par exemple citons la relation sémantiquement peu probable “manger essence” de la figure 3.14. Il parait alors évident que de telles relations doivent être filtrées, toutes n’étant pas porteuses d’informations de qualité.

Le modèle SelDe propose de filtrer les relations syntaxiques “classiques” en util- isant des paramètres prenant en compte le nombre d’occurrences des objets pour chaque verbe d’un couple (NbOccMax/NbOccMin), mais également le nombre maximum résultant de descripteurs par couple (nbObj). Ces mesures sont efficaces avec des relations syntaxiques classiques car elles en limitent le nombre. Ainsi, des relations peu fréquentes peuvent être éliminées (relations pouvant être apparentées à du bruit dans le corpus) et les trop fréquentes ne peuvent également pas être retenues du fait de leur nature trop homogène dans le corpus, n’apportant pas d’informations utiles. Mais ces paramètres supposent également le fait que ces relations syntaxiques soient existantes dans le corpus, et donc a fortiori plausibles.

Qu’en est-il des relations induites ? Elles n’existent pas à l’origine dans le corpus et ne peuvent donc pas être considérées comme plausibles. Les paramètres précédemment évoqués ne peuvent donc s’appliquer. Prenons par exemple le couple de verbes “sortir- traiter” ayant obtenu un score approximatif de 0, 6 avec la mesure d’Asium. Nous listons ci-dessous les objets résultant de ce couples :

Objets communs : cas(6 occurrences), affaire(4), sujet(2)

Objets complémentaires : vision(1 occurrence), embarras(4), norme(3), commun(13), frontière(1), impasse(4), fléchissement(1), ordinaire(11), dilemme(2), attribution(1), ennui(2), environnement(1), interlocuteur(1), suggestion(1), accident(2), événement(1), ordre(1), divergence(1), demande(1), difficulté(3), problème(17), chiffre(1), dossier(4), aléa(1), imprévu(3), crise(1), situation(2), question(2)

Cet exemple montre tout d’abord qu’un couple de verbe génère beaucoup plus d’objets complémentaires que d’objets communs. Mais il montre également que les objets com- plémentaires sont de moins bonne qualité. En effet, les termes “ordinaire”, “dossier” et “accident” ne semblent pas avoir de cohésion sémantique particulière. Finalement nous montrons par cet exemple que les simples paramètres de SelDe sont insuffisants pour sélectionner des objets complémentaires ayant un sens commun.

La méthode d’Asium [Faure, 2000] suppose une sélection manuelle de ces objets complémentaires, permettant ainsi de les valider. Notre objectif est de produire un modèle de sélection de descripteurs fonctionnant de manière autonome. Ainsi, nous n’avons pas intégré ces relations induites à notre modèle SelDe, mais ces relations sont considérées dans le modèle SelDeF. Ceci est l’objet du chapitre6. Nous proposons dans ce second modèle de traiter les objets complémentaires (et donc les relations induites) avec des méthodes de filtrage plus élaborées que celles de SelDe, utilisant notamment des ressources Web et linguistiques.

Nous conclurons ce chapitre par le paragraphe suivant en motivant l’utilisation de descripteurs hybrides proposées par SelDe. En effet, ces descripteurs sont extraits en utilisant des informations statistiques et linguistiques.