SelDeF - Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fo

6.3 Le filtrage des objets complémentaires. . . 156

6.4 Synthèse . . . 177

Nous présentons dans ce chapitre les modèles théoriques de diverses approches ayant été expérimentées dans le chapitre 7. Ces travaux ont été publiés dans [3 - MAW’09], [5 - ECIR’09], [12 - TOTh’09], [14 - EGC’09] et [17 - EvalECD’09].

6.1 Vers un nouveau modèle

Après avoir présenté dans la section 3.4 un modèle de sélection de descripteurs pertinents en se fondant sur l’information syntaxique donnée par un corpus, nous avons appliqué ce modèle à la classiﬁcation automatique de données textuelles. Notre approche d’enrichissement de corpus à partir de ces descripteurs est nommée ExpLSA. L’utilisation des diﬀérents paramètres proposés dans le modèle SelDe ont permis de mettre en valeur celui-ci face au modèle initial proposé par D. Faure27_{. Cependant, l’approche}

proposée dans la section3.4 utilisant SelDe n’a pas permis d’améliorer dans tous les cas les résultats de classification, qu’il s’agisse de classification de textes ou de classification conceptuelle.

Par ailleurs, les résultats obtenus avec la classiﬁcation conceptuelle sont d’une manière

générale assez décevants en utilisant l’approche LSA. L’approche ExpLSA permet cependant d’améliorer les résultats dans certaines configurations. Cela signifie qu’une approche de type “statistique” comme LSA peut être pertinente mais pas nécessairement adaptée à la tâche de classification conceptuelle.

Nous employons en effet dans le chapitre4un paradigme visant à regrouper des termes via l’approche statistique LSA (que nous pouvons enrichir avec ExpLSA mais le paradigme reste le même). Ces termes sont alors regroupés afin de former des concepts. Cette approche est néanmoins discutable au vue des résultats obtenus lors de nos expérimentations. Une hypothèse que nous formulons est le manque d’utilisation d’informations syntaxiques lors de la sélection et du regroupement de ces termes. Bien que l’approche ExpLSA ait pour objectif de combler ces lacunes, la sélection des termes servant à construire une classification conceptuelle est toujours menée par le biais d’une approche statistique. Celle-ci comprend les étapes de la vectorialisation des phrases du corpus (enrichis ou non) via LSA puis la classification conceptuelle proprement dite est effectuée par des algorithmes statistiques usuels tels que les k plus proches voisins.

Nous présentons dans ce chapitre un nouveau modèle de sélection de descripteurs : SelDeF, pour Sélection de Descripeurs avec Filtrage. Comme nous le montrerons dans les chapitres 6 et 7, le paradigme de ce modèle est plus adapté à la tâche de classiﬁcation conceptuelle.

6.2 SelDeF

6.2.1 Description générale du modèle

Le second modèle SelDeF s’appuie sur SelDe pour la sélection de descripteurs. Les étapes communes entre les deux modèles sont rappelées ci-dessous :

1) Extraction des relations syntaxiques d’un corpus d’origine (en utilisant l’analy- seur syntaxique Sygfran).

2) Mesure de la proximité sémantique des verbes des relations syntaxiques extraites (en utilisant la mesure de proximité d’Asium).

3) Sélection des couples de verbes jugés proches (couples de verbes partageant un certain nombre d’objets en commun).

4) Regroupement des objets des verbes jugés proches. 5) Distinction des objets communs des complémentaires.

L’ensemble de ces points sont représentés par l’étiquette “SelDe” dans la ﬁgure

Fig. 6.1 – Le modèle SelDeF

est le filtrage des objets complémentaires, sur lequel nous reviendrons dans la section suivante. Ainsi, en sortie du modèle, nous obtenons les objets communs (nativement de qualité car originalement présents dans le corpus) et les objets complémentaires filtrés par différentes approches qui vont définir les descripteurs pertinents.

La section suivante montre l’intérêt du modèle SelDeF en motivant la nécessité de ﬁltrer les objets complémentaires. Nous rappelons dans un premier temps comment distinguer ces objets par rapport aux objets communs de verbes.

6.2.2 Pourquoi un second modèle ?

En se référant à la figure6.2, rappelons qu’une relation induite est formée d’un verbe et d’un objet complémentaire. Par exemple sur cette figure, une relation induite peut être la relation “consommer fruit”. Les relations syntaxiques ainsi formées ne sont pas native- ment présentes dans le texte et bien qu’apportant une information nouvelle, elles peuvent introduire une quantité non négligeable de bruit. Par exemple la relation induite formée par les termes “manger essence”, extraite de la figure 6.2, n’est pas d’un point de vue pragmatique “acceptable”. Dans le système d’Asium original [Faure & Nedellec, 1999], une sélection manuelle des objets complémentaires est effectuée. Une telle tâche peut se révéler trop coûteuse, trouvant ses limites avec un nombre de relations induites trop im- portant, rendant l’expertise très fastidieuse.

Le modèle SelDeF permet quant à lui d’utiliser outre les objets communs des relations syntaxiques d’un corpus, les objets complémentaires (contrairement à SelDe).

Fig. 6.2 – Objets communs et complémentaires des verbes “consommer” et “manger”.

Un objet complémentaire pertinent est ainsi déﬁni comme un objet, qui, associé au verbe avec lequel il forme une relation induite, produit une relation syntaxique plausible et acceptable d’un point de vue pragmatique.

Nous proposons deux approches afin de filtrer les objets complémentaires. Le principe est de produire une liste ordonnée en termes de cohérence de relations syntaxiques induites. Une première approche considère une relation syntaxique comme une combinaison de dif- férents concepts en se fondant sur un thésaurus [Larousse, 1992]. Ce thésaurus propose une indexation d’un nombre conséquent de termes de la langue française en définissant chacun d’eux comme une combinaison de concepts d’ordres généraux. Une telle représentation se fondant sur les concepts du thésaurus est nommée “approche des vecteurs sémantiques”, qui sont un type de vecteurs d’idées présentés en section 2.2.2.3. La seconde approche est fondée sur les ressources du Web. Elle utilise le nombre de résultats retournés par un moteur de recherche et différentes mesures statistiques afin de former une mesure de “popularité” des relations syntaxiques. Nous combinerons finalement ces deux approches. Nous présentons dans la section suivante le détail des méthodes proposées dans cette thèse.

6.3 Le ﬁltrage des objets complémentaires

Dans le document Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes (Page 168-171)