Choix des valeurs de traits pour le filtrage

Partie III Filtrage lexical et coordination 129

6.7 Choix des valeurs de traits pour le filtrage

intersections successives peut être inférieur à cet entier ?

Le premier problème illustre la technique employée dans les réductions suivantes pour compter la longueur d’un tour. La deuxième reprend les idées précédentes et ajoute une contrainte sur l’ordre d’utilisation des automates. Toute la difficulté réside dans cette deuxième réduction. Finalement, la troisième réduction n’est qu’une adaptation de la précédente où une partie de l’automate qui compte la longueur du tour est effacée à chaque intersection.

Le dernier problème est le problème de décision sous-jacent au problème d’optimisation qui nous intéresse pour le filtrage. En effet, nous voulons connaˆıtre le meilleur ordre dans lequel réaliser l’intersection des automates de filtrage. Notre problème est donc au moins aussi difficile que IO3.

6.6.4 NP-Compl´ etude

Nous nous bornons ici à donner les résultats. Les preuves sont données complètement en annexe A.

Proposition 5. (IO1) est NP-complet.

Proposition 6. (IO2) est NP-complet.

Proposition 7. (IO3) est NP-complet.

Ce dernier problème correspond à notre méthode de sélection lexicale. Si le problème de décision (avec une borne B donnée) est NP-complet alors trouver la meilleure borne (la plus petite) est encore plus difficile.

6.6.5 Conclusion

Dans cette section ainsi que dans la précédente, nous avons montré des résultats plutôt négatifs :

– d’une part que les automates que nous manipulons sont particuliers. Nous pouvons tirer profit de cette observation et développer des techniques plus efficaces pour effectuer l’intersection. Cependant, la taille de l’automate résultat reste élevée dans le pire des cas

– que la technique globale qui consiste `a enchaˆıner les intersections est intrins`equement difficile.

Nous avons donc intérêt à développer des heuristiques qui permettent de réduire la taille des automates de filtrages et de réduire le nombre d’automates de filtrage. C’est ce que nous allons développé dans la suite.

6.7 Choix des valeurs de traits pour le filtrage

Deux ph´enom`enes rendent difficiles l’intersection de nos automates : la taille de ces automates (section 6.5) et le nombre de ces automates (section 6.6). Nous allons montrer

dans cette section qu’en choisissant soigneusement les valeurs de traits pour construire les automates de filtrage, on peut à la fois diminuer la taille et le nombre des automates. Il y a évidemment un prix à payer. Le critère de correction sera plus lâche et des sélections non saturées seront tout de même retenues.

Pour savoir quels automates de filtrage construire, nous avons proposé de prendre les valeurs de traits présentes avec les polarités → et ← dans les DAP de l’automate de sélections. Beaucoup de valeurs de traits différentes sont présentes dans cet automate.

Nous créons donc de nombreux automates de filtrages plus ou moins redondants et effec-tuons l’intersection de ces automates. Nous avons donc intérêt à choisir notre ensemble de valeurs qui servira de support au filtrage pour qu’il y ait peu d’automates et que ces automates soient petits. Dans [BLRP06] est proposé le choix suivant de valeurs de trait.

Ces valeurs sont construites à partir des valeurs présentes dans l’automate de sélections.

Nous partons de l’observation suivante : d’après la définition des bilan de polarités, pour deux valeurs de traits v₁ et v₂, si v₁ ⊆ v₂ alors pour toute DAP D on a pD(v₂) ⊆ pD(v1). En effet plus v, l’ensemble de valeurs atomiques que l’on passe en argument de la fonction pD, est grand, plus il y a de chance que D contiennent des traits dont toutes les valeurs appartiennent à v, ce qui implique que la valeur de pD(v) est un singleton.

A la limite,` pD(?) est un singleton pour toute DAP D. Mais il existe d’autres valeurs interm´ediaires pour lesquelles on obtient aussi des singletons.

Quel est l’intérêt d’avoir des singletons ? Supposons que nos intervalles soient tous bornés, qu’il sont tous inclus dans [−K;K] (ce qui est le cas en pratique, 3 semble être une borne naturelle). Or sur cette partie des entiers [−K, K] il existe évidemment moins de singletons (il y en a 2K + 1) que d’intervalles en général (il y en a (K + 1)(2K + 1)). Nous avons donc intérêt à choisir des valeurs de traits pour lesquelles les états de l’automates sont des singletons. Les automates seront donc petits, et l’automate résultat de l’intersection sera également petit.

Pour illustrer ce point, consid´erons la figure 6.7. Comparons le bilan de polarit´e pour les valeurs np, n et{np, n}.

– p(np) = [−2;−1] n’est pas un singleton – p(n) = [−1; 0] n’est pas un singleton – p({np, n}) = [−2;−2] est un singleton

On retrouve ces différences au niveau des automates de filtrage des valeurs np, n et {np, n} pour la phrase Jean de qui la femme de Pierre est amoureuse dort. représentés sur les figures 6.8, 6.9 et 6.10.

L’automate obtenu à la fin de notre méthode de filtrage est identique, que l’on prenne les deux automates A(n) et A(np) ou uniquement l’automate A({n, np}). En revanche, utiliser uniquement le dernier automate permet d’arriver plus vite au résultat.

Comment choisir un ensemble de valeurs pour lesquelles bilans de polarit´es seront le plus souvent des singletons et qui permettent de filtrer efficacement n´eanmoins ?

Premièrement, notre première observation ci-dessus indique que si des valeurs de traits présentes dans l’automate de sélections sont ordonnées par la relation ⊆alors on peut se contenter de ne garder que l’élément maximal. On réduira la taille des intervalles et on aura donc plus de chance d’avoir des singletons. AppelonsSpol le sous-ensemble des valeurs de traits présentes dans l’automate initial avec les polarités → et ← dont on ne garde que les valeurs maximales par ⊆. Pour réduire encore le nombre de valeurs, considérons

6.7. Choix des valeurs de traits pour le filtrage

cat -> s

mood = <1>ind | subj tense = <4>?

cat = v

mood = <1>ind | subj num = <2>sg

mood = <1>ind | subj num = <2>sg pers = <3>1 | 3 tense = <4>?

Figure 6.7 – Une DAP associ´ee `a reste

DProperNoun_10

Figure 6.8 – Automate de filtrage pourn : 22 ´etats, 658560 chemins

DProperNoun_10

Figure 6.9 – Automate de filtrage pour np : 22 ´etats, 76160 chemins

DProperNoun_10

Figure 6.10 – Automate de filtrage pour {np, n}: 20 ´etats, 69940 chemins

6.8. Informations syntaxiques et filtrage : le cas de la coordination

Dans le document TH`ESE Lacoordinationdanslesgrammairesd’interaction (Page 167-171)