• Aucun résultat trouvé

5.5 Les motifs d’intérêt pour l’annotation par marqueurs

5.5.4 Règles informatives

Sélectionner les motifs afin de ne retenir que les règles d’annotation qui ont une fré-quence et uneconfiance minimales ne nous épargne pas la combinatoire liées aux données et aux enrichissements. Effectivement, lorsque nous fouillons les données, le nombre de motifs qu’il faudra explorer est lié simultanément au nombre de motifs qui couvrent les données et au nombre degénéralisations qu’ils produisent. Ce nombre de motifs à prendre en considération peut devenir rapidement très conséquent. Mais, intuitivement, nous pres-sentons que ces motifs peuvent être très redondants, en particulier lorsqu’ils couvrent les mêmes occurrences dans les données.

Prenons en exemple les données I1 = ‘A/E B/F C/G’, I2 = ‘A/E B/F C/H’ et I3 =

‘A/E B/F D/G’ dans lesquelles nous cherchons les motifs de taillenqui ont exactementf

occurrences (ici en fréquence absolue). Les motifs considérés sont présentés en table 5.1, dont ceux qui couvrent directement (sans généraliser) les données sont distingués par une astérisque. n= 1 n= 2 n= 3 f = 2 ‘C’ ‘B C’ ‘B/F C’ ‘A B C’ ‘A/E B C’ ‘A B/F C’ ‘A/E B/F C’ f = 3 ‘A’ ‘A/E’* ‘B’ ‘B/F’* ‘A B’ ‘A/E B’ ‘A B/F’ ‘A/E B/F’*

Table5.1 – Redondance de motifs extraits

Sur cet exemple minimal, nous voyons que peu de motifs couvrent directement les données. Pourtant, potentiellement, cinq items couvrent directement les données (‘A/E’,

‘B/F’,‘C/G’,‘C/H’ et‘D/G’) et la combinatoire conduirait à explorer, à taillen,5n motifs possibles. Nous constatons que pour n = 3 et f ≥ 2, seuls 4 motifs sont fréquents, au lieu de 125. Ceci nous confirme qu’imposer un seuil de fréquence minimale est efficace pour guider l’exploration. Ce n’est cependant pas suffisant, car nous remarquons qu’avec les généralisations, la combinatoire joue à plein au sein de(Σp) selon la taille des motifs. Dans l’exemple, pour n = 2et f = 3le motif ‘A/E B/F’se généralise en ‘A B’,‘A/E B’,

‘A B/F’) qui concernent tous les mêmes occurrences dans les données.

Nous pouvons illustrer cet effet avec des motifs dédiés à la reconnaissance des entités nommées. Par exemple, il paraît plausible qu’un motif tel que ‘<pers> CELEB/NP </pers> VERB/avoir VERB/rencontrer <pers> CELEB/NP </pers> PREP/à <loc> VILLE/NP </loc>’(pour plus de lisibilité, nous y omettons les tokens) soit suffisamment fréquent pour être extrait. Or, si l’on considère uniquement les généralisations de ses items par la hiérarchie, il génère

26−1 = 63 généralisations. Et ce chiffre sera démultiplié lorsque l’on tiendra compte des généralisations par affixe ou sur marqueurs. Et parmi ces généralisations, celles qui ont les mêmes occurrences dans les données sont empiriquement redondantes.

5.5. LES MOTIFS D’INTÉRÊT POUR L’ANNOTATION PAR MARQUEURS

majeure à relever les motifs, même relativement longs, quicouvrent directement les données pour un seuil de fréquence fixé. Remarquons à ce sujet que la problématique n’est pas spécifique à la fouille de données : les approches orientées données présentés en section3.2, en particulier les CRF, utilisent couramment desfenêtres sur les observations (qui peuvent parfois paraître arbitraires) afin d’être en mesure de paramétrer le modèle dans des temps raisonnables. Dans notre approche, nous cherchons plutôt à comparer et filtrer les motifs parmi les combinaisons engendrées pargénéralisation.

Pour ce faire, nous pouvons exprimer la contrainte d’anti-monotonie en extension, par comparaison des occurrences de motifs dans les données, que nous formulons à l’aide du théorème suivant :

Occurrence et généralisation pour un énoncé : soient deux motifs P ∈ Lp et

Q∈ Lp tels que P ≥g Q et un énoncé de la base de données enrichieI =i1i2. . . in ∈ Lr, alors pour tout(j, k)∈Occ(Q, I), il existe au moins un (j0, k0) tel que(j0, k0)∈Occ(P, I),

j0≥j etk0≤k

Ceci nous permet de raisonner sur les occurrences des motifs lorsqu’ils entretiennent une relation généralisation. Nous dirons ainsi que deux motifs P et Q, tels que P ≥g Q, qui ont même fréquence, ont nécessairement les mêmes occurrences dans les données aux indices près. Par abus de langage, ilscouvrent les mêmes exemples et présentent une forme de redondance. Plus formellement, nous nous appuyons sur le théorème précédent pour définir une relation d’équivalence entre motifs selon leurs fréquences au sein d’une base de données de la manière suivante :

Équivalence de motifs au regard d’une base de données : soient P et Q deux motifs etDune base de données, alorsP estéquivalent à Qau regard de D, notéeP ≡DQ, siP ≥g Qou Q≥g P etF req(P,D) =F req(Q,D)

Cette relation d’équivalence, peut facilement être déclinée sous une forme moins contrai-gnante en considérant les motifs qui couvrentquasiment, les mêmes occurrencesà quelques occurrences près. Ainsi, deux motifs qui couvrent, par exemple à 75%, les mêmes exemples, pourront être considérés équivalent à 25% près. Nous définissons alors de consort :

Équivalence de motifs au regard d’une base de données à δ% près: soient P

etQ deux motifs et D une base de données, alors P estéquivalent à Q au regard de D à

δ% près, notéeP ≡D Q, siP ≥gQ ouQ≥g P et |F req(P,D)−F req(Q,D)| max(F req(P,D), F req(Q,D)) δ

Nous remarquons que cette relation d’équivalence est, par définition de ≥g, réflexive, symétrique et transitive. Ceci va nous permettre de grouper les motifs qui portent sur les mêmes occurrences aux indices près. Et ainsi, nous pouvons filtrer les motifs en ne choisissant, pour chaque classe, que le motif qui la représentera le mieux. Ce choix est évidemment dépendant de la tâche envisagée et des propriétés (précision, robustesse) que l’on souhaite donner aux motifs. Nous définissons pour chaque classe les motif les plus spécifiques, dits maximaux, ainsi que les plus génériques, dits minimaux :

Motif maximal au regard d’une base de données : soientP un motif et D une base de données, alors P est maximal au regard de D s’il n’existe aucun motif Q tel que

P ≥g QetP ≡D Q

Motif minimal au regard d’une base de données : soient P un motif et D une base de données, alors P est minimal au regard de D s’il n’existe aucun motif Q tel que

5.5. LES MOTIFS D’INTÉRÊT POUR L’ANNOTATION PAR MARQUEURS

Q≥g P etP ≡D Q

En fouille de données, les motifs maximaux sont également appelés fermés ouclos, les minimaux, libres. Dans l’exemple précédent, le motif ‘A/E B/F’ est maximal pour f = 3

ainsi que ‘A/E B/F C’ pour f = 2, tandis que ‘A’ et ‘B’ sont minimaux pour f = 3

de même que ‘C’ pour f = 2. Selon la structure du treillis des motifs, il peut y avoir de nombreux minimaux ou maximaux. Dans le cadre théorique que nous avons choisi, comme la hiérarchie sur les items est une forêt, il ne peut y avoir qu’un seul maximal

par classe d’équivalence. Effectivement, d’après les occurrences concernées par une classe d’équivalence, pour toutes combinaisons de≥h,≥aet≥m, s’il existe deux relationsP ≥g Q

etP ≥gR, alors il existe nécessairement unS tel queQ≥g S,R≥g S et bien sûrP ≥g S.

‘A/E’ ‘A B’ ‘B/F’ ‘A’ ‘B’ ‘A/E B’ ‘A B/F’ ‘A/E B/F’ ‘C’ ‘B C’ ‘B/F C’ ‘A B C’ ‘A/E B C’ ‘A B/F C’ ‘A/E B/F C’

Figure 5.3 – Classes d’équivalence des motifs

La figure 5.3 illustre ces classes d’équivalence pour notre exemple sous la forme d’un diagramme de Hasse. Nous y voyons les relations de généralisation (arcs), dont certaines sont des relations d’équivalence (arcs pleins). Les minimaux y sont représentés par des ellipses, les maximaux par des rectangles. C’est ainsi que sera partitionné notre espace de motifs, il reste donc à sélectionner le motif le plus pertinent pour chaque classe d’équiva-lence. Notons également que les classes d’équivalence partitionnent les motifs selon leurs fréquences : cela n’interdit pas pour autant de sélectionner à la fois un motif et une de ses généralisations (ou spécialisations), du moment que leurs fréquences différent.

Dans notre cas, nous nous intéressons plus particulièrement aux motifs qui nous ap-portent le plus d’information pour produire des annotations. A cet effet, nous choisissons le motif le plus spécifique (le moins général) parmi toutes les alternatives équivalentes, ce qui correspond au motif maximal de chaque classe d’équivalence. Et en conséquence, nous sélectionnons ainsi les motifs qui contiennent le plus de marqueurs comme règles d’annotation.

5.5. LES MOTIFS D’INTÉRÊT POUR L’ANNOTATION PAR MARQUEURS

Ainsi, nous focalisons notre recherche sur les règles d’annotation fréquentes, confiantes et maximales au regard de la base de données, que nous appelons règles informatives :

Règle informative : soient P un motif, D une base de données, F ∈ [0,1] un seuil de fréquence et C ∈ [0,1] un seuil de confiance, alors P est une règle informative si P

est une règle d’annotation, si P est maximal au regard de D, si F req(P,D) ≥ F et si

Conf(P,D)≥C

Nous voyons que la formalisation proposée décrit un cadre qui se veut objectif pour ex-plorer les données. Dans la ligne de notre perspective destructurationà l’aide d’instructions locales, nous avons soigneusement évité, alors que nous nous appuyons sur les données, de considérer que la présence de marqueurs d’annotation ne se traduise comme une classifi-cation de items. Nous décomposons la problématique comme une exploration des données, simultanément sur l’axe ontologique (hiérarchie) et sur l’axe structurel (motifs séquen-tiels et contigus, présence de marqueurs) des données. Celle-ci nous conduit à extraire des

règles d’annotation relatives aux marqueurs des annotations en entités nommées. Quoique contrainte, l’extraction desrègles informatives nous permettra de constituer une ressource à la fois riche et précise pour mettre en œuvre la reconnaissance des entités nommées.

Chapitre 6

Exploiter les règles d’annotation au

sein d’un modèle numérique

6.1 De l’utilisation des règles extraites

Comme nous l’avons mentionné en section 3.2 et 4.3, à notre connaissance peu de travaux font un lien direct entre l’exploration en profondeur des données (fouille, motifs) et l’utilisation des motifs pour ajuster automatiquement les paramètres de systèmes pour des tâches dédiées (inférence bayésienne, régression logistique, SVM, CRF). La majorité des approches tiennent effectivement pour acquis que les motifs extraits sont déterministes et peuvent, au mieux, être ordonnés [Liuet al., 1998].

Comme exposé en chapitre 3, nous cherchons à faire un rapprochement entre l’ex-ploration exhaustive de données symboliques et le paramétrage automatique de systèmes numériques. Les premiers se focalisent sur l’extraction de connaissances complexes que l’humain pourra étudier (règles). Les seconds ajustent les poids liés des fonctions caracté-ristiques (traits discriminants) selon une fonction d’erreur à minimiser. Dans de nombreux cas, l’articulation entre les deux est réalisée manuellement : un ensemble de règles jugées intéressantes par un expert pourront être ajoutée comme traits disponibles pour un sys-tème orienté données (par exemple, les motifs à fenêtres d’un CRF). Nous réalisons cette étape automatiquement.

L’exploration des données nous permet d’alimenter un système en règles qui encodent une connaissance riche. Ces règles se fondent sur la séquentialité et la contiguïté des élé-ments qui composent les motifs. Hormis cela, le langage dont nous nous sommes doté est relativement peu contraint. De ce fait, l’adéquation des règles à la reconnaissance d’entités nommées repose sur la pertinence des enrichissements qui forment la hiérarchie des items et des critères retenus pour sélectionner et filtrer les motifs. Une fois les règles extraites, rien ne nous empêche de les utiliser telles quelles pour réaliser la tache d’annotation vi-sée. Reste donc à déterminer selon quel modèle les règles seront mises en application pour réaliser l’annotation.

Immédiatement, nous voyons qu’il est possible d’appliquer les règles telles qu’elles ont été extraites, c’est à dire selon la corrélation qu’elles établissent entre le langage naturel