• Aucun résultat trouvé

Chapitre 6 Modéliser l’architecture linguistique d’un système

6.3 Modélisation des ressources du système

6.3.3 Grammaires

Nous distinguons deux types de grammaires. Les grammaires lexicales sont des règles lexicales qui servent d‘extension au lexique, et les grammaires d‘annotation sont des règles d‘annotation, c‘est-à-dire qui vont enrichir du texte avec des métadonnées. Quand les règles sont représentées en « texte libre », nous l‘indiquons par « Métadonnées de règles codées en dur ». Dans ce cas il s‘agit d‘une grammaire écrite par un linguiste dans un language plus ou moins formel et implémentée par un programmeur.

- Grammaire d’interprétation

Clé d‘entrée Etiquette du référentiel d’étiquettes Informations

par clé

Règle d‘interprétation

Format Texte libre

Type Grammaire lexicale. Métadonnées de règles codées en dur

Remarques Cette grammaire définit les conditions de mise en correspondance de l‘unité textuelle et le mot-forme si elles sont différentes des stratégies de mise en correspondance adoptées par défaut.

Exemple L‘équivalence ou non de l‘interprétation d‘un espace ou d‘un tiret dans un même mot composé : tire bouchon = tire-bouchon. L‘importance de la capitalisation ou des diacritiques pour certains mots : Mélodie est nom commun et prénom seulement si le mot est capitalisé.

Formalisation :

 

tInt rInt tInt rInt tInt rInt n

Gint , 1, , 2,..., ,

rInt décrit la stratégie à suivre pour la mise en correspondance des mots-formes f Lg portant les étiquettes concernées tInt avec les unités textuelles.

Objets :

144 Rendu visuel :

Figure 36 : Diagramme de Grammaire d'interprétation

- Grammaire de génération de mots-formes

Clé d‘entrée Un ou plusieurs caractères Informations

par clé

Règle d‘interprétation liée à la clé

Format Texte libre

Type Grammaire lexicale. Métadonnées de règles codées en dur

Remarques La présence des caractères de la clé dans un mot-forme déclenche la génération d‘autres mots-formes ayant la même description Exemple DE : ä > ae, exemple : Bäcker > Baecker (boulanger)

Formalisation :

  

c c cn rGen c c cn rGen c c cn rGenn

Ggen 1, 2,..., , 1, 1, 2,..., , 2,..., 1, 2,..., ,

rGen décrit comment générer les mots-formes à partir des mots-formes contenant les caractères référencés pour les ajouter comme uL au Lexique général et spécifique.

Objets :

c caractère

rGen règle de génération de mots-formes Rendu visuel :

145

- Grammaire de décomposition morphologique

Clé d‘entrée Elément non autonome ou trait descriptif d‘élément non autonome.

Informations par clé

Numéro de la règle, description de la règle, exemple de validation Format Texte libre

Type Métadonnées de règles codées en dur

Remarques S‘applique sur les mots hors lexique. La grammaire décrit les combinaisons possibles des éléments non autonomes avec des mots-formes.

Exemple DE : Calvin Swifts Humor > Swifts = Swift + s;

FR : postatomique (unité textuelle) = post-atomique (mot-forme) Formalisation :

rM rM rMn

Gm 1, 2,...,

rM décrit les combinaisons possibles entre e,Dder ou e,Dagg et f Objets :

Gm grammaire de composition morphologique rM règle de composition morphologique Rendu visuel :

Figure 38 : Diagramme de Grammaire de décomposition morphologique

Ajouts de composants structurels pour la visualisation :

146

- Grammaire de décomposition compositionnelle

Clé d‘entrée Trait de composition Informations

par clé

Numéro de la règle, description de la règle, exemple de validation Format Texte formaté

Type Métadonnées de règles codées en dur

Remarques S‘applique sur les mots hors lexique et les mots du lexique indiqués comme des mots composés à analyser.

Exemple NL : zwemwedstrijd > zwem + wedstrijd (concours de natation) Formalisation :

 

tComp rComp tComp rComp tComp rCompn

Gcomp , 1, , 2,..., ,

rComp décrit une combinaison possible de cat,Tm avec des eComp pour former une unité textuelle,

et tComp est une référence de règle Objets :

Gcomp grammaire de composition rComp règle de composition

tComp référence de règle compositionnelle Rendu visuel :

Figure 39 : Diagramme de Grammaire de décomposition compositionnelle

- Grammaire de génération de formes phonétiques

Clé d‘entrée Une ou plusieurs caractères Informations

par clé

Caractères phonétiques correspondant à la clé, contexte de phonétisation, n° de la règle

Format Texte formaté Type Grammaire lexicale

Remarques Utilisé pour assouplir la recherche. Exemple FR : . archéo . > aRkeo

147 Formalisation :

rPhon rPhon rPhonn

Gphon 1, 2,...,

rPhonuOrtho,uPhon 1, uOrtho,uPhon2,...,uOrtho,uPhonm

uOrtho est une suite de caractères et uPhon est son équivalent phonétique. Objets :

Gphon grammaire de phonétisation rPhon règle de phonétisation Rendu visuel :

Figure 40 : Diagramme de Grammaire de phonétisation.

- Grammaire de classes de flexion

Clé d‘entrée Code de classe de flexion Informations

par clé

Flexions liées à la clé d‘entrée, opérations sur la racine.

Format Texte formaté Type Grammaire lexicale

Remarques Codé en dur ou explicite selon les langues.

Exemple FR : N5 : +  = nom féminin singulier (ex. grotte) + s = nom féminin pluriel (ex. grottes) Formalisation :

rFlex rFlex rFlexn

Gflex 1, 2,...,

rFlex décrit les modalités pour appliquer les flexions d‘une classe de flexion

cf représentée par le code cFlex sur un lemme pour obtenir des unités lexicales.

Objets :

cFlex code de classe de flexion cf classe de flexion

pf paradigme de flexion rFlex règle de flexion

148 Rendu visuel :

Figure 41 : Diagramme de Grammaire declasse de flexion

Ajouts de composants structurels pour la visualisation :

cFlex-cf : nécessaires pour lier la classe de flexion au code la représentant

- Grammaire de désambiguïsation de texte

Clé d‘entrée Suite de catégories grammaticales et/ou d‘unités textuelles du corpus désambiguïsation

Informations par clé

Catégorie grammaticale Format Texte formaté

Type Grammaire d‘annotation

Remarques Appris à partir du corpus du modèle de langage. Constitue ce modèle avec le lexique de désambiguïsation.

Exemple FR : nom > verbe, -1 = pronom, +1 = le Formalisation :

rDesT rDesT rDesTn

GdesT 1, 2,...,

rDesTuT,cat 1, uT,cat2,...,uT,catn ,uT,cat 1, uT,cat2,...,uT,catn

ML Ldes

GdesT

Objets :

GdesT grammaire de désambiguïsation ML modèle de langage

rDesT règle de désambiguïsation de texte Rendu visuel :

149 Ajouts de composants structurels pour la visualisation :

uT-cat : nécessaires pour représenter le couple trait – définition

- Grammaire de désambiguïsation de requête

Clé d‘entrée Suite de catégories grammaticales Informations

par clé

Contexte, une ou plusieurs catégories grammaticales Format Texte libre formalisé

Type Grammaire d‘annotation Remarques Codé en dur

Exemple FR : déterminant&&pronom, + nom > déterminant Formalisation :

rDesR rDesR rDesRn

GdesR 1, 2,...,

rDesR décrit comment désambiguïser un mot-forme f ambigu selon son contexte.

Objets :

GdesR grammaire de désambiguïsation rDesR règle de désambiguïsation de requête Rendu visuel :

Figure 43 : Diagramme de Grammaire de désambiguïsation de requête

- Grammaire de détection d’entités et de relations

Clé d‘entrée Automate Informations

par clé

Type et sous-types d‘entité Format XML

Type Grammaire d‘annotation

Remarques Il existe un automate par type d‘entité extrait. Ces grammaires incluent des listes de mots-formes et de lemmes qui ressemblent à des lexiques. Ce sont néanmoins des listes de contraintes des règles et non pas des entrées lexicales.

150 Formalisation :

  

Aut ent ,Aut ent ,...,Aut ent

Gent 1, 2, n, ,... , _ , ' _ , _ _ , _ _ date ue géographiq nom entreprise d nom personne de nom court nominal groupe ent

et Aut eAut1,eAut2,...,eAutn

eAut test,arc

testu,f,lem,,cat,tM,tS,Gent,ent

Objets :

chemin unité d‘automate ent type d‘entité

Gent grammaire de détection d‘entités nœud unité de chemin

test élément minimal de nœud Rendu visuel :

Figure 44 : Diagramme de Grammaire de détection d'entités

- Grammaire d’inclusion et de chevauchement d’entités

Clé d‘entrée Deux types d‘entité. Informations

par clé

Indication d‘inclusion ou de chevauchement.

Format Texte libre.

Type Grammaire d‘annotation.

Remarques Codé en dur. Déclenche l‘annulation de l‘entité incluse. Exemple Nom de personne inclus dans lieu : annulation du nom de

151 Formalisation :

rIncl rIncl rIncln

Gincl 1, 2,...,

rIncl décrit une inclusion de d‘entité et l‘entité à garder. Objets :

Gincl grammaire d‘inclusion et de chevauchement Rendu visuel :

Figure 45 : Diagramme d’inclusion et de chevauchement d’entités

6.4 Conclusion

Avec l‘architecture linguistique, nous avons formalisé la façon dont les traitements et les connaissances contenues dans les ressources interagissent. Cette formalisation donne une vision sur le système qui est indispensable si on veut le modifier. Dans le cas de l‘ajout d‘un traitement, l‘architecture permet de vérifier le branchement par la disponibilité des connaissances et de savoir si les nouvelles ressources sont compatibles avec les existantes. En cas de modification structurelle d‘une ressource comme la suppression d‘un type d‘information, on peut vérifier quel traitement sera affecté. Cette architecture peut également révéler des points faibles, comme l‘existence de plusieurs ressources contenant les mêmes informations sans qu‘elles soient mises en correspondance. Ce genre de duplication est une source d‘erreurs fréquente mais ne peut pas toujours être évitée, surtout quand plusieurs acteurs interviennent sur la même plate-forme.

Si une connaissance fine de l‘architecture linguistique est également indispensable pour rapidement retrouver la source d‘une erreur, nous l‘avons surtout utilisée dans nos travaux pour concevoir un outil de mise à jour que nous décrivons dans le chapitre suivant (7.2). Indirectement, nous l‘avons également utilisé pour développer les outils de pilotage du chapitre 8 et l‘outil d‘acquisition du chapitre 9.

En règle générale, aucun travail sur les ressources ou les traitements n‘est possible sans une connaissance profonde de l‘architecture linguistique. Celle-ci est souvent l‘œuvre d‘une personne qui en garde le secret, mais ce n‘est que par le partage qu‘il est possible d‘avancer.

153