Caractéristiques techniques de S YGFRAN - S YGMART : un outil de manipulation d’éléments struct

4.3 Analyse syntaxique

4.3.1 S YGMART : un outil de manipulation d’éléments structurés

4.3.2.3 Caractéristiques techniques de S YGFRAN

Modèle d’analyse syntaxique. SYGMART, et donc SYGFRAN, fonctionne dans un mode d’analyse de type calculatoire, par opposition au classique mode combinatoire, selon la classification des modèles d’analyse syntaxiques définis par Jacques Vergne dans [Vergne, 2001]. Certaines caractéristiques de SYGMART le démarquent toutefois de la des- cription du mode calculatoire classique présentée dans cet article :

– les ressources lexicales ne se limitent pas à « des mots grammaticaux, des morphèmes de fin de mots » mais comprennent un lexique généré exhaustif ;

– le processus de calcul exploite bien un ensemble de règles « conditions ⇒ actions », cependant le moteur n’effectue pas une passe « une fois sur chaque unité » textuelle considérée, mais de une à plusieurs fois, selon le mode de traitement de la grammaire élémentaire (unitaire, exhaustif, itératif ou récursif, comme vu en section 4.3.1.3), le cheminement conditionnel dans le réseau de grammaire et l’applicabilité des règles concernées ;

– le traitement de la donnée ne se fait pas à travers un « flux à débit constant », où « un élément du flux est traité complètement, une fois pour toutes, en passe unique, avant de passer à l’élément suivant », mais par un traitement global du texte, où une règle peut s’appliquer sur n’importe quel élément, SYGMARTn’imposant aucune contrainte d’ordre de traitement des éléments textuels ;

– le lexique du texte analysé n’est calculé et produit en sortie que pour les items lexicaux non présents dans le dictionnaire d’OPALE. Pour ces derniers, la catégorie grammaticale est inférée en fonction de la structure syntaxique détectée la plus probable ;

– enfin, la complexité du processus d’analyse est en O(n.log2(n)) plutôt que linéaire

critères compilation analyse de langues combinatoire tagging, chunking analyse de langues calculatoire SYGFRAN modèle des structures grammaire formelle grammaire

formelle aucun aucun aucun

ressources syntaxiques exhaustives (grammaire formelle) exhaustives (grammaire formelle) partielles (règles contextuelles) règles : condition ⇒ action règles contextuelles : condition ⇒ action ressources lexicales exhaustives (primitives) exhaustives (dictionnaire) exhaustives ou partielles mots grammaticaux seulement exhaustives ou partiellesa

processus répétitif / token, déterministe arborescent, combinatoire, non déterministe répétitif / token, calculatoire, déterministe répétitif / token, calculatoire, déterministe répétitif / token, calculatoire, déterministe complexité en temps théorique : polynomiale, pratique : linéaire théorique : exponentielle, pratique : polynomiale théorique : linéaire, pratique : linéaire théorique : linéaire, pratique : linéaire théorique : O(n.log2(n)), pratique : O(n.log2(n)) code

analysé langage formel langue langue langue langue

Tab. 4.3 – Comparaison des quatre modèles d’analyse syntaxique présentés dans [Vergne, 2001] avec celui de SYGFRAN.

a_{Inférence sur la catégorie grammaticale pour les items lexicaux absents du dictionnaire.}

Afin de situer plus clairement le modèle d’analyse de SYGFRAN ainsi que ses par- ticularités, nous reprenons maintenant le tableau, de Jacques Vergne, synthétisant les caractéristiques propres à chaque modèle d’analyse, en y ajoutant une colonne pour SYG- FRAN, produisant ainsi le tableau4.3.

Volume d’informations. L’analyse syntaxique s’appuie sur un grand nombre de règles,

regroupées en grammaires pour celles du module TELESI, et d’entrées de dictionnaire pour les modules OPALE et TELESI, toutes créées manuellement. Le tableau 4.4 présente le nombre (arrondi) de ces règles, grammaires et entrées à l’heure où sont écrites ces lignes.

nb. de règles nb. de grammaires nb. d’entrées dans le dictonnaire

OPALE 500 - 23500

TELESI 17200 250 1200

Tab. 4.4 – Volume d’informations dans SYGFRAN.

Il est important de considérer le fait que le dictionnaire OPALE de SYGFRAN est un lexique généré, c’est-à-dire qu’il ne présente pas toutes les flexions de chaque lemme mais uniquement une forme canonique (masculin singulier pour les noms et adjectifs et infinitif pour les verbes) et se base sur leur racine et les suffixes de flexion pour identifier tous

les éléments fléchis de la phrase. D’autres informations permettent de couvrir davantage l’ensemble des flexions identifiables dans la phrase, comme les traits de substantivation des adjectifs et verbes70_{. Ainsi le nombre d’entrées du dictionnaire n’est pas comparable}

à d’autres comme le Lefff qui proposent une entrée par flexion multipliant alors considé- rablement la taille de leur ressource.

Complexité de l’analyse. Comme nous venons de le voir, SYGMART doit manipuler une grande quantité de règles transformationnelles pour produire une analyse syntaxique des phrases. La complexité du processus de traitement est primordiale lorsqu’il s’agit d’analyser de gros volumes de données.

L’analyse morphologique (module OPALE) se réalise en complexité linéaire. La re- cherche de l’applicabilité d’un ensemble de règles (dans une grammaire élémentaire) sur la structure arborescente (module TELESI) se réalise en complexité linéaire. L’application d’une règle modifie la structure arborescente. Les nœuds de cette structure sont rarement unaires, peu souvent binaires et généralement ternaires. Chaque application construit au moins une hauteur d’arbre. Sachant que la largeur de l’arbre est de l’ordre du nombre de mots du texte (n), et en prenant en compte de l’arité moyenne de chaque nœud, une borne maximum fiable de complexité d’application d’une règle est alors de log2(n).

Ainsi, pour un nombre de règles égal à k et une donnée exprimée en nombre de mots n, SYGMART dispose d’une complexité théorique d’analyse qui est en O(k ∗ n ∗ log2(n)).

De plus, il s’agit d’une limite supérieure, car l’analyseur étant structuré en plusieurs grammaires ordonnées, le facteur multiplicatif réel est beaucoup plus petit que k (nous l’avons estimé à environ 16). Cela dit, même ainsi, plus le texte est important, plus k est petit devant n. Aujourd’hui SYGFRAN analyse un corpus de 220000 phrases, d’en moyenne 25 mots, en environ 24 heures, sur un ordinateur grand public disposant d’un processeur cadencé à 2,4 Ghz et d’une capacité de mémoire vive de 1 Go. Pour un texte d’environ 1000 mots, l’analyse prend environ 8 secondes, sur la même machine.

Lors de la construction de nos règles de compression, cette puissance fut fort appré- ciable, car elle nous a permis d’obtenir une compression dans un temps très court et donc des ajustements et enrichissements rapides des règles. L’évaluation de COLIN a aussi pro- fité de cette puissance, pour la partie où une interaction avec un utilisateur intervient, proposant alors un résultat rapide à ce dernier et évitant de présauvegarder l’analyse des corpus d’évaluation.

Pourcentage de couverture syntaxique. Les cas d’analyses partielles de phrases

représentent, en août 2006, environ 65 % de l’ensemble des analyses d’un corpus de 280000 70_{Par exemple pour le verbe poster, sont précisées les possibilités de substantivation en poste ou postage} à partir de la racine post et des suffixes flexionnels e et age.

phrases extraites de corpus de documents variés, sensés représenter les genres de texte et les cas de syntaxes les plus courants. Ce résultat encourageant71 _{fut confirmé lors}

de la campagne d’évaluation EASY, où l’analyseur a obtenu des résultats extrêmement honorables.

Dans le document Compression automatique ou semi-automatique de textes par élagage des constituants effaçables : une approche interactive et indépendante des corpus (Page 128-131)