• Aucun résultat trouvé

Pour une approche diachronique en langue de spécialité : éléments théoriques et

Chapitre 3 Méthodologie pour une analyse de l’évolution en corpus

3.2 Choix méthodologiques pour notre étude

3.2.3.1 Choix des outils

Soulignons succinctement le fait que les corpus obtenus ont dû être préparés et « nettoyés » pour pouvoir être exploités par les outils :

- Le TTVS2002 était disponible au format numérisé (*.doc). Il a simplement été converti au format texte. Les deux premiers sous-corpus (TTVS1994 et TTVS2002) n’étaient disponibles qu’au format papier. Ils ont donc été scannés et océrisés pour obtenir des formats texte exploitables61. Chacun des sous-corpus TTVS a été relu et corrigé manuellement pour éliminer les erreurs de numérisation et de conversion des caractères spéciaux au format texte, ainsi que pour traiter les figures, tableaux et formules présents dans le corps du texte (nous avons fait le choix de supprimer les tableaux de chiffres, formules et figures, notés respectivement TABL, FIGR et FRML pour garder une trace de ces éléments lors de l’exploration des textes).

- Dans la mesure où le corpus DORIS avait été constitué dans le cadre d’un projet antérieur, toutes les conversions et corrections avaient été effectuées. Les textes étaient donc prêts à être compilés.

Comme nous l’avons dit plus haut, la démarche outillée que nous préconisons s’inscrit dans la lignée de celle définie dans le cadre de la terminologie textuelle. De fait, les termes sont considérés comme les pivots de notre analyse et constituent le point d’entrée sur lesquels s’appuie l’analyse. La description est menée à l’aide d’outils classiques en terminologie textuelle : un extracteur de termes, un extracteur de relation et un concordancier. Plus précisément, les outils choisis sont l’analyseur Syntex, l’outil TerminoWeb et le concordancier AntConc, choix que nous justifions dans les paragraphes suivants.

A. Syntex

Syntex est un analyseur syntaxique de corpus développé par Bourigault et al. (2007 ; 2000 ;

2005), qui permet d'extraire d'un corpus une liste de candidats termes et de syntagmes, structurée par des relations de dépendance syntaxique. L’intérêt de l’outil pour cette recherche est triple.

Le premier atout de Syntex pour cette recherche repose sur la souplesse de l’outil. En effet, cet analyseur est conçu pour s’adapter à différents besoins (Bourigault, 2007 ; Bourigault, et al., 2005), qu’il s’agisse d’applications en terminologie (en particulier pour la construction de

ressources termino-ontologiques à partir de textes et la structuration de termes (Aussenac-Gilles & Bourigault, 2003 ; Bourigault, et al., 2004)) ou de recherches descriptives en corpus

(par exemple Fabre & Bourigault, 2008). L’outil Syntex s’impose donc pour répondre à nos objectifs, à la fois descriptifs et appliqués.

Le second intérêt de l’outil est lié à son mode de fonctionnement qui repose sur une procédure « d’apprentissage endogène », c’est-à-dire sans aucune autre ressource que les seules données du corpus. Cette propriété est particulièrement intéressante en diachronie dans la mesure où elle permet d’éviter d’avoir à contrôler et gérer la périodicité de ressources externes. En d’autres termes, l’apprentissage endogène permet de concentrer l’analyse diachronique sur le corpus construit et de ne pas intégrer d’autres données qui pourraient venir brouiller la cohérence diachronique du corpus. De la même manière, puisque le fonctionnement endogène de Syntex implique que l’outil n’intègre pas de connaissances de la terminologie du domaine a priori, le traitement peut être réappliqué à n’importe quels

domaines et périodes pour lesquels on dispose de corpus.

Enfin, le troisième intérêt de cet outil repose sur le fait que, contrairement à la plupart des outils terminologiques du même type, Syntex fait porter son analyse sur toutes les unités lexicales et non pas uniquement sur les noms. Ce point de vue s’éloigne de la vision terminologique classique du terme comme appartenant à la catégorie nominale exclusivement et permet d’intégrer des perspectives nouvelles. L’Homme (2002 ; 1998) souligne en particulier l’importance des verbes pour la description terminologique et montre que ceux-ci peuvent être considérés soit en tant qu’unités terminologiques à part entière soit comme des supports centraux pour analyser le sens des termes et aider à construire des classes de termes.

D’un point de vue ergonomique, grâce à l’interface TermOnto (voir Baneyx, et al., 2005 par

exemple pour une utilisation de TermOnto), les analyses Syntex sont facilement consultables. Cette interface est développée sous Access par Didier Bourigault mais nous l’avons légèrement adaptée pour prendre en compte des corpus comparables62. Afin de mieux

62 Comme souligné supra, de manière générale, les outils disponibles manipulent difficilement les corpus

illustrer les fonctionnalités de Syntex et la visualisation, les figures suivantes présentent des copies d’écran des sorties d’analyses Syntex dans TermOnto.

Figure 3.1 – Extrait de la liste Syntex de candidats-termes – Interface TermOnto

Les résultats Syntex sont présentés sous forme de listes de candidats termes, auxquels sont associées des informations sur la fréquence dans le corpus et, dans chacun des sous-corpus, la classe syntaxique du candidat (Figure 3.1). De plus, un lien hypertextuel permet d’accéder à une fiche où sont synthétisées certaines caractéristiques du comportement linguistique du candidat dans les corpus examinés (dont les dépendances syntaxiques) sur lesquels fonder l’analyse (Figure 3.2).

Figure 3.2 – Extrait de l’analyse syntaxique des dépendances (TermOnto)

Néanmoins, bien que les informations fournies par Syntex soient très riches, l’analyste de corpus ne peut se passer d’un outil plus souple de type concordancier pour naviguer dans les textes. Pour cette raison, nous complétons la description par l’utilisation du concordancier AntConc.

B. AntConc

AntConc est un logiciel libre63 développé par Anthony (2005). Notre choix s’est porté sur ce concordancier pour plusieurs raisons. La première est qu’il s’agit d’un logiciel gratuit, facile d’installation et d’utilisation. Il permet de visualiser les termes en contextes, mais également de construire des expressions régulières très fines pour affiner les recherches, de calculer les cooccurrences, etc. Une des particularités de cet outil repose également dans ses possibilités de traiter aisément différents sous corpus : il permet de compter et visualiser les occurrences d’une unité recherchée dans chaque sous-corpus comme dans le corpus entier, propriété intéressante pour une comparaison en diachronie.

63 Le concordancier est disponible à l’adresse : http://www.antlab.sci.waseda.ac.jp/software.html (consulté le 3 avril 2009)

C. TerminoWeb

Enfin, le dernier outil utilisé est le logiciel TerminoWeb, développé par Barrière (2006). Cet outil est développé pour assister la construction des ressources termino-ontologiques. Les différentes fonctionnalités proposées comprennent la construction semi-automatique de corpus, l’extraction de termes dans les corpus, le repérage de variantes terminologiques, l’aide à la structuration des ressources et l’exploration de relations sémantiques (taxonomiques et non-taxonomiques). C’est précisément pour cette fonctionnalité que cet outil a été choisi dans la mesure où l’une de nos hypothèses est qu’il est possible de définir des marqueurs d’évolution dans les textes pour repérer des contextes riches en connaissances évolutives (Chapitre 5). Généralement, les outils d’extraction d’informations à partir de marqueurs et patrons linguistiques contiennent des listes prédéfinies de marqueurs et sont difficilement modifiables. L’intérêt de TerminoWeb pour notre recherche est qu’il nous permet de définir notre propre liste de marqueurs, de la modifier et de la projeter dans les textes afin de comptabiliser et de visualiser les contextes extraits via son interface (Figure 3.3).

Notons enfin, qu’en plus de ces trois outils, les analyses sont complétées par des programmes Perl ponctuels développés par nos soins ou adaptés de scripts disponibles sur Internet (notamment pour le calcul du χ2, Chapitre 4).

Après avoir décrit les étapes de constitution des corpus, ainsi que les outils pour les exploiter, il convient de présenter le traitement et l’extraction des données en corpus effectués pour l’analyse, et notamment l’extraction des termes à partir desquels nous commençons l’analyse.