• Aucun résultat trouvé

terminologiques de la chimie et de leurs relations

Chapitre 6 : Fouille de textes

6.1 Fouille de textes : définitions

6.2.1 Unité terminologique

Comme nous l’avons vu, l’unité terminologique, est l’unité signifiante constituée d’un mot, l’unité terminologique simple (UTS) ou de plusieurs mots, l’unité terminologique complexe (UTC) (cf. 1.1.1 Terme).

6.2.1.1 Unité terminologique simple (UTS)

L’identification des unités terminologiques simples (UTS) et la recherche d’attestations sont extrêmement simples, sans grande exigence technique et linguistique. Généralement, elles sont examinées minutieusement à la main par le chercheur et les besoins en outillage pour ce type de travail sont assez légers, puisque bien souvent, un simple concordancier fait amplement

l’affaire, si ce n’est pas la fonction ‘rechercher’ du logiciel de traitement de texte (Tanguy, 2012)406.

Rappelons que pour notre domaine, ces UTS correspondent à des noms désignant notamment des éléments chimiques, comme « ني كأ = uksijîn = oxygène », ou à des verbes indiquant notamment une procédure chimique, comme « رو ب = balwara = cristalliser ». Ce sont des termes du domaine, mais également des déclencheurs des termes du domaine, puisque ces UTS peuvent être un élément d’une UTC, soit la base, soit l’extension, permettant d’identifier les UTC du domaine, comme « ل ف ع ق = qim˓ fal = ampoule à décanter ». Les UTS de la chimie ont été identifiées et nous les avons encodées dans un éditeur, sous forme de tableau (cf. 4.2.2.1Erreur ! Source du renvoi introuvable. Identification des termes de la chimie). Grâce à la mise en place de la classification de la chimie (cf. 5.3 Classification adoptée), à l’analyse de la formation des termes en arabe (cf. 2.1 Système de la langue arabe) et à l’aide des logiciels AntConc pour étudier les cooccurrences, Kawâkib pour analyser les racines et Xerox pour réaliser l’analyseur morphologique (cf. 4.2 Analyse des formes), nous détenons toutes les informations nécessaires pour rédiger les fiches terminologiques de chaque UTS du corpus.

6.2.1.1.1 Fiche terminologique du verbe

Dans notre travail, nous avons considéré le verbe comme un terme (cf. 2.1.2.12.1.2.1 Modus personnel ou verbe et 4.2.3.1 Lemmatisation du verbe) et nous classons les verbes en trois catégories : les verbes très spécialisés, comme « رو ب = balwara = cristalliser », les verbes employés dans le domaine étudié, comme « ّ ش = šarraḥa = filtrer » et les verbes énonciateurs, comme « لّ ش = šakkala = constituer » (Albeiriss, 2017)407. Nous prenons en compte leur structure argumentale (complément et circonstant) permettant d’identifier et/ou de vérifier les termes de nature nominale du domaine et d’indiquer, s'il y a lieu, la ou les prépositions privilégiées.

Voici l’exemple d’une fiche terminologique pour « فّ ج = jaffafa = sécher » :

406 Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problèmes, p. 55

= jaffafa = sécher فّ ج

Classe, sous-classe Verbe polysémique dont au moins un sens est spécialisé

Définition Rendre un composé chimique sec en faisant évaporer le liquide Structure argumentale ~ X (Composé chimique) prép Y (Composé chimique) prép Z

(Grandeur) ~ prép X (Composé chimique) Réalisation linguistique des arguments عاس24 م muddat 24 sâat pendant 24 heures 2 CaCl وف fawqa CaCl2 sur CaCl2 موي و لا اتي ك وف 4 SO 2 Na

fawqa kibrîtât alûdyûm

sur du sulfate de sodium Na2SO4.

يإا

alîṯir

l’éther

Contexte (Réf. 1.b) . عاس24 مCaCl2 وف يإا ف ي

yujaffafu alîṯir fawqa CaCl2 muddat 24 sâat. L’éther est séché sur CaCl2 pendant 24 heures.

موي و لا اتي ك وف ف ت 4 SO 2 ) .Na Réf. 1.b (

wa tujaffafu fawqa kibrîtât alûdyûm Na2SO4.

. 4 SO 2 sulfate de sodium Na sur du Et il est séché ي غ لا اتي ك وف ا ي تب مو ن وي 4 . MgSO ) Réf. 1.b (

naqûm bitajfîfihâ fawqa kibrîtât almaġnîsyûm MgSO4.

Nous effectuons son séchage sur du sulfate de magnésium MgSO4.

Terme relié

sémantiquement / associé في ت

Construction syntaxique X est séché sur Y pendant Z

Modélisation UTS (Verbe polysémique) + prép + UTS (Composé chimique) UTS (Verbe polysémique) + UTS (Composé chimique) + prép + UTS (Élément chimique)

Tableau 15 : Fiche terminologique de « فّ ج = jaffafa = sécher »

Nous avons rédigé les fiches terminologiques des verbes de notre corpus et nous présentons un échantillon en annexe du domaine de la chimie (cf. Annexe 3 : Fiches terminologiques). 6.2.1.1.2 Fiche terminologique du nom

Le nom est considéré comme un terme (cf. 2.1.2.22.1.2.2 Modus impersonnel et 4.2.3.24.2.3.2 Lemmatisation du nom) ; nous classons le nom selon sa place dans le domaine de la chimie : composé chimique, réaction chimique, procédure chimique, équipement… (cf. 5.35.3 Classification adoptée). Nous prenons en compte sa fonction nominale (agent, objet,

instrument, lieu, nom d’action…) et sa construction syntaxique, sachant que ces noms peuvent être des emprunts.

Voici l’exemple d’une fiche terminologique pour « مويناتيت = tîtâniyûm = titane » : = tîtâniyûm = titane

مويناتيت

Classe, sous-classe Élément chimique, métal de transition, solide

Définition Élément chimique, qui a l’état stable, est sous forme de métal blanc à éclat métallique et possède une densité égale à 4,5, une résistance mécanique assez faible associée à une grande ductilité et une bonne résistance à la corrosion.

Catégorie lexicale Nom Construction syntaxique Ø

Contexte (Réf 1.b) مويناتيتلا م نم وم ي يم3.59 ، 0.78 ع ن Termes reliés

sémantiquement / associés Ti - اتيت Modélisation UTS (Elément chimique)

Tableau 16 : Fiche terminologique de « مويناتيت = tîtâniyûm = titane »

Nous avons rédigé les fiches terminologiques des noms de notre corpus et nous présentons un échantillon en annexe (cf. Annexe 3 : Fiches terminologiques).

6.2.1.2 Unité terminologique complexe (UTC)

L’identification et la détermination de ces unités terminologiques complexes (UTC) sont beaucoup plus exigeantes que celles des UTS, ce qui implique que leur extraction doit être sensiblement plus sophistiquée :

« Or le fait de travailler sur une structure, et non une forme, particulière de la langue complique la recherche automatique d’attestations, puisqu’elle ne permet pas la simple recherche par chaîne de caractères qu’on peut pratiquer à l’aide de n’importe quel logiciel de traitement de texte ou moteur de recherche. » (Leroy, 2004)408

Ces UTC sont considérées en informatique comme des séquences de mots qui se répètent normalement plus d’une fois côte à côte dans un texte, appelées segments répétés ; puisqu’ils apparaissent souvent ensemble d’une manière statistiquement significative, ils ont une grande chance de former des UTC. De ce fait, ces UTC sont structurées en ‘réseau terminologique’ en se basant sur la décomposition de ces termes en ‘tête (T)’ et ‘expansion (E)’ et reliant chaque

élément de l’UTC à sa tête et à son expansion, et réciproquement (Harrathi, 2009)409. Pour notre analyse de ces UTC, nous adoptons ‘base’ et ‘expansion’ pour les éléments composant une UTC et ‘schéma morphosyntaxique ’ la structure de l’UTC (cf. 2.1.3.22.1.3.2 Formation des unités terminologiques complexes).

Ces UTC de la chimie ont été identifiées et nous les avons encodées dans un éditeur, sous forme de tableau (cf. Erreur ! Source du renvoi introuvable.4.2.2.1 Identification des termes de la chimie).

De la même manière que pour les UTS, nous rédigeons les fiches terminologiques de chaque UTC du corpus et voici un exemple.

ق ع يثاث = ṯulâî ˓unq = tricol Classe, sous-classe Equipement, verrerie

Définition Récipient largement utilisé en verrerie de laboratoire, constitué de trois cols.

Catégorie lexicale Syntagme nominal Construction syntaxique Expansion d’annexion Modélisation UTC = UL + UTS

Contexte (Réf 1.c) . 0.78 ع ن ،لم100 س ق ع يثاث يف Termes reliés

sémantiquement / associés ق ع يئا ث -ق ع

Tableau 17 : Fiche terminologique de « ق ع يثاث= ṯulâṯî ˓unq = tricol »

Nous avons rédigé les fiches terminologiques des UTC de notre corpus et nous présentons un échantillon en annexe (cf. Annexe 3 : Fiches terminologiques).

Rappelons que pour notre domaine, ces UTC désignent, notamment des composés chimiques, comme « مويساتو لا ا غ م يب = bîrmanġanât albûtâsyûm = permanganate de potassium » (cf. 2.1.3.2 Formation des unités terminologiques complexes (UTC)). Mais, tous les éléments d’une UTC ne sont pas nécessairement des UTS du domaine et sont alors des unités lexicales (UL), comme « لعا تلا م = muddat altafâ˓ul = temps de réaction », où « muddat » est une unité lexicale (UL), considérée comme un déclencheur d’une UTC du domaine de la chimie. Nous allons modéliser les différentes relations entre les éléments de ces UTC par des patrons morphosyntaxiques.

409 Extraction de concepts et de relations entre concepts à partir des documents multilingues : Approche statistique et ontologique, p. 73