• Aucun résultat trouvé

dépouillement du corpus de la chimie en arabe, avec sa

Chapitre 4 : Dépouillement du corpus

4.2 Analyse des formes

4.2.3.2 Lemmatisation du nom

Le nom, élément exprimant un sens indépendant du temps, assume des fonctions diverses et variées comme celui qui fait l’action (agent), celui qui subit l’action (objet), celui de signifier l’instrument de l’action (instrument), celui de désigner, en général, un endroit (lieu), celui qui désigne l’action (nom d’action), etc.

Comme dans les autres langues, le nom en arabe ne fait pas exception et son lemme est le singulier, exception faite des pluriels qui n’ont pas de singulier et des pluriels dont le singulier n’a pas la même racine ; mais, nous indiquons égalemant le genre, le nombre et le cas (Kouloughli, 1994)360 :

• Genre : masculin (Masc.) et féminin (Fem.)

• Nombre : singulier (Sing.), duel (Du.) et pluriel (Pl.) • Cas : nominatif (Nom.), accusatif (Acc.) et génitif (Gen.)

D’autre part, le nom en arabe est divisé en deux familles : les noms qui ne peuvent pas être rattachés à une racine verbale, appelé noms primitifs, et les noms qui sont dérivés à partir d’une racine verbale (noms dérivés ou déverbaux) ; ces derniers sont généralement des racines triconsonantiques, associées à des schèmes verbaux et sont constituées principalement du « ر م = maṣdar = nom verbal ou nom d’action », de « لع لا سا = ism al-fâil = participe actif », de « و لا مسا = ism al-maf`ûl = participe passif » et de « ن مزلا ن كملا سا = ism al-makân wa al-zamân = nom de lieu et de temps ».

De ce fait, le système nominal de l’arabe admet différents systèmes de déclinaison, suivant la nature de la forme (simple, diptotes, etc.) et son nombre (singulier, duel ou pluriel). Notons que « le phénomène du pluriel irrégulier en arabe pose un défi à la morphologie, non seulement à cause de sa nature non concaténative, mais aussi parce que son analyse dépend fortement de la structure comme les verbes irréguliers. » (Kiraz, 1996)361.

Citons l’exemple du terme « بك م = murakkab = composé » (cf. Tableau 14 : Analyse du terme « بك م = murakkab = composé ») :

360 Grammaire de l'arabe d'aujourd'hui, p. 72

Terme Référence Équivalent Contexte Remarque

بك م Réf. 1.e Composé ي ك ر يه2-(R5,R2,R1) (+) يلا ي لا بك لا ي ت ا يب -3 أ Préparation du composé chiral (1R,2R,5R)-(+)-2-Hydroxy-3-pinanone

UTS

Tableau 14 : Analyse du terme « بك م = murakkab = composé »

Son analyse morphologique indique qu’il s’agit du lemme « ك ر م= murakkab = composé », de la racine triconsonantique « ر », d’un nom singulier déterminé et au génitif. Son analyse sur Xerox donne 9 solutions (cf. Figure 30 : Analyse morphologique sur Xerox du terme « بك م = murakkab = composé ») :

Figure 30 : Analyse morphologique sur Xerox du terme « بك م = murakkab = composé »

Notre analyse du terme « بك م = murakkab = composé » fait partie des propositions de l’analyseur sur Xerox (solution 5 de la figure 32). Cependant, comme pour les verbes, cela indique que certaines formes nominales demeurent ambiguës et requièrent notre intervention,

puisque qu’a priori, aucune codification par défaut n'est admise car elle pourrait conduire à des erreurs.

Concernant les unités terminologiaques complexes, nous proposons de les lemmatiser en fonction de la base du terme (Petit, 2003)362 ; par exemple, le terme « و لا ايفا غوتام ك =

krûmâtûġâfiyâ al˓amûd = chromatographie sur colonne » a pour base « ايفا غوتام ك =

krûmâtûġâfiyâ = chromatographie » (cf. 4.2.3.4 Lemmatisation de l’emprunt).

4.2.3.3 Lemmatisation de l’adjectif

Quant aux adjectifs, pouvant être aussi des termes à l’état libre (Lelubre, 2005)363, les grammairiens arabes les ont assimilés aux noms, puisque « du point de vue de la forme,

l’adjectif présente tous les caractères généraux du nom : en particulier, il est marqué en genre, en nombre, en cas et en détermination » (Kouloughli, 1994)364. Il s’agit alors de la même lemmatisation que celle du nom.

4.2.3.4 Lemmatisation de l’emprunt

Les emprunts ne sont pas reconnus par l’analyseur Xerox ; il n’y a pas de renseignements associés (cf. Figure 31 : Analyse morphologique sur Xerox du terme « يلاريك = kîrâlî = chiral »).

Voici l’exemple du terme « يلاريك = kîrâlî = chiral », issu de l’exemple précédent (cf. Tableau 14 : Analyse du terme « بك م = murakkab = composé ») :

Figure 31 : Analyse morphologique sur Xerox du terme « يلاريك = kîrâlî = chiral »

Par conséquent, les emprunts sont indexés en indiquant le genre, le nombre et le cas.

4.2.3.5 Lemmatisation de la particule

Les particules, entités servant à situer les événements et les objets par rapport au temps, sont généralement les mots outils pour une langue donnée. Dans la division tripartite opérée

362 Lemmatisation et figement lexical

363 Le statut de l’adjectif en langue de spécialité

par la Tradition grammaticale arabe, la particule est définie par opposition au nom et au verbe, impliquant que tout ce qui n’est ni nom ni verbe est particule. Cela dit, toute particule est mot-outil mais tout mot-mot-outil n’est pas particule. Le terme ‘particule’ est proposé par la tradition orientaliste pour traduire « ف ح = ḥarf » (Dichy, 1990)365.

De ce fait, les particules forment un ensemble de mots (article défini, prépositions, coordonnants, pronoms…) et sont classées selon leur fonction dans la phrase, mais également selon leur place dans le mot (proclitiques, préfixes, pré-bases …), puisque certaines particules peuvent également porter des préfixes et suffixes, compliquant leur identification ; par exemples, le coordonnant « = wa = et » ou la préposition : « = bi= par ».

À l’écrit, il est parfois difficile de faire la différence entre un proclitique et un caractère appartenant à la racine de certains mots.

D’autre part, nous distinguons deux catégories pour la flexion des particules : les mots outils non déclinables ou invariables comme « ﻰ ع = ˓alâ = sur » (leur lemme est le mot-outil non déclinable) et les mots outils déclinables ou variables, suivant le système de déclinaison à trois cas selon leurs fonctions dans la phrase, comme « = ḏû = qui a », leur lemme est le mot-outil au nominatif.

À présent, nous pouvons dire que nous avons identifié les termes du domaine de la chimie ; chacun de ces termes est indexé en indiquant sa forme (terme simple ou terme complexe), sa partie du discours (nom ou verbe) et son lemme (verbe à la troisième personne du singulier masculin de l’accompli actif ou nom au singulier).

Il semblerait que nous possédons tous les éléments nécessaires pour constituer les fiches terminologiques de chaque terme du domaine de la chimie afin de construire une grammaire d’identification de ces termes. Cependant, il manque un élément essentiel : l’attribution d’une classe pour chaque d’un terme, définissant sa place dans le domaine de la chimie.

Dans le chapitre suivant, nous présentons la classification du domaine de chimie.

Chapitre 5 : Classification du