Une linguistique de corpus - Les fondements du projet LEXEAU®

Les fondements du projet LEXEAU®

2.2 Une linguistique de corpus

2.2.1 Documents, textes documentés et corpus textuels

La distinction opérée dans le projet entre les objets de connaissance du domaine de l’eau et les objets de connaissance du discours sur l’eau nous a amené à distinguer entre les documents, objets de connaissance du domaine, répertoriés dans l’ontologie du domaine en classes et sous-classes, et les textes tirés de ces documents — titres, résumés et textes proprement dits —

reproduits dans les classes de l’ontologie du discours. Les textes sont traités en linguistique de corpus par l’intermédiaire de corpus textuels qui restituent partiellement l’activité langagière. Le graphe relationnel des corpus textuels est présenté figure 2.3.

Figure 2.3 – Graphe relationnel des corpus textuels Légende

• ct(sct) : corpus textuel du sous-corpus ;

• sct(ct) : sous-corpus textuel du corpus textuel ;

• td(ctp) : texte documenté du corpus textuel le plus proche ; • ctp(td) : corpus textuel le plus proche du texte documenté ; • td(doc) : texte documenté du document ;

• par(doc : partie du document ; • doc(par) : document partitionné.

Dans ce graphe, les relations de corpus à sous-corpus sont les relations de proximité immédiate que l’on rencontre dans un arbre de classes et sous-classes. Il en est de même pour les parties d’un document, considérées comme des documents à part entière. Les textes documentés sont rattachés au corpus — ensemble de textes — qui leur est le plus proche.

2.2.1.1 Sous-corpus et partition d’un corpus textuel

Un sous-corpus textuel est défini comme un sous-ensemble des textes documentés du corpus qui ne le recouvre pas entièrement. La création des sous-corpus est libre, y compris en créant des sous-corpus qui ont des éléments en commun, pour étudier différents regroupements de textes. En pratique, on travaillera sur des partitions de corpus, organisées dans un arbre hiérarchique renversé, avec le corpus à la « racine » de l’arbre et les textes aux extrémités, comme des « feuilles » de l’arbre, sur des branches qui peuvent être plus ou moins ramifiées.

La partition d’un corpus est définie comme un ensemble de sous-corpus disjoints qui recouvrent entièrement le corpus partitionné. Les requêtes de dénombrement des occurrences d’une ex-pression dans un corpus, par exemple, peuvent être lancées sur la partition du corpus. Les résultats de la requête se présentent sous la forme d’un tableau où les sous-corpus de la par-tition figurent en colonne.

Pour distinguer entre la partition d’un corpus en chacun de ses textes et les partitions avec au moins un sous-corpus constitué de plusieurs textes, nous distinguerons une classe des partitions « fine » de corpus. Le graphe relationnel est présenté dans la figure 2.4.

Figure 2.4 – Graphe relationnel des partitions textuelles • ct(pt) : corpus partitionné ;

• pt(ct) : partition du corpus ;

• sct(pt) : sous-corpus de la partition ;

• pt(scp) : partition de rattachement du sous-corpus ; • ct(ptf) : corpus partitionné en textes documentés ; • ptf(ct) : partition du corpus en textes documentés ; • ct(td) : corpus incluant le texte documenté ;

• td(ct) : texte documenté du corpus.

Les trois types de textes d’un document (titre, résumé et texte proprement dit) se retrouvent dans les corpus et les partitions. Les textes consacrés aux auteurs et aux références bibliogra-phiques sont traités de façon détaillée dans l’ontologie du domaine.

2.2.2 Des textes et du hors-texte pour le lexique

Le travail sur les textes débouche sur des extraits repris dans le lexique comme définitions ou comme exemples d’emploi. Les éléments hors-textes dans les documents source qui accom-pagnent ces extraits doivent être sauvegardés car ils sont susceptibles d’illustrer les articles du lexique. Il s’agit de figures (schémas, courbes), de photos, de tableaux de chiffres et de formules mathématiques. La figure 2.5 présente le graphe relationnel des textes et des hors-textes du lexique. Nous avons fait figurer sur la figure 2.5 la classe des URL associés aux documents.

Figure 2.5 – Graphe relationnel des textes et des hors-textes du lexique

• ext(td) : texte extrait du texte documenté ;

• td(ext) : texte documenté source de l’extrait de texte ; • txl(ext) : texte du lexique issu de l’extrait de texte ;

• ext(txl) : extrait de texte correspondant au texte du lexique ; • htl(txl) : hors-texte associé au texte du lexique ;

• txl(htl) : texte du lexique associé au hors-texte ; • doc(htl) : document source du hors-texte du lexique ; • htl(doc) : hors-texte du lexique issu du document ; • url(doc) : URL du document source ;

2.2.2.1 Exploitation des contenu hors corpus dans l’ontologie du domaine Le contenu des documents exploité dans l’ontologie du domaine n’est pas considéré comme du texte documenté pour éviter toute redondance avec le traitement des textes en corpus. Cette exploitation porte notamment sur les auteurs et les références bibliographiques. Le graphe relationnel complet est présenté dans la figure 2.6.

Figure 2.6 – Graphe relationnel de l’exploitation des documents dans l’ontologie du domaine • ppa(doc) : personne physique, auteur du document, parmi d’autres auteurs ;

• ppua(doc) : personne physique, unique auteur du document ;

• ppac(doc) : personne physique, auteur « correspondant » du document ; • ppues(doc) : personne physique, unique éditeur scientifique du document ; • ppces(doc) : personne physique, co-éditeur scientifique du document ; • pma(doc) : personne morale, auteur du document ;

• pmec(doc) : personne morale, éditeur commercial du document ; • ref(doc) : référence bibliographique du document ;

• cll(doc) : collection dont fait partie le document ;

• ISBN(doc) : numéro ISBN du document (International Standard Book Number) ; • ISSN(doc) : numéro ISSN du document (International Standard Serial Number). Chaque auteur est introduit comme personne physique dans l’ontologie. Le cadre de travail est introduit comme personne morale, avec un lien sur la personne physique. Ce cadre est assimilé à un « employeur », par exemple le département de l’université où le doctorant prépare sa thèse ou l’association où l’auteur est salarié ou bénévole. L’auteur « correspondant » est introduit en l’état. La bibliographie qui regroupe les références en fin de texte relève de l’ontologie si les publications référencées y sont enregistrées. Les références bibliographiques sont alors appariées si leur formalisme est différent et celle de l’ontologie est mise en relation avec le document où apparait son homologue.

Dans le document Élaboration d'un lexique de l'eau stratifié en fonction de l'auditoire : du concept aux lexèmes (Page 43-48)