• Aucun résultat trouvé

Extraction et sélection primaire des suites de noms

Des syntagmes et des cooccurrences

3.1 Extraction et sélection primaire des suites de noms

La recherche et l’intégration dans le lexique de suites de noms est effectuée pour l’anglais sur des suites de 2 à 4 noms, compte tenu de la possibilité de construire dans cette langue des syntagmes nominaux où les noms qui précèdent le dernier nom dans la suite, ou « base nominale » du syntagme, ont une fonction adjectivale. Les scientifiques utilisent cette faculté de la langue anglaise, sans équivalent en français, pour nommer les objets de leurs recherches. La recherche textométrique débouche sur des suites classées par fréquence décroissante, en utilisant un seuil de fréquence approprié pour que le nombre de suites ne dépasse pas un certain plafond. Nous avons fixé ce plafond à 20 dans la recherche des suites de noms dans le corpus FLR-02 et les 4 textes qui le composent. Les suites obtenues sur les 5 corpus sont regroupées pour obtenir une liste agrégée de suites. Les noms de ces suites sont extraits dans une liste des noms pour construire la requête qui débouche sur une sélection finale de syntagmes. Ces syntagmes sont partagés par 2, 3 ou 4 textes ou figurent seulement dans un texte (syntagmes « spécifiques »). À l’issue de la recherche pour chaque taille de syntagme, les syntagmes qui s’avèrent être des artefacts de la textométrie sont éliminés « à vue », en éditant les lignes de concordances et si nécessaire des extraits surlignés du texte source.

3.1.1 Suites de deux noms

Le recherche des suites « nom+nom» sur la partition FLR-02 et sur chacun des 4 textes avec un seuil de fréquence approprié a permis d’obtenir le tableau de synthèse du résultat des 5 requêtes. Les suites de noms sélectionnées sont classées dans l’orde alphabétique dans la figure 3.1.

Figure 3.1 – Sélection des suites « nom+nom » dans FLR-02 et dans chacun des textes Les 53 suites agrégées de la figure 3.1 sont présentées dans les cellules du tableau de la figure 3.2. Les 71 noms tirés des 53 suites de la figure 3.2 sont présentés par ordre alphabétique dans la liste de la figure 3.3. débouchent sur les résultats de la recherche des suites « nom+nom » par combinaison deux à deux des noms de la liste, soient 110 suites (fig. 3.4 et 3.5).

Figure 3.2 – Les 53 suites « nom+nom » sélectionnées dans les textes et le corpus FLR-02

Figure 3.3 – Les 71 noms extraits des 53 suites « nom+nom » sélectionnées

Dans les tableaux bruts de résultats, les fréquences sont présentées sur la même ligne pour le corpus et les textes, avec le nombre de textes concernés par chaque suite, ce qui a permis d’isoler les 85 syntagmes « spécifiques » sur tableur et de faire la synthèse des fréquences obtenues dans la figure 3.5. Après un contrôle des concordances, les syntagmes « artificiels » issus de la textométrie ont été surlignés en rouge dans les tableaux des figures 3.4 et 3.5.

Figure 3.5 – Les 85 suites spécifiques de deux noms dans les textes de FLR-02

3.1.2 Suites de trois noms

La recherche des suites de type « nom+nom+nom » sur le même corpus a débouché sur le tableau de synthèse de la figure 3.6.

Les 37 suites de 3 noms sélectionnées sont présentées dans des cellules distinctes recopiées en ligne dans la figure 3.7. Comme dans le cas des suites de deux noms, un travail combiné sur tableur et en traitement de texte permet d’établir la liste des noms qui composent ces 37 suites avec des séparateurs entre les noms (fig. 3.8). Cette liste est utilisée pour rechercher les suites obtenues par composition 3 par 3 des noms qu’elle contient. Les résultats de la requête lancée sur la partition du corpus FLR-02 débouche sur 58 suites présentes dans les textes. Ils sont présentés dans les figures 3.9 et 3.10, avec 4 suites partagées et les 54 suites spécifiques des 4 textes. Les suites « artificielles » issues du traitement par textométrie sont surlignées en rouge. La figure 3.10 montre la variété des syntagmes propres aux 4 textes

Figure 3.6 – Sélection des suites de trois noms dans FLR-02 et dans les 4 textes

Figure 3.7 – Les 37 suites de 3 noms sélectionnées dans FLR-02 et dans les 4 textes .

Figure 3.9 – Les 4 suites « nom+nom+nom » partagées entre les textes de FLR-02

Figure 3.10 – Les 54 suites « nom+nom+nom » spécifiques des textes de FLR-02

3.1.3 Suites de quatre noms

Les suites de 4 noms ont été recherchées avec la même méthode.

Les premier résultats obtenus sur la partition du corpus FLR-02, présentés dans la figure 3.11, font apparaitre une difficulté, avec la sélection de guillemets incomplets vus comme des lemmes par le lemmatiseur de TXM (TreeTagger). Ils ont été éliminés des requêtes lancées sur chacun des 4 textes pour construire le tableau de synthèse de la figure ce qui ramène les résultats de la recherche à 15 suites de 4 noms, avec deux syntagmes entre de « vrais » guillemets.

Les suites de la figure 3.11 sont toutes spécifiques, avec un seuil de fréquence de 1, ce qui permet de considérer le tableau de la figure 3.12 comme un tableau final, sans avoir à recomposer des suites de 4 noms comme dans les suites de taille plus réduite. Nous n’avons pas trouvé de syntagme « artificiel » dans ces suites de 4 noms.

Cette recherche « en aveugle » des syntagmes nominaux reste conditionnée par le choix des seuils de fréquence, sauf pour les suites de 4 noms.

Figure 3.11 – Recherche des suites de 4 noms dans la partition FLR-02

Figure 3.12 – Suites spécifiques de 4 noms des textes du corpus FLR-02

L’interprétation des résultats de cette section passe par un travail de regroupement des syn-tagmes de toute taille sur leur base nominale, dont il est possible d’établir la liste « à la main ». Nous avons abordé ce travail dans une recherche « a priori » des syntagmes nominaux construits sur une base nominale connue, présentée dans la section 3.3.

Avant d’y venir, nous présentons dans la section 3.2 les résultats de la recherche « en aveugle » des substantifs qualifiés où l’adjectif précède immédiatement la base nominale ou en est séparée par un ou plusieurs noms.

Ceci permettra d’établir une liste complète des bases nominales obtenues « en aveugle » sur l’ensemble des syntagmes nominaux recherchés, avec ou sans adjectif, et de rapprocher cette liste des entrées du lexique et de la sélection de substantifs comme unité lexicales potentielles du lexique élaborée dens la section 2.5 (cf. fig. 2.54).