• Aucun résultat trouvé

La créativité lexicale : des pratiques sociales aux textes

N/A
N/A
Protected

Academic year: 2021

Partager "La créativité lexicale : des pratiques sociales aux textes"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-01806090

https://hal.archives-ouvertes.fr/hal-01806090

Submitted on 1 Jun 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

La créativité lexicale : des pratiques sociales aux textes

Sandrine Ollinger, Mathieu Valette

To cite this version:

Sandrine Ollinger, Mathieu Valette. La créativité lexicale : des pratiques sociales aux textes. CI-

NEO’08, May 2008, Barcelone, Espagne. 2008. �hal-01806090�

(2)

Analyse et Traitement Informatique de la Langue Française 44, avenue de la Libération - BP 30687 - 54063 Nancy Cedex Téléphone : 03 83 96 21 76 Télécopie : 03 83 97 24 56

www.atilf.fr contact@atilf.fr

La créativité lexicale :

des pratiques sociales aux textes Valette Mathieu

Mathieu.Valette@atilf.fr

Ollinger Sandrine

Sandrine.Ollinger@atilf.fr

Comparaison de chaque unité lexicale au lexique Morphalou

Traitement des formes nouvelles : détection des candidats à la

néologie formelle Traitement des formes

connues : détection des candidats à la

néologie catégorielle

Classification de chacun des 2 types de candidats

Ajout du corpus, des candidats et des attestations au POAMO Corpus étiquetés morpho-

syntaxiquement (Tree Tagger)

Lexiques d’exclusion (inclus + utilisateur)

Remarques :

Filtrage des formes nouvelles

corpus sous-corpus

description texte

candidat attestations

corpus sous-corpus

description texte

candidat attestations

•  Observatoire de créativité lexicale - Base de données relationnelle MySQL - Entrée : sortie de POMPAMO - Sortie : interface d’interrogation PHP

•  Interrogations croisées - Requêtes sur méta-données

- Requêtes sur formes et expressions régulières - Calculs de fréquences

•  Caractérisation des candidats et sélection - Enrichissement lexicométrique

- Évolution diachronique - Répartition entre types de corpus

•  1 table de candidats / type - Id_candidat

- Forme graphique - Hypothèse d’étiquette - Hypothèse de lemmatisation

•  1 table d’attestations / type - Id_candidat

- Id_document - Extrait étiqueté - Localisation

•  1 table de description des documents - Id_document

- Noms corpus et sous-corpus - Titre, auteur, date

- Typologie (discours, domaine, genre) - Nombre de mots, phrases, paragraphes - Taux de Néologie global, formelle, catégorielle

•  Discours politique : 87 textes de propagande, 325 135 occurrences, 18 871 formes

•  Discours journalistique : 406 articles, 304 727 occurrences, 21 825 formes

•  Discours blog : 61 posts (commentaires compris), 325 991 occurrences, 31 015 formes

15 170 14 449 14 669 9 860

9 030 14 593 18 871 Formes

106 883 108 475 110 633 109 202

86 772 108 753 325 135 Occurrences

30 20 11 128

170 108 87 Nb de textes

Plume de Presse Versac Coulisses Bruxelles, UE Nouvel

Observateur Le Point Marianne Elysée Sources

Blog Journalistique

Politique Discours

15 170 14 449 14 669 9 860

9 030 14 593 18 871 Formes

106 883 108 475 110 633 109 202

86 772 108 753 325 135 Occurrences

30 20 11 128

170 108 87 Nb de textes

Plume de Presse Versac Coulisses Bruxelles, UE Nouvel

Observateur Le Point Marianne Elysée Sources

Blog Journalistique

Politique Discours

Corpus « pouvoir dachat »

longueur supérieure à 1 et ne contient pas de chiffre

une unité lexicale : une forme nouvelle + son étiquette + son lemme + identifiants dans corpus

NON l’utilisateur a choisi un

lexique OUI

OUI

forme NAM NON

filtre des formes étiquetées NAM choisi OUI

NON

forme reconnue

NON

forme composée OUI choix de conserver les formes

composées NON

NON OUI Occurrence de

candidat

NON contient des caractères non alphanumériques ou entièrement majuscule

OUI NON

Occurrence de candidat

OUI OUI

négationnisme NOM w_1634 négationnisme 25.05.2000 NOM w_1643 25.05.2000 Kosovo NAM w_1645 Kosovo nombre composé

OUI NON

longueur supérieure à 1 et ne contient pas de chiffre longueur supérieure à 1 et ne

contient pas de chiffre

une unité lexicale : une forme nouvelle + son étiquette + son lemme + identifiants dans corpus

NON l’utilisateur a choisi un

lexique l’utilisateur a choisi un

lexique OUI OUI

OUI OUI

forme NAM NON

filtre des formes étiquetées NAM choisi filtre des formes étiquetées

NAM choisi OUI OUI

NON

forme reconnue

NON

forme composée OUI OUI choix de conserver les formes

composées choix de conserver les formes

composées NON

NON NON

NON NON NON OUI

Occurrence de candidat OUI OUI Occurrence de

candidat

NON contient des caractères non alphanumériques ou entièrement majuscule contient des caractères non alphanumériques ou entièrement majuscule OUI OUI

OUI NON

Occurrence de candidat OUI

OUI

OUI OUIOUIOUI

négationnisme NOM w_1634 négationnisme 25.05.2000 NOM w_1643 25.05.2000 Kosovo NAM w_1645 Kosovo nombre composé

OUI OUI OUI NONNON

Lexiques d’exclusion

•  Lexique principal de formes fléchies du français : MORPHALOU 2.0

•  Validité linguistique (Nomenclature TLF) –  Large couverture (524 725 formes fléchies 95 810 lemmes) –  Accès libre au format XML – LMF

•  Lexiques supplémentaires inclus –  70 438 Noms propres

–  6 903 Adjectifs toponymiques et gentilés –  140 nombres composés

•  Lexiques supplémentaires utilisateur

poamo

•  Une plateforme de veille lexicale semi-automatisée pour la production de ressources lexicographiques (attestations, mesures, contextes et sources)

n matériau pour les lexicographes (dictionnairique) n propositions pour de nouvelles pratiques lexicographiques

•  Un outil pour l’étude de la néologie (observations rapportées aux discours et aux genres textuels)

Le genre polémique dans Marianne : la néologie dérivationnelle et suffixale comme mode d’expression polémique

« bobo TGV », « tactico-politicien »,

« ultrapopuliste, « Sarkorigolo », « starisation »,

« centristo-bayrouiste », etc.

à Vers une lexicologie textuelle

•  Tous les discours sont a priori créatifs

•  Mais les genres (ensembles de normes de production des textes), présentent des potentiels néologiques variables.

•  Ex. Marianne (pamphlétaire). Taux de créativité : 3,16 Le Point (information générale). Taux de créativité : 1,94

Objectifs généraux :

Références

Documents relatifs

La structure d'ensemble de la presse est bien vue dans les deux cas (à ceci près qu'avant pondération, manque le fragment 3Prs); les notices du Recueil allant avec les

Nous donnons, sur deux lignes parallèles, l'ensemble des minuscules de la police Russ, et la suite des lettres qui correspondent à leurs octets dans une police latine usuelle. Il

Pour chacun des deux sous-corpus, CAD et CSH (Orstom), on a considéré un lexique des -200 formes les plus fréquentes: soit Ac, Ao; dans la réunion Ac+o de ces lexiques, on

rZt4 va avec rZt2, autre fragment du commentaire de Zêta; et rZT3 va avec Rmq3; qui est d'une autre œuvre, mais du même auteur. Dans les analyses ultérieures, les 13 fragments sont

Nous rappelons que cette partie comprend ~622ks (i.e. Les sigles des chapitres débutent par {&M &m &L &J} pour les quatre évangélistes MATTHIEU, MARC, LUC et JEAN;

£Ilt; et de Saint BASILE, £§B. Les deux œuvres £î\t et £§B, toutes deux consacrées au bon usage que la jeunesse peut faire des études classiques, prédominent dans la classe

D'après les représentations du nuage N(J) publiées au §3, le lecteur verra que les profils des variantes d'une même forme diffèrent, généralement, peu. Dans l'analyse

Dans les récits d’Annie Ernaux où l’enfance occupe une place importante, sa représentation se voit donc constituée de manière essentielle par celle des discours