• Aucun résultat trouvé

Analyse et représentation de la langue

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse et représentation de la langue"

Copied!
16
0
0

Texte intégral

(1)

Analyse et représentation de la langue

Damien Nouvel

(2)

Analyses lexicales et morphologiques

Plan

1. Analyses lexicales et morphologiques

2. Analyses syntaxiques 3. Vers la sémantique

Damien Nouvel (Inalco) Représentation de la langue 2 / 16

(3)

Analyses lexicales et morphologiques

Correction orthographique

§ Recherche dans une base lexicale

‚ Liste des mots pour une langue donnée

‚ Comparaison mots du texte vs lexique

‚ Disposer de toutes les formes possibles : couverture ñ Complexe : par exemple1000˚50K= 50M…

§ Optimisation de la recherche

‚ Utilisation d’automates

‚ Arbre des préfixes (TRIE)

§ Besoin d’informations contextuelles

(4)

Analyses lexicales et morphologiques

Couverture du lexique

§ Difficultés de couverture

‚ Langues « agglutinantes » (morphologie / composition)

‚ Morphologie, dontflexions(déclinaisons / conjugaisons) ñ Paradigmes d’agglutination et de flexion

‚ Variantes d’écritures

‚ Noms propres (classeouverte) acronymes, etc.

ñ Automates de reconnaissances partielles

Damien Nouvel (Inalco) Représentation de la langue 4 / 16

(5)

Analyses lexicales et morphologiques

Applications

§ Éditeurs de texte

§ Saisie prédictive / autocorrect (T9)

‚ Handicap (aveugle, moteurs)

‚ Grand public

ñ Logiciels hors-ligne (contrairement aux reconnaissances)

§ Détection de nouveaux mots (néologismes, noms propres, etc.)

(6)

Analyses syntaxiques

Plan

1. Analyses lexicales et morphologiques 2. Analyses syntaxiques

3. Vers la sémantique

Damien Nouvel (Inalco) Représentation de la langue 6 / 16

(7)

Analyses syntaxiques

Lier les mots dans les énoncés

§ Niveau de représentation

‚ Exploite les approches morphologiques / lexicales

ñ Importance des catégories morpho-syntaxiques(POS)

‚ Détermine les liens / relations / dépendancesentre les mots

‚ Identifie des syntagmes

§ Modélisation de la « grammaire » (SOV, VSO, etc.)

§ Deux catégories d’approches

Constituants : arbres syntaxiques (projectivité)

Dépendances: relations entre mots(Tesnière, 1̃940)

ñ Possiblité de convertir de l’un à l’autre ñ Approches : LFG, GPSG, TAG, HPSG …

(8)

Analyses syntaxiques

Exemple

(Bourigault / SYNTEX)

Damien Nouvel (Inalco) Représentation de la langue 8 / 16

(9)

Analyses syntaxiques

Quelques difficultés

§ Le rattachement prépositionnel

‚ « Il voit le chat de sa sœur »

‚ « Il voit le chat de sa fenêtre »

§ Triple ambiguïté locale

‚ « Il voit l’homme dans le parc avec des jumelles »

§ Les propositions (relatives, subordonnées, etc.)

§ Quelle représentation pour la coordination

§ Traitement des anaphores (syntaxe et sémantique)

(10)

Analyses syntaxiques

Démo

§ Test avec Stanford Core NLP (Manning)

‚ Analyseur :http://corenlp.run

‚ Documentation :https://stanfordnlp.github.io/CoreNLP/

§ Quelques essais avec FRMG(de la Clergerie)

‚ Analyseur :http://alpage.inria.fr/frmgwiki/frmg_main/frmg_server

‚ Portail :http://alpage.inria.fr/frmgwiki/

Damien Nouvel (Inalco) Représentation de la langue 10 / 16

(11)

Vers la sémantique

Plan

1. Analyses lexicales et morphologiques 2. Analyses syntaxiques

3. Vers la sémantique

(12)

Vers la sémantique

Profondeur de la syntaxe

§ Analyse syntaxique

‚ Morpho-syntaxe

‚ Syntaxe de surface / parenthésage (syntagmes)

‚ Syntaxe « grammaticale »

§ Syntaxe « profonde »

‚ Sujet du verbevs agent de l’action (passif)

‚ Objet : patient, récepteur, etc.

‚ Sujet distant (anaphores / coréférences …) ñ Interface syntaxe / sémantique

Damien Nouvel (Inalco) Représentation de la langue 12 / 16

(13)

Vers la sémantique

Les entités nommées

(14)

Vers la sémantique

Les entités nommées

§ Pas de définition stable

‚ « Noms propres et quantités d’intérêt » (MUC)

‚ « Entités du monde concret qui ont un nom » (ESTER)

‚ « Expression qui réfère à une entité unique » (Ehrmann)

‚ « Objets mentaux pour la logique » (Nouvel)

‚ …

§ Deux grandes catégories linguistiques

Noms propres

ñ Limites : « Superman », « l’Histoire », etc.

Descriptions définies(syntagmes nominaux définis)

ñ Limites : « cette voiture », « le roi des forains », « l’occident » ñ Tenir compte des synonymes, homonymes,métonymies ñ Beaucoup d’applications …prétraitement ?

Damien Nouvel (Inalco) Représentation de la langue 14 / 16

(15)

Vers la sémantique

Structurer les textes en connaissances

§ Des formats plus ou moinsstructurés

‚ Texte brut : sauts de lignes

‚ PDF : graphiquement stable, mais peu structuré

‚ HTML : sections, styles, liens, micro-formats

‚ Wikipedia : articles et info-boxes

‚ BabelNet : http://babelnet.org/synset?word=Inalco&lang=FR

ñ Structuration : du texte aux graphes(valués)

§ Quelques réseaux sémantiques

‚ WordNet

‚ Graphes conceptuels

‚ Web sémantique (RDF/OWL)

‚ JeuxDeMots http://www.jeuxdemots.org

(16)

Vers la sémantique

Plongements de mots

§ Sémantique distributionnelle

‚ « You shall know a word by the company it keeps » (Firth, 57)

‚ Analyse « distributionnelle » des mots en contexte (Harris, 60)

§ Mélange de deux axes d’analyse

Syntagmatique: les successions de mots

Paradigmatique: les substitutions de mots

§ Méthode non-supervisée de positionnement (sémantique)

‚ Collection de corpus de textetrès volumineux

‚ Choix de paramètres(dimensions)

‚ Recherche decorrelations entre mots et leurs contextes ñ Embeddings (Collobert, 2011), Word2Vec(Mikolov, 2013),

FastText (Bojanowski, 2016)

ñ Démo : http://embeddings.sketchengine.co.uk

Damien Nouvel (Inalco) Représentation de la langue 16 / 16

Références

Documents relatifs

Nous avons intégré l’analyse morphologique dans le processus global d’acquisition automa- tique de ressources lexicales à partir de textes, et notamment l’identification des

la semaine dernière, nicolas est parti passer quelques jours dans les pyrénées avec son chien médor.. et Mme bompin qui sont boulangers à paris et qui habitent dans

§ Détection de nouveaux mots (néologismes, noms propres, etc.).. Damien Nouvel (Inalco) Représentation de la langue 5

Ce que l’on remarque immédiatement dans cette perspective, c’est la fréquence d’énonciation de noms propres : le nom propre n’apparaît plus alors comme un élément

Afin d’étudier si la période temporelle joue un rôle important, nous avons étudié trois intervalles de temps pour les documents sélectionnés : le même jour que le

Nous pourrons alors souligner que papa , maman sont essen- tiellement des noms propres, non seulement dans leurs emplois situationnels ordinaires (c’est-à-dire leurs emplois

Lorsque le petit prince s’endort enfin dans son berceau, Loulou s’installe sur les genoux de sa maîtresse et ronronne2. Ecris devant chaque nom le

le vieux chou-fleur nos grandes galeries son curieux attelage cette belle histoire.. leur taille normale une paroi glissante Souligne les noms et entoure