• Aucun résultat trouvé

Analyse et représentation de la langue

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse et représentation de la langue"

Copied!
27
0
0

Texte intégral

(1)

Analyse et représentation de la langue

Damien Nouvel

Damien Nouvel (Inalco) Représentation de la langue 1 / 16

(2)

Analyses lexicales et morphologiques

Plan

1. Analyses lexicales et morphologiques

2. Analyses syntaxiques 3. Vers la sémantique

Damien Nouvel (Inalco) Représentation de la langue 2 / 16

(3)

Analyses lexicales et morphologiques

Correction orthographique

§ Recherche dans une base lexicale

‚ Liste des mots pour une langue donnée

‚ Comparaison mots du texte vs lexique

‚ Disposer de toutes les formes possibles : couverture ñ Complexe : par exemple1000˚50K= 50M…

§ Optimisation de la recherche

‚ Utilisation d’automates

‚ Arbre des préfixes (TRIE)

§ Besoin d’informations contextuelles

Damien Nouvel (Inalco) Représentation de la langue 3 / 16

(4)

Analyses lexicales et morphologiques

Correction orthographique

§ Recherche dans une base lexicale

‚ Liste des mots pour une langue donnée

‚ Comparaison mots du texte vs lexique

‚ Disposer de toutes les formes possibles : couverture ñ Complexe : par exemple1000˚50K= 50M…

§ Optimisation de la recherche

‚ Utilisation d’automates

‚ Arbre des préfixes (TRIE)

§ Besoin d’informations contextuelles

Damien Nouvel (Inalco) Représentation de la langue 3 / 16

(5)

Analyses lexicales et morphologiques

Correction orthographique

§ Recherche dans une base lexicale

‚ Liste des mots pour une langue donnée

‚ Comparaison mots du texte vs lexique

‚ Disposer de toutes les formes possibles : couverture ñ Complexe : par exemple1000˚50K= 50M…

§ Optimisation de la recherche

‚ Utilisation d’automates

‚ Arbre des préfixes (TRIE)

§ Besoin d’informations contextuelles

Damien Nouvel (Inalco) Représentation de la langue 3 / 16

(6)

Analyses lexicales et morphologiques

Couverture du lexique

§ Difficultés de couverture

‚ Langues « agglutinantes » (morphologie / composition)

‚ Morphologie, dontflexions(déclinaisons / conjugaisons) ñ Paradigmes d’agglutination et de flexion

‚ Variantes d’écritures

‚ Noms propres (classeouverte) acronymes, etc.

ñ Automates de reconnaissances partielles

Damien Nouvel (Inalco) Représentation de la langue 4 / 16

(7)

Analyses lexicales et morphologiques

Applications

§ Éditeurs de texte

§ Saisie prédictive / autocorrect (T9)

‚ Handicap (aveugle, moteurs)

‚ Grand public

ñ Logiciels hors-ligne (contrairement aux reconnaissances)

§ Détection de nouveaux mots (néologismes, noms propres, etc.)

Damien Nouvel (Inalco) Représentation de la langue 5 / 16

(8)

Analyses lexicales et morphologiques

Applications

§ Éditeurs de texte

§ Saisie prédictive / autocorrect (T9)

‚ Handicap (aveugle, moteurs)

‚ Grand public

ñ Logiciels hors-ligne (contrairement aux reconnaissances)

§ Détection de nouveaux mots (néologismes, noms propres, etc.)

Damien Nouvel (Inalco) Représentation de la langue 5 / 16

(9)

Analyses lexicales et morphologiques

Applications

§ Éditeurs de texte

§ Saisie prédictive / autocorrect (T9)

‚ Handicap (aveugle, moteurs)

‚ Grand public

ñ Logiciels hors-ligne (contrairement aux reconnaissances)

§ Détection de nouveaux mots (néologismes, noms propres, etc.)

Damien Nouvel (Inalco) Représentation de la langue 5 / 16

(10)

Analyses syntaxiques

Plan

1. Analyses lexicales et morphologiques 2. Analyses syntaxiques

3. Vers la sémantique

Damien Nouvel (Inalco) Représentation de la langue 6 / 16

(11)

Analyses syntaxiques

Lier les mots dans les énoncés

§ Niveau de représentation

‚ Exploite les approches morphologiques / lexicales

ñ Importance des catégories morpho-syntaxiques(POS)

‚ Détermine les liens / relations / dépendancesentre les mots

‚ Identifie des syntagmes

§ Modélisation de la « grammaire » (SOV, VSO, etc.)

§ Deux catégories d’approches

Constituants : arbres syntaxiques (projectivité)

Dépendances: relations entre mots(Tesnière, 1̃940)

ñ Possiblité de convertir de l’un à l’autre ñ Approches : LFG, GPSG, TAG, HPSG …

Damien Nouvel (Inalco) Représentation de la langue 7 / 16

(12)

Analyses syntaxiques

Lier les mots dans les énoncés

§ Niveau de représentation

‚ Exploite les approches morphologiques / lexicales

ñ Importance des catégories morpho-syntaxiques(POS)

‚ Détermine les liens / relations / dépendancesentre les mots

‚ Identifie des syntagmes

§ Modélisation de la « grammaire » (SOV, VSO, etc.)

§ Deux catégories d’approches

Constituants : arbres syntaxiques (projectivité)

Dépendances: relations entre mots(Tesnière, 1̃940)

ñ Possiblité de convertir de l’un à l’autre ñ Approches : LFG, GPSG, TAG, HPSG …

Damien Nouvel (Inalco) Représentation de la langue 7 / 16

(13)

Analyses syntaxiques

Exemple

(Bourigault / SYNTEX)

Damien Nouvel (Inalco) Représentation de la langue 8 / 16

(14)

Analyses syntaxiques

Quelques difficultés

§ Le rattachement prépositionnel

‚ « Il voit le chat de sa sœur »

‚ « Il voit le chat de sa fenêtre »

§ Triple ambiguïté locale

‚ « Il voit l’homme dans le parc avec des jumelles »

§ Les propositions (relatives, subordonnées, etc.)

§ Quelle représentation pour la coordination

§ Traitement des anaphores (syntaxe et sémantique)

Damien Nouvel (Inalco) Représentation de la langue 9 / 16

(15)

Analyses syntaxiques

Démo

§ Test avec Stanford Core NLP (Manning)

‚ Analyseur :http://corenlp.run

‚ Documentation :https://stanfordnlp.github.io/CoreNLP/

§ Quelques essais avec FRMG(de la Clergerie)

‚ Analyseur :http://alpage.inria.fr/frmgwiki/frmg_main/frmg_server

‚ Portail :http://alpage.inria.fr/frmgwiki/

Damien Nouvel (Inalco) Représentation de la langue 10 / 16

(16)

Vers la sémantique

Plan

1. Analyses lexicales et morphologiques 2. Analyses syntaxiques

3. Vers la sémantique

Damien Nouvel (Inalco) Représentation de la langue 11 / 16

(17)

Vers la sémantique

Profondeur de la syntaxe

§ Analyse syntaxique

‚ Morpho-syntaxe

‚ Syntaxe de surface / parenthésage (syntagmes)

‚ Syntaxe « grammaticale »

§ Syntaxe « profonde »

‚ Sujet du verbevs agent de l’action (passif)

‚ Objet : patient, récepteur, etc.

‚ Sujet distant (anaphores / coréférences …) ñ Interface syntaxe / sémantique

Damien Nouvel (Inalco) Représentation de la langue 12 / 16

(18)

Vers la sémantique

Profondeur de la syntaxe

§ Analyse syntaxique

‚ Morpho-syntaxe

‚ Syntaxe de surface / parenthésage (syntagmes)

‚ Syntaxe « grammaticale »

§ Syntaxe « profonde »

‚ Sujet du verbevs agent de l’action (passif)

‚ Objet : patient, récepteur, etc.

‚ Sujet distant (anaphores / coréférences …)

ñ Interface syntaxe / sémantique

Damien Nouvel (Inalco) Représentation de la langue 12 / 16

(19)

Vers la sémantique

Profondeur de la syntaxe

§ Analyse syntaxique

‚ Morpho-syntaxe

‚ Syntaxe de surface / parenthésage (syntagmes)

‚ Syntaxe « grammaticale »

§ Syntaxe « profonde »

‚ Sujet du verbevs agent de l’action (passif)

‚ Objet : patient, récepteur, etc.

‚ Sujet distant (anaphores / coréférences …) ñ Interface syntaxe / sémantique

Damien Nouvel (Inalco) Représentation de la langue 12 / 16

(20)

Vers la sémantique

Les entités nommées

Damien Nouvel (Inalco) Représentation de la langue 13 / 16

(21)

Vers la sémantique

Les entités nommées

§ Pas de définition stable

‚ « Noms propres et quantités d’intérêt » (MUC)

‚ « Entités du monde concret qui ont un nom » (ESTER)

‚ « Expression qui réfère à une entité unique » (Ehrmann)

‚ « Objets mentaux pour la logique » (Nouvel)

‚ …

§ Deux grandes catégories linguistiques

Noms propres

ñ Limites : « Superman », « l’Histoire », etc.

Descriptions définies(syntagmes nominaux définis)

ñ Limites : « cette voiture », « le roi des forains », « l’occident » ñ Tenir compte des synonymes,homonymes,métonymies ñ Beaucoup d’applications …prétraitement ?

Damien Nouvel (Inalco) Représentation de la langue 14 / 16

(22)

Vers la sémantique

Les entités nommées

§ Pas de définition stable

‚ « Noms propres et quantités d’intérêt » (MUC)

‚ « Entités du monde concret qui ont un nom » (ESTER)

‚ « Expression qui réfère à une entité unique » (Ehrmann)

‚ « Objets mentaux pour la logique » (Nouvel)

‚ …

§ Deux grandes catégories linguistiques

Noms propres

ñ Limites : « Superman », « l’Histoire », etc.

Descriptions définies(syntagmes nominaux définis)

ñ Limites : « cette voiture », « le roi des forains », « l’occident » ñ Tenir compte des synonymes,homonymes,métonymies ñ Beaucoup d’applications …prétraitement ?

Damien Nouvel (Inalco) Représentation de la langue 14 / 16

(23)

Vers la sémantique

Les entités nommées

§ Pas de définition stable

‚ « Noms propres et quantités d’intérêt » (MUC)

‚ « Entités du monde concret qui ont un nom » (ESTER)

‚ « Expression qui réfère à une entité unique » (Ehrmann)

‚ « Objets mentaux pour la logique » (Nouvel)

‚ …

§ Deux grandes catégories linguistiques

Noms propres

ñ Limites : « Superman », « l’Histoire », etc.

Descriptions définies(syntagmes nominaux définis)

ñ Limites : « cette voiture », « le roi des forains », « l’occident »

ñ Tenir compte des synonymes,homonymes,métonymies ñ Beaucoup d’applications …prétraitement ?

Damien Nouvel (Inalco) Représentation de la langue 14 / 16

(24)

Vers la sémantique

Les entités nommées

§ Pas de définition stable

‚ « Noms propres et quantités d’intérêt » (MUC)

‚ « Entités du monde concret qui ont un nom » (ESTER)

‚ « Expression qui réfère à une entité unique » (Ehrmann)

‚ « Objets mentaux pour la logique » (Nouvel)

‚ …

§ Deux grandes catégories linguistiques

Noms propres

ñ Limites : « Superman », « l’Histoire », etc.

Descriptions définies(syntagmes nominaux définis)

ñ Limites : « cette voiture », « le roi des forains », « l’occident » ñ Tenir compte des synonymes, homonymes,métonymies ñ Beaucoup d’applications …prétraitement ?

Damien Nouvel (Inalco) Représentation de la langue 14 / 16

(25)

Vers la sémantique

Structurer les textes en connaissances

§ Des formats plus ou moinsstructurés

‚ Texte brut : sauts de lignes

‚ PDF : graphiquement stable, mais peu structuré

‚ HTML : sections, styles, liens, micro-formats

‚ Wikipedia : articles et info-boxes

‚ BabelNet : http://babelnet.org/synset?word=Inalco&lang=FR

ñ Structuration : du texte aux graphes(valués)

§ Quelques réseaux sémantiques

‚ WordNet

‚ Graphes conceptuels

‚ Web sémantique (RDF/OWL)

‚ JeuxDeMots http://www.jeuxdemots.org

ñ Interactions homme-machine etmachine-machine

Damien Nouvel (Inalco) Représentation de la langue 15 / 16

(26)

Vers la sémantique

Structurer les textes en connaissances

§ Des formats plus ou moinsstructurés

‚ Texte brut : sauts de lignes

‚ PDF : graphiquement stable, mais peu structuré

‚ HTML : sections, styles, liens, micro-formats

‚ Wikipedia : articles et info-boxes

‚ BabelNet : http://babelnet.org/synset?word=Inalco&lang=FR

ñ Structuration : du texte aux graphes(valués)

§ Quelques réseaux sémantiques

‚ WordNet

‚ Graphes conceptuels

‚ Web sémantique (RDF/OWL)

‚ JeuxDeMots http://www.jeuxdemots.org

ñ Interactions homme-machine etmachine-machine

Damien Nouvel (Inalco) Représentation de la langue 15 / 16

(27)

Vers la sémantique

Plongements de mots

§ Sémantique distributionnelle

‚ « You shall know a word by the company it keeps » (Firth, 57)

‚ Analyse « distributionnelle » des mots en contexte (Harris, 60)

§ Mélange de deux axes d’analyse

Syntagmatique: les successions de mots

Paradigmatique: les substitutions de mots

§ Méthode non-supervisée de positionnement (sémantique)

‚ Collection de corpus de textetrès volumineux

‚ Choix de paramètres(dimensions)

‚ Recherche decorrelations entre mots et leurs contextes ñ Embeddings (Collobert, 2011), Word2Vec(Mikolov, 2013),

FastText (Bojanowski, 2016)

ñ Démo : http://embeddings.sketchengine.co.uk

Damien Nouvel (Inalco) Représentation de la langue 16 / 16

Références

Documents relatifs

Par ailleurs, des échantillons histologiques des yeux traités avec la MP- TSCPC au laser diode sont nécessaires pour étudier ses effets biologiques sur

Nouvel Empire retrouvés dans la nécropole thébaine montrent de nombreux exemples de représentation de matériaux (fig.. Une analyse pluridisciplinaire permet de renouveler

Para a oviposição, foram fornecidas larvas de segundo ínstar e pupas da broca-do-café Hypothenemus hampei (Ferr.) e, para a alimentação, ovos e larvas do

Theorem 1 states that Preference for Compromise and Independence of Inessential Expan- sions, along with the Pareto Principle and Anonymity, lead to what we call the relative

Ces deux catégories se partagent 2 mêmes items, il s’agit de Squittire (glapir pour le rat, émettre des cris stridents.. pour les oiseaux, et pour le chien dans le langage de

The method is based on the estimation of the number of clusters and the centers of the clusters from the Prim construction of a minimum spanning tree, followed by an initialization

Si certaines acceptions relèvent à l’évidence de langues spécialisées (voir par ex., pour couper, les domaines de la céramique, de la danse, des mines ou de la

FONTANIER, P., Etudes de la langue française sur Racine, ou Commentaire général et comparatif sur la diction et le style de ce grand classique, d'après l'abbé