• Aucun résultat trouvé

DamienNouvel Introduction

N/A
N/A
Protected

Academic year: 2022

Partager "DamienNouvel Introduction"

Copied!
18
0
0

Texte intégral

(1)

Introduction

Damien Nouvel

Damien Nouvel (Inalco) Introduction 1 / 18

(2)

Généralités

Plan

1. Généralités 2. Contexte général 3. Corpus et statistiques 4. Visées applicatives

(3)

Généralités

Séances et modalités de contrôle

§ Séances

‚ 24 séances

‚ Chaque séance : courset exercicessur machine

‚ Cours S2 :apprentissage automatique

§ Modalités de contrôle

‚ Un contrôle(S1) ou un projet(S2) : 50%

‚ Un examen final: 50%

Damien Nouvel (Inalco) Introduction 3 / 18

(4)

Généralités

Contenu du cours (prévisionnel)

§ Progression

‚ Introduction

‚ (Programmer en Python)

‚ Éléments en théorie des probabilités et en statistiques

‚ Statistiques pour la linguistique

‚ Théorie de l’information et mesures d’entropie

‚ Statistiques pour l’évaluation

‚ Classification automatique

‚ Paramétrage de classifieurs

(5)

Contexte général

Plan

1. Généralités 2. Contexte général 3. Corpus et statistiques 4. Visées applicatives

Damien Nouvel (Inalco) Introduction 5 / 18

(6)

Contexte général

Informatique et langage

§ Grace Hopper : A0, premier langage compilé (1951)

(7)

Contexte général

Traitement Automatique des Langues (TAL)

§ Le langage

Expressivité (implicite, déductions)

Générativité / compositionnalité

Modes d’expression: oral, écrit, signes, etc.

Evolution par conventions sociales

§ L’informatique

Calcul binaire, entiers, flottants, etc.

Procédures par séquence d’instructions

Copies exactes

Télécommunicationset essor des nouvelles technologies ñ Discipline issue de l’essor de l’utilisation de l’informatique

pour que des humains manipulent lelangage par d’autres moyens et à une autre échelle

Damien Nouvel (Inalco) Introduction 7 / 18

(8)

Corpus et statistiques

Plan

1. Généralités 2. Contexte général 3. Corpus et statistiques 4. Visées applicatives

(9)

Corpus et statistiques

Un corpus : quelles données, pour quoi faire

ñ Ensemble de documents ...

§ Un contenu textuel encodé (UTF8, PDF, Word, XML, etc.)

§ Des classifications associées, par

‚ Auteur(s) et éditeur

‚ Langue

‚ Date de publication

‚ Style (roman, journal, publication, administratif, etc.)

‚ Thèmes (science-fiction, politique, sport, technique, etc.) ñ Corpus comme collection de documents indexés

§ Corpus comme ressources pour

‚ Traitement du langage parlé

‚ Traduction automatique

‚ Études linguistique

‚ Publications scientifiques (par ex. biomédical, sociologie)

‚ etc.

Damien Nouvel (Inalco) Introduction 9 / 18

(10)

Corpus et statistiques

Les outils statistiques

0 2 4 6 8 10

0 5 10 15 20

Effort

Note

§ Les outils statistiques aident à modéliser des corrélations entre des données selon des paramètres à déterminer

§ Quelques notions de base

Fréquence : nombre d’occurrences

Probabilité: nombre compris dans[0,1]

Loi: distribution des probabilités

(11)

Corpus et statistiques

Statistiques pour les sciences

Problématique Hypothèses

Protocole Observations

Description Interprétation

Explication

Damien Nouvel (Inalco) Introduction 11 / 18

(12)

Corpus et statistiques

Corrélation n’est pas causalité

§ Attention aux interprétations hasardeuses...

‚ Parler russe / Boire de la vodka

‚ Bricoler dans un garage / Devenir millionaire

‚ Acheter des glaces / Porter des tongs

(13)

Corpus et statistiques

Épistémologie : règles logiques

§ Expliquer un phénomène selon des conditions

Nécessaire:␣añ ␣b

Suffisante :añb

Nécessaire et suffisante :aôb

§ Règles logiques pour l’inférence

Déduction:

(añb)^a b

Abduction:

(añb)^b a

Induction :

a^b añb

Damien Nouvel (Inalco) Introduction 13 / 18

(14)

Corpus et statistiques

Corpus, modèle, tâche

Corpus

Données Traits Phénomènes Modèle

Extraction

§ Les corpus permettent de décrire des phénomènes

Paramétragedu modèle (plus ou moins supervisé)

Evaluationdu modèle sur un jeu de test

Utilisation du modèle avec d’autres données et tâches

ñ Les statistiquespermettent de concevoir, de paramétreret d’évaluerl’adéquation du modèle pour une tâche donnée

(15)

Visées applicatives

Plan

1. Généralités 2. Contexte général 3. Corpus et statistiques 4. Visées applicatives

Damien Nouvel (Inalco) Introduction 15 / 18

(16)

Visées applicatives

Exemples d’applications

§ Niveaux de représentation du langage

‚ Acoustique (oral)

‚ Phonétique (oral)

‚ Morphologie

‚ Syntaxe

‚ Sémantique

‚ Pragmatique

§ Statistiques de corpus pour

Indexation de documents etrecherche d’information

‚ Correctionorthographiqueetgrammaticale

Reconnaissance automatique de l’écriture

Reconnaissance automatique de laparole

Traduction automatique

‚ ... (et bien d’autres)

(17)

Visées applicatives

Pourquoi les statistiques en TAL

§ Historique rapide et incomplet des approches TAL

Symboliques: automates, transducteurs

Heuristiques : logique, affection manuel de poids de règles

Numériques, dont par exemple

Approches bayésiennes

Chaînes de Markov

Arbres de décision

Maximum d’entropie / régression logistique

SVM, CRF

Réseaux de neurones (DNN, LSTM, convolutions) ñ Plus de numérique, plus de statistiques

§ Importance accrue des statistiques pour la linguistique

‚ Mise à disposition d’ importants volumesde textes

‚ Exigence de robustessedes applications ñ Attention au paramétrages (baselines) !

Damien Nouvel (Inalco) Introduction 17 / 18

(18)

Visées applicatives

Quelques références

§ Sites web

‚ Michèle Jardinohttp://archives.limsi.fr/Individu/jardino/coursTCAN2005.pdf

‚ Marti Hearsthttp://courses.ischool.berkeley.edu/i256/f06/sched.html

‚ Christopher Manning http://web.stanford.edu/class/cs276b/

‚ Peter Norvighttp://norvig.com/chomsky.html

‚ Revue TALhttp://atala.org/-Revue-TAL-

‚ Revue CLhttp://cljournal.org/

§ Livres

‚ Initiation aux méthodes de la stat. ling. (Muller, 1993)

‚ Modèles statistiques pour l’accès à l’information textuelle (Gaussier, Yvon, 2011)

‚ Statistique textuelle (Lebart, Salem, 1994)

‚ Foundation of Statistical NLP (Manning, Schütze, 1999)

Références

Documents relatifs

§ « Le langage est la capacité d’exprimer une pensée et de communiquer au moyen d’un système de signes [...] doté d’une sémantique, et le plus souvent d’une syntaxe [...]

§ « Le langage est la capacité d’exprimer une pensée et de communiquer au moyen d’un système de signes [...] doté d’une sémantique, et le plus souvent d’une syntaxe [...]

‚ Relations entre propositions (tautologiques, contradictoires).. crétois).. ‚ Relations entre propositions (tautologiques,

Le terme aurait été utilisé pour la première fois par Xénocrate.. Une (trop) rapide histoire de

ñ Les statistiques permettent de concevoir, de paramétrer et d’évaluer l’adéquation du modèle pour une tâche donnée. Damien Nouvel (Inalco) Introduction 14

§ Documents numériques : même organisation par défaut, mais peuvent aussi être accédés par d’autres moyens. ‚ Moteur de recherche : requête

§ Documents numériques : même organisation par défaut, mais peuvent aussi être accédés par d’autres moyens. ‚ Moteur de recherche : requête

§ Morse (1838) : codage court / long. § ASCII (American Standard Code