• Aucun résultat trouvé

DamienNouvel Introduction

N/A
N/A
Protected

Academic year: 2022

Partager "DamienNouvel Introduction"

Copied!
44
0
0

Texte intégral

(1)

Introduction

Damien Nouvel

Damien Nouvel (Inalco) Introduction 1 / 18

(2)

Généralités

Plan

1. Généralités 2. Contexte général 3. Corpus et statistiques 4. Visées applicatives

Damien Nouvel (Inalco) Introduction 2 / 18

(3)

Généralités

Séances et modalités de contrôle

§ Séances

‚ 24 séances

‚ Chaque séance : courset exercicessur machine

‚ Cours S2 :apprentissage automatique

§ Modalités de contrôle

‚ Un contrôle(S1) ou un projet (S2) : 50%

‚ Un examen final: 50%

Damien Nouvel (Inalco) Introduction 3 / 18

(4)

Généralités

Séances et modalités de contrôle

§ Séances

‚ 24 séances

‚ Chaque séance : courset exercicessur machine

‚ Cours S2 :apprentissage automatique

§ Modalités de contrôle

‚ Un contrôle(S1) ou un projet(S2) : 50%

‚ Un examen final: 50%

Damien Nouvel (Inalco) Introduction 3 / 18

(5)

Généralités

Contenu du cours (prévisionnel)

§ Progression

‚ Introduction

‚ (Programmer en Python)

‚ Éléments en théorie des probabilités et en statistiques

‚ Statistiques pour la linguistique

‚ Théorie de l’information et mesures d’entropie

‚ Statistiques pour l’évaluation

‚ Classification automatique

‚ Paramétrage de classifieurs

Damien Nouvel (Inalco) Introduction 4 / 18

(6)

Contexte général

Plan

1. Généralités 2. Contexte général 3. Corpus et statistiques 4. Visées applicatives

Damien Nouvel (Inalco) Introduction 5 / 18

(7)

Contexte général

Informatique et langage

§ Grace Hopper : A0, premier langage compilé (1951)

Damien Nouvel (Inalco) Introduction 6 / 18

(8)

Contexte général

Traitement Automatique des Langues (TAL)

§ Le langage

Expressivité (implicite, déductions)

Générativité / compositionnalité

Modes d’expression: oral, écrit, signes, etc.

Evolution par conventions sociales

§ L’informatique

Calcul binaire, entiers, flottants, etc.

Procédures par séquence d’instructions

Copies exactes

Télécommunicationset essor des nouvelles technologies ñ Discipline issue de l’essor de l’utilisation de l’informatique

pour que des humains manipulent le langagepar d’autres moyens et à une autre échelle

Damien Nouvel (Inalco) Introduction 7 / 18

(9)

Contexte général

Traitement Automatique des Langues (TAL)

§ Le langage

Expressivité (implicite, déductions)

Générativité / compositionnalité

Modes d’expression: oral, écrit, signes, etc.

Evolution par conventions sociales

§ L’informatique

Calcul binaire, entiers, flottants, etc.

Procédures par séquence d’instructions

Copies exactes

Télécommunicationset essor des nouvelles technologies

ñ Discipline issue de l’essor de l’utilisation de l’informatique pour que des humains manipulent le langagepar d’autres moyens et à une autre échelle

Damien Nouvel (Inalco) Introduction 7 / 18

(10)

Contexte général

Traitement Automatique des Langues (TAL)

§ Le langage

Expressivité (implicite, déductions)

Générativité / compositionnalité

Modes d’expression: oral, écrit, signes, etc.

Evolution par conventions sociales

§ L’informatique

Calcul binaire, entiers, flottants, etc.

Procédures par séquence d’instructions

Copies exactes

Télécommunicationset essor des nouvelles technologies ñ Discipline issue de l’essor de l’utilisation de l’informatique

pour que des humains manipulent lelangage par d’autres moyens et à une autre échelle

Damien Nouvel (Inalco) Introduction 7 / 18

(11)

Corpus et statistiques

Plan

1. Généralités 2. Contexte général 3. Corpus et statistiques 4. Visées applicatives

Damien Nouvel (Inalco) Introduction 8 / 18

(12)

Corpus et statistiques

Un corpus : quelles données, pour quoi faire

ñ Ensemble de documents ...

§ Un contenu textuel encodé (UTF8, PDF, Word, XML, etc.)

§ Des classifications associées, par

‚ Auteur(s) et éditeur

‚ Langue

‚ Date de publication

‚ Style (roman, journal, publication, administratif, etc.)

‚ Thèmes (science-fiction, politique, sport, technique, etc.) ñ Corpus comme collection de documents indexés

§ Corpus comme ressources pour

‚ Traitement du langage parlé

‚ Traduction automatique

‚ Études linguistique

‚ Publications scientifiques (par ex. biomédical, sociologie)

‚ etc.

Damien Nouvel (Inalco) Introduction 9 / 18

(13)

Corpus et statistiques

Un corpus : quelles données, pour quoi faire

ñ Ensemble de documents ...

§ Un contenu textuel encodé (UTF8, PDF, Word, XML, etc.)

§ Des classifications associées, par

‚ Auteur(s) et éditeur

‚ Langue

‚ Date de publication

‚ Style (roman, journal, publication, administratif, etc.)

‚ Thèmes (science-fiction, politique, sport, technique, etc.) ñ Corpus comme collection de documents indexés

§ Corpus comme ressources pour

‚ Traitement du langage parlé

‚ Traduction automatique

‚ Études linguistique

‚ Publications scientifiques (par ex. biomédical, sociologie)

‚ etc.

Damien Nouvel (Inalco) Introduction 9 / 18

(14)

Corpus et statistiques

Un corpus : quelles données, pour quoi faire

ñ Ensemble de documents ...

§ Un contenu textuel encodé (UTF8, PDF, Word, XML, etc.)

§ Des classifications associées, par

‚ Auteur(s) et éditeur

‚ Langue

‚ Date de publication

‚ Style (roman, journal, publication, administratif, etc.)

‚ Thèmes (science-fiction, politique, sport, technique, etc.)

ñ Corpus comme collection de documents indexés

§ Corpus comme ressources pour

‚ Traitement du langage parlé

‚ Traduction automatique

‚ Études linguistique

‚ Publications scientifiques (par ex. biomédical, sociologie)

‚ etc.

Damien Nouvel (Inalco) Introduction 9 / 18

(15)

Corpus et statistiques

Un corpus : quelles données, pour quoi faire

ñ Ensemble de documents ...

§ Un contenu textuel encodé (UTF8, PDF, Word, XML, etc.)

§ Des classifications associées, par

‚ Auteur(s) et éditeur

‚ Langue

‚ Date de publication

‚ Style (roman, journal, publication, administratif, etc.)

‚ Thèmes (science-fiction, politique, sport, technique, etc.) ñ Corpus comme collection de documents indexés

§ Corpus comme ressources pour

‚ Traitement du langage parlé

‚ Traduction automatique

‚ Études linguistique

‚ Publications scientifiques (par ex. biomédical, sociologie)

‚ etc.

Damien Nouvel (Inalco) Introduction 9 / 18

(16)

Corpus et statistiques

Un corpus : quelles données, pour quoi faire

ñ Ensemble de documents ...

§ Un contenu textuel encodé (UTF8, PDF, Word, XML, etc.)

§ Des classifications associées, par

‚ Auteur(s) et éditeur

‚ Langue

‚ Date de publication

‚ Style (roman, journal, publication, administratif, etc.)

‚ Thèmes (science-fiction, politique, sport, technique, etc.) ñ Corpus comme collection de documents indexés

§ Corpus comme ressources pour

‚ Traitement du langage parlé

‚ Traduction automatique

‚ Études linguistique

‚ Publications scientifiques (par ex. biomédical, sociologie)

‚ etc.

Damien Nouvel (Inalco) Introduction 9 / 18

(17)

Corpus et statistiques

Les outils statistiques

0 2 4 6 8 10

0 5 10 15 20

Effort

Note

§ Les outils statistiques aident à modéliser des corrélations entre des données selon des paramètres à déterminer

§ Quelques notions de base

Fréquence : nombre d’occurrences

Probabilité: nombre compris dans[0,1]

Loi: distribution des probabilités

Damien Nouvel (Inalco) Introduction 10 / 18

(18)

Corpus et statistiques

Les outils statistiques

0 2 4 6 8 10

0 5 10 15 20

Effort

Note

§ Les outils statistiques aident à modéliser des corrélations entre des données selon des paramètres à déterminer

§ Quelques notions de base

Fréquence : nombre d’occurrences

Probabilité: nombre compris dans[0,1]

Loi: distribution des probabilités

Damien Nouvel (Inalco) Introduction 10 / 18

(19)

Corpus et statistiques

Les outils statistiques

0 2 4 6 8 10

0 5 10 15 20

Effort

Note

§ Les outils statistiques aident à modéliser des corrélations entre des données selon des paramètres à déterminer

§ Quelques notions de base

Fréquence : nombre d’occurrences

Probabilité: nombre compris dans[0,1]

Loi: distribution des probabilités

Damien Nouvel (Inalco) Introduction 10 / 18

(20)

Corpus et statistiques

Les outils statistiques

0 2 4 6 8 10

0 5 10 15 20

Effort

Note

§ Les outils statistiques aident à modéliser des corrélations entre des données selon des paramètres à déterminer

§ Quelques notions de base

Fréquence : nombre d’occurrences

Probabilité: nombre compris dans[0,1]

Loi: distribution des probabilités

Damien Nouvel (Inalco) Introduction 10 / 18

(21)

Corpus et statistiques

Les outils statistiques

0 2 4 6 8 10

0 5 10 15 20

Effort

Note

§ Les outils statistiques aident à modéliser des corrélations entre des données selon des paramètres à déterminer

§ Quelques notions de base

Fréquence : nombre d’occurrences

Probabilité: nombre compris dans[0,1]

Loi: distribution des probabilités

Damien Nouvel (Inalco) Introduction 10 / 18

(22)

Corpus et statistiques

Les outils statistiques

0 2 4 6 8 10

0 5 10 15 20

Effort

Note

§ Les outils statistiques aident à modéliser des corrélations entre des données selon des paramètres à déterminer

§ Quelques notions de base

Fréquence : nombre d’occurrences

Probabilité: nombre compris dans[0,1]

Loi: distribution des probabilités

Damien Nouvel (Inalco) Introduction 10 / 18

(23)

Corpus et statistiques

Les outils statistiques

0 2 4 6 8 10

0 5 10 15 20

Effort

Note

§ Les outils statistiques aident à modéliser des corrélations entre des données selon des paramètres à déterminer

§ Quelques notions de base

Fréquence : nombre d’occurrences

Probabilité: nombre compris dans[0,1]

Loi: distribution des probabilités

Damien Nouvel (Inalco) Introduction 10 / 18

(24)

Corpus et statistiques

Statistiques pour les sciences

Problématique Hypothèses

Protocole Observations

Description Interprétation

Explication

Damien Nouvel (Inalco) Introduction 11 / 18

(25)

Corpus et statistiques

Corrélation n’est pas causalité

§ Attention aux interprétations hasardeuses...

‚ Parler russe / Boire de la vodka

‚ Bricoler dans un garage / Devenir millionaire

‚ Acheter des glaces / Porter des tongs

Damien Nouvel (Inalco) Introduction 12 / 18

(26)

Corpus et statistiques

Épistémologie : règles logiques

§ Expliquer un phénomène selon des conditions

Nécessaire:␣añ ␣b

Suffisante :añb

Nécessaire et suffisante :aôb

§ Règles logiques pour l’inférence

Déduction:

(añb)^a b

Abduction:

(añb)^b a

Induction :

a^b añb

Damien Nouvel (Inalco) Introduction 13 / 18

(27)

Corpus et statistiques

Épistémologie : règles logiques

§ Expliquer un phénomène selon des conditions

Nécessaire:␣añ ␣b

Suffisante :añb

Nécessaire et suffisante :aôb

§ Règles logiques pour l’inférence

Déduction:

(añb)^a b

Abduction:

(añb)^b a

Induction :

a^b añb

Damien Nouvel (Inalco) Introduction 13 / 18

(28)

Corpus et statistiques

Épistémologie : règles logiques

§ Expliquer un phénomène selon des conditions

Nécessaire:␣añ ␣b

Suffisante :añb

Nécessaire et suffisante :aôb

§ Règles logiques pour l’inférence

Déduction:

(añb)^a b

Abduction:

(añb)^b a

Induction :

a^b añb

Damien Nouvel (Inalco) Introduction 13 / 18

(29)

Corpus et statistiques

Épistémologie : règles logiques

§ Expliquer un phénomène selon des conditions

Nécessaire:␣añ ␣b

Suffisante :añb

Nécessaire et suffisante :aôb

§ Règles logiques pour l’inférence

Déduction:

(añb)^a b

Abduction:

(añb)^b a

Induction :

a^b añb

Damien Nouvel (Inalco) Introduction 13 / 18

(30)

Corpus et statistiques

Épistémologie : règles logiques

§ Expliquer un phénomène selon des conditions

Nécessaire:␣añ ␣b

Suffisante :añb

Nécessaire et suffisante :aôb

§ Règles logiques pour l’inférence

Déduction:

(añb)^a b

Abduction:

(añb)^b a

Induction :

a^b añb

Damien Nouvel (Inalco) Introduction 13 / 18

(31)

Corpus et statistiques

Corpus, modèle, tâche

Corpus

Données Traits Phénomènes Modèle

Extraction

§ Les corpus permettent de décrire des phénomènes

Paramétragedu modèle (plus ou moins supervisé)

Evaluationdu modèle sur un jeu de test

Utilisation du modèle avec d’autres données et tâches

ñ Les statistiquespermettent de concevoir, de paramétreret d’évaluer l’adéquation du modèle pour une tâche donnée

Damien Nouvel (Inalco) Introduction 14 / 18

(32)

Corpus et statistiques

Corpus, modèle, tâche

Corpus

Données Traits Phénomènes Modèle

Extraction

§ Les corpus permettent de décrire des phénomènes

Paramétragedu modèle (plus ou moins supervisé)

Evaluationdu modèle sur un jeu de test

Utilisation du modèle avec d’autres données et tâches

ñ Les statistiquespermettent de concevoir, de paramétreret d’évaluer l’adéquation du modèle pour une tâche donnée

Damien Nouvel (Inalco) Introduction 14 / 18

(33)

Corpus et statistiques

Corpus, modèle, tâche

Corpus

Données Traits Phénomènes Modèle

Extraction

§ Les corpus permettent de décrire des phénomènes

Paramétragedu modèle (plus ou moins supervisé)

Evaluationdu modèle sur un jeu de test

Utilisation du modèle avec d’autres données et tâches

ñ Les statistiquespermettent de concevoir, de paramétreret d’évaluerl’adéquation du modèle pour une tâche donnée

Damien Nouvel (Inalco) Introduction 14 / 18

(34)

Visées applicatives

Plan

1. Généralités 2. Contexte général 3. Corpus et statistiques 4. Visées applicatives

Damien Nouvel (Inalco) Introduction 15 / 18

(35)

Visées applicatives

Exemples d’applications

§ Niveaux de représentation du langage

‚ Acoustique (oral)

‚ Phonétique (oral)

‚ Morphologie

‚ Syntaxe

‚ Sémantique

‚ Pragmatique

§ Statistiques de corpus pour

Indexation de documents etrecherche d’information

‚ Correctionorthographiqueetgrammaticale

Reconnaissance automatique de l’écriture

Reconnaissance automatique de laparole

Traduction automatique

‚ ... (et bien d’autres)

Damien Nouvel (Inalco) Introduction 16 / 18

(36)

Visées applicatives

Exemples d’applications

§ Niveaux de représentation du langage

‚ Acoustique (oral)

‚ Phonétique (oral)

‚ Morphologie

‚ Syntaxe

‚ Sémantique

‚ Pragmatique

§ Statistiques de corpus pour

Indexation de documents etrecherche d’information

‚ Correctionorthographiqueetgrammaticale

Reconnaissance automatique de l’écriture

Reconnaissance automatique de laparole

Traduction automatique

‚ ... (et bien d’autres)

Damien Nouvel (Inalco) Introduction 16 / 18

(37)

Visées applicatives

Exemples d’applications

§ Niveaux de représentation du langage

‚ Acoustique (oral)

‚ Phonétique (oral)

‚ Morphologie

‚ Syntaxe

‚ Sémantique

‚ Pragmatique

§ Statistiques de corpus pour

Indexation de documents etrecherche d’information

‚ Correctionorthographiqueetgrammaticale

Reconnaissance automatique de l’écriture

Reconnaissance automatique de laparole

Traduction automatique

‚ ... (et bien d’autres)

Damien Nouvel (Inalco) Introduction 16 / 18

(38)

Visées applicatives

Pourquoi les statistiques en TAL

§ Historique rapide et incomplet des approches TAL

Symboliques: automates, transducteurs

Heuristiques : logique, affection manuel de poids de règles

Numériques, dont par exemple

Approches bayésiennes

Chaînes de Markov

Arbres de décision

Maximum d’entropie / régression logistique

SVM, CRF

Réseaux de neurones (DNN, LSTM, convolutions) ñ Plus de numérique, plus de statistiques

§ Importance accrue des statistiques pour la linguistique

‚ Mise à disposition d’ importants volumesde textes

‚ Exigence de robustessedes applications ñ Attention au paramétrages (baselines) !

Damien Nouvel (Inalco) Introduction 17 / 18

(39)

Visées applicatives

Pourquoi les statistiques en TAL

§ Historique rapide et incomplet des approches TAL

Symboliques: automates, transducteurs

Heuristiques : logique, affection manuel de poids de règles

Numériques, dont par exemple

Approches bayésiennes

Chaînes de Markov

Arbres de décision

Maximum d’entropie / régression logistique

SVM, CRF

Réseaux de neurones (DNN, LSTM, convolutions) ñ Plus de numérique, plus de statistiques

§ Importance accrue des statistiques pour la linguistique

‚ Mise à disposition d’ importants volumesde textes

‚ Exigence de robustessedes applications ñ Attention au paramétrages (baselines) !

Damien Nouvel (Inalco) Introduction 17 / 18

(40)

Visées applicatives

Pourquoi les statistiques en TAL

§ Historique rapide et incomplet des approches TAL

Symboliques: automates, transducteurs

Heuristiques : logique, affection manuel de poids de règles

Numériques, dont par exemple

Approches bayésiennes

Chaînes de Markov

Arbres de décision

Maximum d’entropie / régression logistique

SVM, CRF

Réseaux de neurones (DNN, LSTM, convolutions) ñ Plus de numérique, plus de statistiques

§ Importance accrue des statistiques pour la linguistique

‚ Mise à disposition d’ importants volumesde textes

‚ Exigence de robustessedes applications ñ Attention au paramétrages (baselines) !

Damien Nouvel (Inalco) Introduction 17 / 18

(41)

Visées applicatives

Pourquoi les statistiques en TAL

§ Historique rapide et incomplet des approches TAL

Symboliques: automates, transducteurs

Heuristiques : logique, affection manuel de poids de règles

Numériques, dont par exemple

Approches bayésiennes

Chaînes de Markov

Arbres de décision

Maximum d’entropie / régression logistique

SVM, CRF

Réseaux de neurones (DNN, LSTM, convolutions)

ñ Plus de numérique, plus de statistiques

§ Importance accrue des statistiques pour la linguistique

‚ Mise à disposition d’ importants volumesde textes

‚ Exigence de robustessedes applications ñ Attention au paramétrages (baselines) !

Damien Nouvel (Inalco) Introduction 17 / 18

(42)

Visées applicatives

Pourquoi les statistiques en TAL

§ Historique rapide et incomplet des approches TAL

Symboliques: automates, transducteurs

Heuristiques : logique, affection manuel de poids de règles

Numériques, dont par exemple

Approches bayésiennes

Chaînes de Markov

Arbres de décision

Maximum d’entropie / régression logistique

SVM, CRF

Réseaux de neurones (DNN, LSTM, convolutions) ñ Plus de numérique, plus de statistiques

§ Importance accrue des statistiques pour la linguistique

‚ Mise à disposition d’ importants volumesde textes

‚ Exigence de robustessedes applications ñ Attention au paramétrages (baselines) !

Damien Nouvel (Inalco) Introduction 17 / 18

(43)

Visées applicatives

Pourquoi les statistiques en TAL

§ Historique rapide et incomplet des approches TAL

Symboliques: automates, transducteurs

Heuristiques : logique, affection manuel de poids de règles

Numériques, dont par exemple

Approches bayésiennes

Chaînes de Markov

Arbres de décision

Maximum d’entropie / régression logistique

SVM, CRF

Réseaux de neurones (DNN, LSTM, convolutions) ñ Plus de numérique, plus de statistiques

§ Importance accrue des statistiques pour la linguistique

‚ Mise à disposition d’ importants volumesde textes

‚ Exigence de robustessedes applications ñ Attention au paramétrages (baselines) !

Damien Nouvel (Inalco) Introduction 17 / 18

(44)

Visées applicatives

Quelques références

§ Sites web

‚ Michèle Jardinohttp://archives.limsi.fr/Individu/jardino/coursTCAN2005.pdf

‚ Marti Hearsthttp://courses.ischool.berkeley.edu/i256/f06/sched.html

‚ Christopher Manning http://web.stanford.edu/class/cs276b/

‚ Peter Norvighttp://norvig.com/chomsky.html

‚ Revue TALhttp://atala.org/-Revue-TAL-

‚ Revue CLhttp://cljournal.org/

§ Livres

‚ Initiation aux méthodes de la stat. ling. (Muller, 1993)

‚ Modèles statistiques pour l’accès à l’information textuelle (Gaussier, Yvon, 2011)

‚ Statistique textuelle (Lebart, Salem, 1994)

‚ Foundation of Statistical NLP (Manning, Schütze, 1999)

Damien Nouvel (Inalco) Introduction 18 / 18

Références

Documents relatifs

Semaine du 10 janvier : Concepts généraux, histoire et représentation de l'information au niveau interne Présentation : généralités et plan de cours détaillé.. Historique

l’informatique pour que des humains manipulent le langage par d’autres moyens et à une autre échelle. Damien Nouvel (Inalco) Introduction 17

ñ Conçu pour le calcul, massivement exploité pour le langage.. Le TAL

§ « Le langage est la capacité d’exprimer une pensée et de communiquer au moyen d’un système de signes [...] doté d’une sémantique, et le plus souvent d’une syntaxe [...]

§ « Le langage est la capacité d’exprimer une pensée et de communiquer au moyen d’un système de signes [...] doté d’une sémantique, et le plus souvent d’une syntaxe [...]

‚ Relations entre propositions (tautologiques, contradictoires).. crétois).. ‚ Relations entre propositions (tautologiques,

Le terme aurait été utilisé pour la première fois par Xénocrate.. Une (trop) rapide histoire de

ñ Les statistiques permettent de concevoir, de paramétrer et d’évaluer l’adéquation du modèle pour une tâche donnée..