• Aucun résultat trouvé

DamienNouvel Introduction

N/A
N/A
Protected

Academic year: 2022

Partager "DamienNouvel Introduction"

Copied!
46
0
0

Texte intégral

(1)

Introduction

Damien Nouvel

(2)

Généralités

Plan

1. Généralités

2. Le TAL et la linguistique 3. Le TAL et l’informatique 4. Le TAL multidisciplinaire

Damien Nouvel (Inalco) Introduction 2 / 21

(3)

Généralités

Séances et modalités de contrôle

§ Séances

‚ 12 séances

‚ Chaque séance : courset exercicessur machine

§ Modalités de contrôle

‚ Un contrôle(S1) : 50%

‚ Un examen final: 50%

(4)

Généralités

Séances et modalités de contrôle

§ Séances

‚ 12 séances

‚ Chaque séance : courset exercicessur machine

§ Modalités de contrôle

‚ Un contrôle(S1) : 50%

‚ Un examen final: 50%

Damien Nouvel (Inalco) Introduction 3 / 21

(5)

Généralités

Contenu du cours

§ Progression

‚ Introduction

‚ Reconnaissance de l’écriture et de la parole

‚ Extraction d’information et indexation de documents

‚ Analyse et représentation de la langue

‚ Traduction automatique et assistée

‚ Agents dialogiques

(6)

Le TAL et la linguistique

Plan

1. Généralités

2. Le TAL et la linguistique

3. Le TAL et l’informatique 4. Le TAL multidisciplinaire

Damien Nouvel (Inalco) Introduction 5 / 21

(7)

Le TAL et la linguistique

Considérations linguistiques

Tablette d’Uruk (-3000)

§ Moyen de communication (oral, écrit, signé, etc.)

§ Classification : groupes, langues, dialectes

§ Naturelles (biolangues) vs construites (conlangs, idéolangues) ñ https://www.youtube.com/watch?v=rupVq4m8a8g

§ Structure : discours, propositions, mots, syllabes / morphèmes, lettres / sons

§ Double articulation (Martinet, 1961)

Phonèmes: unités minimales de prononciation

Morphèmes ou monèmes: unités minimales de sens ñ Comment décomposerle langage ?

(8)

Le TAL et la linguistique

Considérations linguistiques

Tablette d’Uruk (-3000)

§ Moyen de communication (oral, écrit, signé, etc.)

§ Classification : groupes, langues, dialectes

§ Naturelles (biolangues) vs construites (conlangs, idéolangues) ñ https://www.youtube.com/watch?v=rupVq4m8a8g

§ Structure : discours, propositions, mots, syllabes / morphèmes, lettres / sons

§ Double articulation (Martinet, 1961)

Phonèmes: unités minimales de prononciation

Morphèmes ou monèmes: unités minimales de sens

ñ Comment décomposerle langage ?

Damien Nouvel (Inalco) Introduction 6 / 21

(9)

Le TAL et la linguistique

Considérations linguistiques

Tablette d’Uruk (-3000)

§ Moyen de communication (oral, écrit, signé, etc.)

§ Classification : groupes, langues, dialectes

§ Naturelles (biolangues) vs construites (conlangs, idéolangues) ñ https://www.youtube.com/watch?v=rupVq4m8a8g

§ Structure : discours, propositions, mots, syllabes / morphèmes, lettres / sons

§ Double articulation (Martinet, 1961)

(10)

Le TAL et la linguistique

Le langage : description vs. prescription

§ Description

‚ Observations pour l’explication (et la reproduction)

‚ Languesnaturelles

ñ Comprendre le mode de fonctionnement ?

§ Prescription

‚ Contraintes lors de l’apprentissage (syntaxe, lexique)

‚ Languesartificielles(y compris informatiques) ñ Rationnaliser, normaliser, uniformaliser la langue … ñ Opposition de concepts indissociables

ñ Langues naturelles etartificielles

Damien Nouvel (Inalco) Introduction 7 / 21

(11)

Le TAL et la linguistique

Le langage : description vs. prescription

§ Description

‚ Observations pour l’explication (et la reproduction)

‚ Languesnaturelles

ñ Comprendre le mode de fonctionnement ?

§ Prescription

‚ Contraintes lors de l’apprentissage (syntaxe, lexique)

‚ Languesartificielles(y compris informatiques) ñ Rationnaliser, normaliser, uniformaliser la langue … ñ Opposition de concepts indissociables

ñ Langues naturelles etartificielles

(12)

Le TAL et la linguistique

Le langage : description vs. prescription

§ Description

‚ Observations pour l’explication (et la reproduction)

‚ Languesnaturelles

ñ Comprendre le mode de fonctionnement ?

§ Prescription

‚ Contraintes lors de l’apprentissage (syntaxe, lexique)

‚ Languesartificielles(y compris informatiques) ñ Rationnaliser, normaliser, uniformaliser la langue …

ñ Opposition de concepts indissociables ñ Langues naturelles etartificielles

Damien Nouvel (Inalco) Introduction 7 / 21

(13)

Le TAL et la linguistique

Le langage : description vs. prescription

§ Description

‚ Observations pour l’explication (et la reproduction)

‚ Languesnaturelles

ñ Comprendre le mode de fonctionnement ?

§ Prescription

‚ Contraintes lors de l’apprentissage (syntaxe, lexique)

‚ Languesartificielles(y compris informatiques) ñ Rationnaliser, normaliser, uniformaliser la langue … ñ Opposition de concepts indissociables

ñ Langues naturelles etartificielles

(14)

Le TAL et la linguistique

Support des langues : orales, écrites, numériques

§ Quelques dates

‚ (?) : langues orales

‚ « ´4000: écriture cunéiforme (tablettes, Uruk, Irak)

‚ « ´4000: papyrus (rouleaux, Egypte)

Tablette d’Uruk

‚ « ´200: papier (Chine), parchemin et codex (Rome)

‚ «1400 : imprimerie (Allemagne, Gutenberg)

‚ «1800 : machine à écrire

‚ «1950 : ordinateur (USA, von Neumann, Turing)

‚ «1990 : téléphone portable

Damien Nouvel (Inalco) Introduction 8 / 21

(15)

Le TAL et la linguistique

Support des langues : orales, écrites, numériques

§ Quelques dates

‚ (?) : langues orales

‚ « ´4000: écriture cunéiforme (tablettes, Uruk, Irak)

‚ « ´4000: papyrus (rouleaux, Egypte)

Tablette d’Uruk

‚ « ´200: papier (Chine), parchemin et codex (Rome)

‚ «1400 : imprimerie (Allemagne, Gutenberg)

‚ «1800 : machine à écrire

‚ «1950 : ordinateur (USA, von Neumann, Turing)

‚ «1990 : téléphone portable

(16)

Le TAL et la linguistique

Support des langues : orales, écrites, numériques

§ Quelques dates

‚ (?) : langues orales

‚ « ´4000: écriture cunéiforme (tablettes, Uruk, Irak)

‚ « ´4000: papyrus (rouleaux, Egypte)

Tablette d’Uruk

‚ « ´200: papier (Chine), parchemin et codex (Rome)

‚ «1400 : imprimerie (Allemagne, Gutenberg)

‚ «1800 : machine à écrire

‚ «1950 : ordinateur (USA, von Neumann, Turing)

‚ «1990 : téléphone portable

Damien Nouvel (Inalco) Introduction 8 / 21

(17)

Le TAL et la linguistique

Support des langues : orales, écrites, numériques

§ Quelques dates

‚ (?) : langues orales

‚ « ´4000: écriture cunéiforme (tablettes, Uruk, Irak)

‚ « ´4000: papyrus (rouleaux, Egypte)

Tablette d’Uruk

‚ « ´200: papier (Chine), parchemin et codex (Rome)

‚ «1400 : imprimerie (Allemagne, Gutenberg)

‚ «1800 : machine à écrire

‚ «1950 : ordinateur (USA, von Neumann, Turing)

‚ «1990 : téléphone portable

(18)

Le TAL et la linguistique

Support des langues : orales, écrites, numériques

§ Quelques dates

‚ (?) : langues orales

‚ « ´4000: écriture cunéiforme (tablettes, Uruk, Irak)

‚ « ´4000: papyrus (rouleaux, Egypte)

Tablette d’Uruk

‚ « ´200: papier (Chine), parchemin et codex (Rome)

‚ «1400 : imprimerie (Allemagne, Gutenberg)

‚ «1800 : machine à écrire

‚ «1950 : ordinateur (USA, von Neumann, Turing)

‚ «1990 : téléphone portable

Damien Nouvel (Inalco) Introduction 8 / 21

(19)

Le TAL et la linguistique

Support des langues : orales, écrites, numériques

§ Quelques dates

‚ (?) : langues orales

‚ « ´4000: écriture cunéiforme (tablettes, Uruk, Irak)

‚ « ´4000: papyrus (rouleaux, Egypte)

Tablette d’Uruk

‚ « ´200: papier (Chine), parchemin et codex (Rome)

‚ «1400 : imprimerie (Allemagne, Gutenberg)

‚ «1800 : machine à écrire

‚ «1950 : ordinateur (USA, von Neumann, Turing)

‚ «1990 : téléphone portable

(20)

Le TAL et la linguistique

Support des langues : orales, écrites, numériques

§ Quelques dates

‚ (?) : langues orales

‚ « ´4000: écriture cunéiforme (tablettes, Uruk, Irak)

‚ « ´4000: papyrus (rouleaux, Egypte)

Tablette d’Uruk

‚ « ´200: papier (Chine), parchemin et codex (Rome)

‚ «1400 : imprimerie (Allemagne, Gutenberg)

‚ «1800 : machine à écrire

‚ «1950 : ordinateur (USA, von Neumann, Turing)

‚ «1990 : téléphone portable

Damien Nouvel (Inalco) Introduction 8 / 21

(21)

Le TAL et la linguistique

Support des langues : orales, écrites, numériques

§ Quelques dates

‚ (?) : langues orales

‚ « ´4000: écriture cunéiforme (tablettes, Uruk, Irak)

‚ « ´4000: papyrus (rouleaux, Egypte)

Tablette d’Uruk

‚ « ´200: papier (Chine), parchemin et codex (Rome)

‚ «1400 : imprimerie (Allemagne, Gutenberg)

‚ «1990 : téléphone portable

(22)

Le TAL et la linguistique

Support des langues : orales, écrites, numériques

§ Quelques dates

‚ (?) : langues orales

‚ « ´4000: écriture cunéiforme (tablettes, Uruk, Irak)

‚ « ´4000: papyrus (rouleaux, Egypte)

Tablette d’Uruk

‚ « ´200: papier (Chine), parchemin et codex (Rome)

‚ «1400 : imprimerie (Allemagne, Gutenberg)

‚ «1800 : machine à écrire

‚ «1950 : ordinateur (USA, von Neumann, Turing)

‚ «1990 : téléphone portable

Damien Nouvel (Inalco) Introduction 8 / 21

(23)

Le TAL et la linguistique

Langues et langages

§ Quelques questions (quasi-philosophiques) à se poser

‚ À quoi sertune langue ?

‚ Commentfonctionne une langue ?

‚ Quellesunitésforment la langue ?

‚ Comment secombinent-elles ?

‚ Commentreprésenterla sémantique?

‚ …

§ Fonctions du langage (Jakobson, 1963)

Expressive : expression des sentiments du locuteur

Conative : fonction relative au récepteur

Phatique : mise en place et maintien de la communication

Métalinguistique: le code devient objet du message

Référentielle: le message renvoie au monde extérieur

Poétique : la forme du texte devient l’essentiel du message

(24)

Le TAL et la linguistique

Langues et langages

§ Quelques questions (quasi-philosophiques) à se poser

‚ À quoi sertune langue ?

‚ Commentfonctionne une langue ?

‚ Quellesunitésforment la langue ?

‚ Comment secombinent-elles ?

‚ Commentreprésenterla sémantique?

‚ …

§ Fonctions du langage (Jakobson, 1963)

Expressive : expression des sentiments du locuteur

Conative : fonction relative au récepteur

Phatique : mise en place et maintien de la communication

Métalinguistique: le code devient objet du message

Référentielle: le message renvoie au monde extérieur

Poétique : la forme du texte devient l’essentiel du message

Damien Nouvel (Inalco) Introduction 9 / 21

(25)

Le TAL et la linguistique

Langues et langages

§ Quelques questions (quasi-philosophiques) à se poser

‚ À quoi sertune langue ?

‚ Commentfonctionne une langue ?

‚ Quellesunitésforment la langue ?

‚ Comment secombinent-elles ?

‚ Commentreprésenterla sémantique?

‚ …

§ Fonctions du langage (Jakobson, 1963)

Expressive : expression des sentiments du locuteur

Conative : fonction relative au récepteur

Phatique : mise en place et maintien de la communication Métalinguistique: le code devient objet du message

(26)

Le TAL et l’informatique

Plan

1. Généralités

2. Le TAL et la linguistique 3. Le TAL et l’informatique 4. Le TAL multidisciplinaire

Damien Nouvel (Inalco) Introduction 10 / 21

(27)

Le TAL et l’informatique

Automate, mécanique

(28)

Le TAL et l’informatique

Qu’est-ce qu’un automate

§ automaton (grec) : se meut par soi-même, imite les mouvements

§ Pas nécessairement un « robot »

Pendule et robot Nao

§ Horloges (XIIIème) et pendules

§ Pascaline (XVIIème)

§ Boites à musique (XIXème) et orgues de barbarie

§ Ordinateurs (XXème)

§ Nao (2010)

ñ Pas d’intervention humaine, mécanisme indépendant

Damien Nouvel (Inalco) Introduction 12 / 21

(29)

Le TAL et l’informatique

L’informatique comme calcul de symboles

§ Dispositif purement artificiel

§ Fonctionnement décrit en théorie par Turing (1936)

Automatequi accepte/ reconnaîtun langage

‚ Machine comme : étatsettransitions

Machine de Turing (1936)

ñ Formalisation du calcul, mais aussi de la procédure

ñ Conçu pour le calcul, massivement exploité pour le langage

(30)

Le TAL et l’informatique

L’informatique comme calcul de symboles

§ Dispositif purement artificiel

§ Fonctionnement décrit en théorie par Turing (1936)

Automatequi accepte/ reconnaîtun langage

‚ Machine comme : étatsettransitions

Machine de Turing (1936)

ñ Formalisation du calcul, mais aussi de la procédure

ñ Conçu pour le calcul, massivement exploité pour le langage

Damien Nouvel (Inalco) Introduction 13 / 21

(31)

Le TAL et l’informatique

Informatique

(32)

Le TAL et l’informatique

Coder la langue

§ Codage commme enregistrement

‚ Des données vocales (MP3, WMA, OGG)

‚ Des données images (JPG, PNG, GIF)

‚ Des données textuelles (binaire, ASCII, ISO, UTF8/Unicode)

§ Codage comme représentation

‚ Lexiques, dictionnaires (listes, structures de traits)

‚ Énoncés, phrases, discours

‚ Documents (Word, PDF)

‚ Connaissances (web sémantique)

§ Codage commme calcul

Damien Nouvel (Inalco) Introduction 15 / 21

(33)

Le TAL et l’informatique

Coder la langue

§ Codage commme enregistrement

‚ Des données vocales (MP3, WMA, OGG)

‚ Des données images (JPG, PNG, GIF)

‚ Des données textuelles (binaire, ASCII, ISO, UTF8/Unicode)

§ Codage comme représentation

‚ Lexiques, dictionnaires (listes, structures de traits)

‚ Énoncés, phrases, discours

‚ Documents (Word, PDF)

‚ Connaissances (web sémantique)

§ Codage commme calcul

(34)

Le TAL et l’informatique

Coder la langue

§ Codage commme enregistrement

‚ Des données vocales (MP3, WMA, OGG)

‚ Des données images (JPG, PNG, GIF)

‚ Des données textuelles (binaire, ASCII, ISO, UTF8/Unicode)

§ Codage comme représentation

‚ Lexiques, dictionnaires (listes, structures de traits)

‚ Énoncés, phrases, discours

‚ Documents (Word, PDF)

‚ Connaissances (web sémantique)

§ Codage commme calcul

Damien Nouvel (Inalco) Introduction 15 / 21

(35)

Le TAL multidisciplinaire

Plan

1. Généralités

2. Le TAL et la linguistique 3. Le TAL et l’informatique 4. Le TAL multidisciplinaire

(36)

Le TAL multidisciplinaire

Caractérisations

§ Le langage

Expressivité (implicite, déductions)

Générativité / compositionnalité

Modes d’expression: oral, écrit, signes, etc.

Evolution par conventions sociales

§ L’informatique

Calcul binaire, entiers, flottants, etc.

Procédures par séquence d’instructions

Copies exactes

Télécommunicationset essor des nouvelles technologies ñ TAL : Discipline issue de l’essor de l’utilisation de

l’informatique pour que des humains manipulent le langage par d’autres moyens et à une autre échelle

Damien Nouvel (Inalco) Introduction 17 / 21

(37)

Le TAL multidisciplinaire

Caractérisations

§ Le langage

Expressivité (implicite, déductions)

Générativité / compositionnalité

Modes d’expression: oral, écrit, signes, etc.

Evolution par conventions sociales

§ L’informatique

Calcul binaire, entiers, flottants, etc.

Procédures par séquence d’instructions

Copies exactes

Télécommunicationset essor des nouvelles technologies

ñ TAL : Discipline issue de l’essor de l’utilisation de

l’informatique pour que des humains manipulent le langage par d’autres moyens et à une autre échelle

(38)

Le TAL multidisciplinaire

Caractérisations

§ Le langage

Expressivité (implicite, déductions)

Générativité / compositionnalité

Modes d’expression: oral, écrit, signes, etc.

Evolution par conventions sociales

§ L’informatique

Calcul binaire, entiers, flottants, etc.

Procédures par séquence d’instructions

Copies exactes

Télécommunicationset essor des nouvelles technologies ñ TAL :Discipline issue de l’essor de l’utilisation de

l’informatique pour que des humains manipulent le langage par d’autres moyens et à une autre échelle

Damien Nouvel (Inalco) Introduction 17 / 21

(39)

Le TAL multidisciplinaire

Capacités de traitement

§ Linguistique : langues et langages

‚ Détournement deAspects de la théorie syntaxique (Chomsky, 1965)

Compétence: capacités génératives dulangage

Performance: observations sur lalangue ñ Écart entrethéorie etpratique

§ Informatique et traitements automatiques

Automate: pas d’intervention humaine

‚ Utilisation deressources (lexiques, grammaires) ñ Déterminisme, codes, programmes

§ Capacités en terme de

Temps(processeurs)

Espace (mémoire, disques)

ñ Complexité des analyses (fouille de données)

(40)

Le TAL multidisciplinaire

Capacités de traitement

§ Linguistique : langues et langages

‚ Détournement deAspects de la théorie syntaxique (Chomsky, 1965)

Compétence: capacités génératives dulangage

Performance: observations sur lalangue ñ Écart entrethéorie etpratique

§ Informatique et traitements automatiques

Automate: pas d’intervention humaine

‚ Utilisation deressources (lexiques, grammaires) ñ Déterminisme, codes, programmes

§ Capacités en terme de

Temps(processeurs)

Espace (mémoire, disques)

ñ Complexité des analyses (fouille de données)

Damien Nouvel (Inalco) Introduction 18 / 21

(41)

Le TAL multidisciplinaire

Capacités de traitement

§ Linguistique : langues et langages

‚ Détournement deAspects de la théorie syntaxique (Chomsky, 1965)

Compétence: capacités génératives dulangage

Performance: observations sur lalangue ñ Écart entrethéorie etpratique

§ Informatique et traitements automatiques

Automate: pas d’intervention humaine

‚ Utilisation deressources (lexiques, grammaires) ñ Déterminisme, codes, programmes

§ Capacités en terme de

Temps(processeurs)

(42)

Le TAL multidisciplinaire

Quelques repères historiques du TAL

§ Quelques dates approximatives

‚ «1955 : Traduction automatique

‚ «1955 : IA (Intelligence Artificielle)

‚ «1957 : Grammaire générative, hiérarchie (Chomsky)

‚ «1965 : Systèmes de dialogue (ELIZA, SHRDLU)

‚ «1967 : Brown Corpus

‚ «1970 : Reconnaissance de la parole et synthèse vocale

‚ «1980 : Réseaux sémantiques (Wordnet, graphes conceptuels)

‚ «1990 : Unicode

‚ «1995 : Internet

‚ «1995: Recherche d’information structurée (entités nommées)

‚ «1997 : FrenchTreeBank

‚ «2005 : Liaison de données textuelles (Wikipedia)

‚ «2012 : Deep Learning (word2vec)

Damien Nouvel (Inalco) Introduction 19 / 21

(43)

Le TAL multidisciplinaire

Symboles, données, connaissances

§ Deux types d’approches en TAL

Symboliques(automates)

Numériques(apprentissage automatique) ñ Elles sont complémentaires

§ L’intelligence artificielle

‚ Simuler l’humain (robotique, Nao)

‚ Transhumanisme, humain augmenté, singularité… ñ Rassurez-vous, on y est pas encore …

§ Par exemple, testons quelques agents conversationnels

‚ http://www.eliza.levillage.org

‚ http://www.jabberwacky.com/george

‚ http://www.mitsuku.com/

‚ http://ec2-54-215-197-164.us-west-1.compute. amazonaws.com/speech.php

‚ et bien d’autres https://www.chatbots.org

(44)

Le TAL multidisciplinaire

Symboles, données, connaissances

§ Deux types d’approches en TAL

Symboliques(automates)

Numériques(apprentissage automatique) ñ Elles sont complémentaires

§ L’intelligence artificielle

‚ Simuler l’humain (robotique, Nao)

‚ Transhumanisme, humain augmenté,singularité … ñ Rassurez-vous, on y est pas encore …

§ Par exemple, testons quelques agents conversationnels

‚ http://www.eliza.levillage.org

‚ http://www.jabberwacky.com/george

‚ http://www.mitsuku.com/

‚ http://ec2-54-215-197-164.us-west-1.compute. amazonaws.com/speech.php

‚ et bien d’autres https://www.chatbots.org

Damien Nouvel (Inalco) Introduction 20 / 21

(45)

Le TAL multidisciplinaire

Symboles, données, connaissances

§ Deux types d’approches en TAL

Symboliques(automates)

Numériques(apprentissage automatique) ñ Elles sont complémentaires

§ L’intelligence artificielle

‚ Simuler l’humain (robotique, Nao)

‚ Transhumanisme, humain augmenté,singularité … ñ Rassurez-vous, on y est pas encore …

§ Par exemple, testons quelques agents conversationnels

‚ http://www.eliza.levillage.org

‚ http://www.jabberwacky.com/george

‚ http://www.mitsuku.com/

(46)

Le TAL multidisciplinaire

TP

§ Éditez un fichier texte et copiez-collez une page web

§ Faites un programme qui affiche pour ce fichier

‚ Le nombre d’octets

‚ Le nombre de caractères Unicode

‚ Le nombre de mots

‚ Le nombre de phrases

Damien Nouvel (Inalco) Introduction 21 / 21

Références

Documents relatifs

Il est vrai que, pour cela, ils vont devoir, à certaines étapes de leur démarche modélisante, s’appuyer, par exemple, sur le fait que si les prix montent la quantité demandée

On peut observer un épisode didactique au moment où ce besoin est ressenti par un élève comme le manque du rapport nouveau que l’institution attend de lui ;

Malgré le constat, largement partagé, de la nécessité pour la connaissance de ménager dans ses constructions des brèches pour l'imprévisible et l'irréductible,

Nous savions bien alors que ce sujet de mémoire nous rattraperait un jour et que la distance entre l’observateur et l’observé se réduirait mais tu es allé trop

ñ Conçu pour le calcul, massivement exploité pour le langage.. Le TAL

§ « Le langage est la capacité d’exprimer une pensée et de communiquer au moyen d’un système de signes [...] doté d’une sémantique, et le plus souvent d’une syntaxe [...]

§ « Le langage est la capacité d’exprimer une pensée et de communiquer au moyen d’un système de signes [...] doté d’une sémantique, et le plus souvent d’une syntaxe [...]

‚ Relations entre propositions (tautologiques, contradictoires).. crétois).. ‚ Relations entre propositions (tautologiques,