• Aucun résultat trouvé

Traitement de la langue naturelle (TAL – NLP)

N/A
N/A
Protected

Academic year: 2022

Partager "Traitement de la langue naturelle (TAL – NLP)"

Copied!
99
0
0

Texte intégral

(1)

Traitement de la langue naturelle (TAL – NLP)

M2 MIDS

Marie Candito / Antoine Simoulin

(2)

Aperçu du cours

§ 3 séances M Candito [email protected]

§ introduction au TAL

§ concepts linguistiques

§ 7 séances Antoine Simoulin [email protected]

§ classification de documents

§ vecteurs de mots, modèles de langue

§ CM et TPs

§ Evaluation

§ 50% examen final + 50% contrôle continu

§ contrôle continu : quizz / TPs

2

(3)

Biblio indicative

§ Jurafsky, D., and Martin, J. (2019), Speech and Language Processing. Pearson

§ (nombreuses rééditions, pédagogique)

§ chapitres en ligne: https://web.stanford.edu/~jurafsky/slp3/

§ panorama assez complet du domaine

§ moins centré sur le deep learning

§ Goldberg, Y. (2016), Neural network methods in NLP. Morgan

& Claypool

§ très pédagogique

§ Eisenstein, J. (2019). Natural Language Processing. MIT Press

(4)

Traitement automatique des langues (TAL)

§ = Natural Language Processing (NLP)

§ rem: « langue naturelle » est un pléonasme

§ Relève de:

§ Communication humain-machine

§ Intelligence artificielle

§ Informatique

§ Peut utiliser:

§ Mathématiques (par ex. logique)

§ Apprentissage automatique

§ Linguistique (dont psycho-linguistique)

4

(5)

Exemples d’applications

(6)

Applications faisant intervenir du TAL

Exemples d’applications:

§ Traduction automatique (machine translation)

§ Question-réponse (question answering QA)

§ Classification de documents

6

(7)

Traduction automatique

§ la trad neuronale (neural machine translation)…

§ exemple : DeepL

(8)

Traduction automatique

§ a totalement éclipsé la trad "par transfert" (rule-based)

§ par exemple Systran

8

(9)

Question-réponse ( Question Answering QA )

§ Système devant répondre automatiquement à une question en « langue naturelle »

§ Qui a gagné la ligue des champions féminine en 2020?

§ Quel est le nombre moyen de jours de vent par an à

Marseille?

(10)

Question-réponse ( Question Answering QA )

§ 2 types d’applications techniquement très différentes, selon la source pour la/les réponses

1. Source des réponses = des documents textuels

§ réponses = documents non formatés

§ => simple moteur de recherche documentaire

§ réponses = information précise

§ trouvée dans les textes

§ = système de question-réponse extractif (extractive QA)

§ ou bien inférées

§ Nécessitant un raisonnement à partir des énoncés

§ Plus difficile!

§ Autre terme pour la tâche (plus général) : Machine reading comprehension (MRC)

10

(11)

extractive QA + mise en forme: Google

(12)

extractive QA: données SQuAD

§ https://rajpurkar.github.io/SQuAD-explorer/

12

(13)

Question-réponse ( Question Answering QA )

§ 2 types d’applications techniquement très différentes, selon la source pour la/les réponses

2. Source des réponses = une base de connaissances (knowledge base KB)

§ en général graphe décrivant des faits

§ nœuds = entités du monde, arcs = relations

sémantiques

(14)

QA from knowledge base

§ Exemple de KB = wikidata,

§ wikidata query service

§ https://query.wikidata.org/

§ langage de requête SPARQL

§ Tâche = traduire la question en requête

§ input:

§ Quels sont les auteurs nommés au prix Nobel de littérature qui ne l'ont pas obtenu ?

§ output = requête, par exemple en SPARQL

§ voir slide suivant

14

(15)

QA: réponses dans base de connaissance

§ Tâche = traduire la question en requête

§ par ex. KB = wikidata, wikidata query service:

(16)

Application "Classification de documents"

§ associer une ou plusieurs catégories à un document / une portion de textes

§ NB: les catégories sont pré-existantes

§ par ex. thèmes de dépêches

§ ≠ clustering / détection de thèmes

§ Exemples:

§ identifier le thème d'articles de presse

§ identification de spam

§ mais aussi : analyse de sentiment (« sentiment analysis »)

§ « document » = verbatim, contenu généré par utilisateur

§ « catégorie » = positif, négatif, neutre

§ mais aussi : réponse à une FAQ

§ "document" = question utilisateur

§ "catégorie" = les questions répertoriées dans une FAQ

§ …

16

(17)

Autres exemples d'applications faisant intervenir du TAL

Quelques exemples supplémentaires:

§ Agents conversationnels (chatbots)

§ Résumé automatique (automatic summarization)

§ « Analyse de sentiment » (sentiment analysis)

§ Extraction d’information / fouille de textes (text mining)

§ Correction grammaticale

§ Multi-modal: recherche d’images (d’après légende+image)

§ …

(18)

Bref historique du TAL

18

(19)

Historique express

§ Débuts de l’informatique

§ Traduction automatique, abordée comme de la cryptographie

§ rapport ALPAC 1966 : constat d'échec des approches sous- estimant les difficultés

§ 70’s-80’s : TAL symbolique, « par règles »

§ symbolic, rule-based

§ interfaces de BDD en langage naturel

§ approche symbolique: « systèmes experts »

§ Exemple de règle:

§ « Si une graphie m peut être un nom ou un verbe et qu’elle est précédée d’un déterminant, alors c’est un nom »

§ Mon épaule gauche me fait mal

(20)

Historique express

§ 90’s : TAL probabiliste

§ Modèles « génératifs » :

§ estimation de P(observations | sorties cherchées)

§ par exemple

§ Classifieur bayésien naïf

§ Par exemple classification de documents

§ C = ensemble de classes possibles

classe* = argmaxc C P(c | document)

= argmaxc C P(doc | c) P(c) / P(doc)

= argmaxc C P(doc | c) P(c)

§ statistical machine translation (IBM, Brown et al. 93)

§ Traduction phrase f langue F vers langue E e* = argmaxphrases e P(e)P(f | e) / P(f)

= argmaxphrases e P(e)P(f | e)

20

(21)

Historique express

§ Fin années 90 – années 2000

§ Modèles probabilistes discriminants

§ Estimation directe de P(sorties cherchées | observations)

§ Via classifieurs linéaires

§ Permettant de représenter les observations au moyen de vecteurs de traits, définis manuellement

§ Feature engineering

§ Machines à vecteurs support (support vector machines SVM)

(22)

Historique express

§ ≈ 2013

§ Apprentissage profond ("deep learning")

§ Réseaux neuronaux

§ Spécificité du TAL: intégration de vecteurs de mots ("word embeddings")

§ Colobert et al. 2008, Mikolov et al. 2013 (word2vec)

§ La similarité entre 2 vecteurs de mots (en général cosinus) est sensée capturer la similarité entre ces 2 mots

22

(23)

Historique express

§ À partir de 2018

§ Intégration au sein de réseaux de neurones de deep contextualized word representations

§ Vecteurs représentant un mot en contexte

§ ElMO (Peters et al. 2018)

§ Transformer-based models (par ex. BERT (Devlin et al. 2018) )

§ pour l’anglais + modèle multilingue

§ Blog pédagogique: https://jalammar.github.io/illustrated-bert/

§ Pléthore de modèles pour autres langues: flauBERT … CamemBERT…

§ entraînable sur texte brut (milliards de mots disponibles)

§ techniquement = apprentissage supervisé

§ mais construction triviale d'exemples d'apprentissage

§ Par exemple à partir du contexte « le chat XXX à la balle », identifier le mot manquant

§ paramètres appris utilisables dans modèles entraînés pour des tâches plus sophistiquées

èOn parle d’apprentissage par transfert (« transfer learning ») ègains importants sur toutes les tâches de TAL

(24)

Tendances actuelles en TAL (NLP)

§ Modèles de TAL

§ intégrent actuellement peu de linguistique

§ Intelligence artificielle, apprentissage profond

§ Apprentissage supervisé

§ Récents gains de performance

§ In fine: optimisation mathématique: recherche de paramètres minimisant une perte

24

(25)

Tendances actuelles en TAL (NLP)

§ Mais enjeux:

1. Manque de données d’apprentissage

§ Annotations de données : long, coûteux, peu généralisable

§ Même si apprentissage par transfert limite un peu le volume de données nécessaires pour obtenir de bons résultats

§ Apprentissage d’un point de départ de valeurs de paramètres d’un modèle

§ Sur données produites trivialement à partir de corpus bruts

§ Puis spécialisation des valeurs de paramètres pour une tâche plus sophistiquée, requérant des données annotées

2. Interprétabilité:

§ è connaissances linguistiques restent utiles en pratique dans le

milieu industriel

(26)

Un peu de linguistique

26

(27)

Un peu de linguistique:

§ Qu’est-ce que la linguistique?

§ Notion d'acceptabilité

§ Objectif de la linguistique

§ Qu’est-ce que modéliser la langue?

§ Décrire versus prescrire

§ Représentation linguistique d’une phrase

§ Concepts descriptifs:

§ en morphologie:

§ catégorie morpho-syntaxique (Nom, Verbe…)

§ lemme (manger) et traits flexionnels (sing, féminin…)

§ expression polylexicale (carte bleue, mettre en garde)

§ en syntaxe: arbre syntaxique

§ en sémantique: rôle sémantique

§ notion d’ « entité nommée »

(28)

Qu’est-ce que la linguistique ?

28

(29)

Qu’est-ce que la linguistique ?

§ Linguistique = étude du fonctionnement des langues et de la compétence langagière des locuteurs

§ « mitruchaient » et « chluktaag »

§ sont-ils des mots français?

§ sonnent-ils français?

§ Idem pour

§ « Les chitailles mitruchaient sous la pongère. »

§ « Oiseaux les mur le sur picoraient. »

(30)

Qu’est-ce que la linguistique ?

§ Linguistique = étude du fonctionnement des langues et de la compétence langagière des locuteurs

§ « mitruchaient » et « chluktaag »

§ sont-ils des mots français?

§ sonnent-ils français?

§ Idem pour

§ « Les chitailles mitruchaient sous la pongère. »

§ « Oiseaux les mur le sur picoraient. »

§ Un locuteur produit et comprend des énoncés jamais rencontrés auparavant

§ è La compétence d’un locuteur ne se réduit pas à un ensemble fini d’énoncés appris par cœur

§ è des règles sous-tendent la formation des énoncés dans une langue donnée

30

(31)

Concept linguistique: Acceptabilité

§ Compétence des locuteurs, qui savent dire que:

§ certains énoncés appartiennent à leur langue

§ J’aime beaucoup les olives.

§ et d’autres certainement pas

§ * Aimer olives beaucoup moi.

(32)

Concept linguistique: Acceptabilité

§ Compétence des locuteurs, qui savent dire que:

§ certains énoncés appartiennent à leur langue

§ J’aime beaucoup les olives.

§ et d’autres certainement pas

§ * Aimer olives beaucoup moi.

§ è on parle d’acceptabilité des énoncés

§ inacceptabilité notée avec *

§ les locuteurs savent "juger" de l'acceptabilité d'un énoncé

§ compétence acquise à l'apprentissage d'une langue maternelle

§ les jugements d'acceptabilité sont plus ou moins unanimes

§ è échelle d’acceptabilité (non binaire)

32

(33)

Concept linguistique: Acceptabilité

§ À vous de juger l'acceptabilité de :

§ phrase de contexte :

§ Elle autorisa une personne sans masque à entrer/monter.

Alors en arrivèrent beaucoup d’autres.

? Alors en montèrent beaucoup d'autres.

Alors en arrivèrent des milliers.

? Alors en montèrent des milliers.

Alors commencèrent à en arriver des milliers.

? Alors commencèrent à en arriver beaucoup d’autres.

?? Alors commencèrent à en monter beaucoup d’autres.

(34)

Grammaticalité/Interprétabilité

§ Acceptabilité = grammaticalité + interprétabilité

§ interprétable mais agrammatical

§ *Je manger olive beaucoup.

§ grammatical mais ininterprétable

§ #Les rugueux athéismes liquides appuient sur le mur.

§ phrase « bien formée » mais quel sens lui donner?

§ *Je sais que tu as rencontré un homme qui travaille avec le voisin de la femme que le frère de ma dentiste qui

habite la rue passant derrière celle que Paul a photographiée a décidé d’épouser.

§ limites cognitives

34

(35)

Objectif de la linguistique

§ = modéliser la « grammaire » intériorisée par les

locuteurs

(36)

Objectif de la linguistique

§ = modéliser la « grammaire » intériorisée par les locuteurs

§ = construire appareil formel permettant de

reproduire / prédire le comportement langagier

§ i.e. prédire quels énoncés sont acceptables et lesquels ne le sont pas

36

(37)

Décrire versus prescrire

§ « Grammaire intériorisée par locuteurs »

§ ≠ grammaire normative

§ les autorités normatives prescrivent le « bon usage »

§ Académie française, grammaire scolaire …

§ échelle de valeur

§ et insistent justement sur ce qui contredit les règles normatives mais est employé par les locuteurs

§ « J’aime pas les photos que t’as pris »

§ => c'est français!

(38)

Décrire versus prescrire

§ « Grammaire intériorisée par locuteurs »

§ ≠ grammaire normative

§ les autorités normatives prescrivent le « bon usage »

§ Académie française, grammaire scolaire …

§ échelle de valeur

§ et insistent justement sur ce qui contredit les règles normatives mais est employé par les locuteurs

§ « J’aime pas les photos que t’as pris »

§ => c'est français!

§ Objectif du linguiste

§ = prendre en compte tous les usages effectifs de la langue

§ décrire la langue et non pas prescrire ce qu’elle devrait être

38

(39)

Décrire versus prescrire: exemples

§ Collectivement, les locuteurs introduisent des changements…

§ que les autorités normatives finissent par entériner ou pas:

§ Prononciation:

§ les zaricots

§ Mots:

§ 109 nouveaux mots au Robert 2020: boboïser, anticasseur, coworking...

§ pour 2021: déconfinement, cluster, télétravailler…

§ Constructions:

§ exemple typique: malgré que

§ usage encore « non recommandé » par l’Académie

§ Au Robert depuis 1990

§ cf. historique Candel et Kibbee 2006

(40)

Décrire tous les usages langagiers

§ Linguistique / TAL prend en compte tous les usages

§ mais locuteurs savent repérer différents « registres » de langue

§ connaissance active / passive

§ Les langues contribuent à assurer l’identité et l’unité à l’intérieur des communautés humaines.

§ Lunes et nuit, vous êtes un loup de velours noir, village, sur la veillée de mon amour (René Char)

§ Donne lui-en pas!

§ Auriez-vous l’obligeance de bien vouloir faire cesser ces désordres?

§ Mention de l’arrêté préfectoral et des modalités de consultation de celui-ci est inséré en caractères apparents dans deux journaux

régionaux ou locaux diffusés dans le département

40

(41)

Décrire tous les usages langagiers

§ Impératif en TAL de traiter les usages réels

§ exemples French Social Media Bank (Seddah et al., 2012)

§ Mais y’a des gens ils pensent pas à l’ avenir de leur gosse !

§ J’ai pas lisser mes cheveux il boucle un peu, sa fais jolie :3

§ J’en ai marre de me lisser les chvx, ils peuven pas être tout lisse déjà ?

§ Je pars me lisser les cheveux , énorme journée de

diiiiiingue .

(42)

Analyse automatique de textes

42

(43)

Analyse automatique de textes

§ But = produire automatiquement une représentation formelle d’un texte / de phrases

§ => pour permettre des traitements informatiques

§ But ultime: obtenir une représentation formelle du sens du texte

§ Problème:

§ Aucun consensus sur la façon de représenter le sens d’un texte

§ mais desiderata: la représentation devrait permettre de

faire toutes les inférences qu’un humain ferait à partir

du contenu du texte

(44)

Exercice: Analyse idéale d’un texte

§ Quand Elena Greco reçoit un coup de fil annonçant la disparition de son amie d’enfance Lila, cette sexagénaire italienne décide de raconter l’histoire de leur vie.

§ Dans le Naples de la fin des années 50, dans un quartier pauvre de la ville, Lila, petite fille rebelle et rejetée par ses camarades, démontre un jour en classe des capacités exceptionnelles : elle a appris à lire et écrire seule. À partir de ce jour, Elena se met en tête de devenir son amie coûte que coûte, intriguée par sa

personnalité et ses connaissances.

§ Afin de tester la loyauté et le cran d’Elena, Lila décide de jeter sa poupée dans la cave de Don Achille, le mafieux du quartier qu’elles voient comme un ogre. Elena en fait de même avec celle de sa nouvelle amie et après avoir tenté en vain de les récupérer dans la cave en question, elles décident de confronter Don Achille en personne. Lila et Elena l’accusent d’avoir volé leurs poupées, une frasque tout droit venue de l’imaginaire bouillonnant de Lila. Admirant certainement leur courage, Don Achille finit par leur donner un billet pour qu’elles s’en rachètent.

§ (source: https://www.canalplus.com/articles/series/l-amie-prodigieuse-le-resume-des-episodes-1-et-2)

44

(45)

Exercice: Analyse idéale d’un texte

§ Exercice:

§ Imaginez comment représenter le sens de ce texte: quels concepts utiliser?

§ Quelle représentation idéale permettrait de répondre aux questions suivantes:

§ Questions dont la réponse est directement exprimée dans le texte

§ Elena et Lila sont-elles amies d’enfance?

§ Qui a disparu?

§ Lila et Elena ont-elles récupéré leurs poupées dans la cave de Don Achille?

§ Qu’est-ce que Lila a jeté dans la cave de Don Achille?

§ Questions nécessitant des inférences

§ Elena et Lila sont-elles sœurs?

§ Don Achille a-t-il volé les poupées?

§ Lila et Elena ont-elles de l’argent pour racheter des poupées?

(46)

Analyse automatique de textes

§ Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment

§ Approches neuronales capables d’obtenir de bons résultats par exemple en Question-réponse (QA)

§ Par apprentissage supervisé

§ Exemples d’apprentissage = paires

§ Entrée = paragraphe+question

§ Sortie = réponse

§ Pb du manque de données annotées

46

(47)

Analyse automatique de textes

§ Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment

§ Approches neuronales capables d’obtenir de bons résultats par exemple en Question-réponse (QA)

§ Par apprentissage supervisé

§ Exemples d’apprentissage = paires

§ Entrée = paragraphe+question

§ Sortie = réponse

§ Pb du manque de données annotées

§ Mais :

§ aucune représentation symbolique et donc interprétable du sens

§ aucune généralisation à d’autres tâches

(48)

Analyse automatique de textes

§ Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment

§ Approche symbolique:

§ Pas de consensus sur la représentation sémantique visée

§ Manque de ressources linguistiques

§ Suffisamment couvrantes

§ Multilingues

§ Difficulté à gérer les ambiguïtés

§ Rendre explicite le savoir nécessaire pour répondre aux questions est trop complexe

48

(49)

Analyse automatique de textes

§ Des tâches moins ambitieuses fonctionnent bien

§ qui construisent différents niveaux de représentation symbolique du texte

§ On parle de « tâches de TAL »:

§ Segmentation du texte en phrases et en mots

§ Analyse morphologique

§ Analyse syntaxique

§ Analyse sémantique, dont:

§ Désambiguisation lexicale

§ Reconnaissance d’entités nommées

§ Résolution de coréférences

§ Voire construction d’une représentation (imparfaite) du sens de phrases/de discours

(50)

Analyse automatique de textes

§ Des tâches moins ambitieuses fonctionnent bien

§ qui construisent différents niveaux de représentation symbolique du texte

§ On parle de « tâches de TAL »:

§ Segmentation du texte en phrases et en mots

§ Analyse morphologique

§ Analyse syntaxique

§ Analyse sémantique, dont:

§ Désambiguisation lexicale

§ Reconnaissance d’entités nommées

§ Résolution de coréférences

§ Voire construction d’une représentation (imparfaite) du sens de phrases/de discours

§ Les méthodes neuronales, avec apprentissage par

transfert fonctionnent le mieux

50

(51)

« Tâches » d’analyse automatique

(52)

Tâches d’analyse automatique

§ Reconnaissance vocale / synthèse vocale

§ non abordé dans ce cours

§ on suppose partir d'une forme écrite

52

(53)

Analyse automatique: reconnaître les unités lexicales

§ Tâche de base pour l’analyse automatique d’un texte:

§ Segmenter le texte en phrases

§ Segmenter les phrases en mots (ou « unités lexicales »)

(54)

Analyse automatique: reconnaître les unités lexicales

§ Tâche de base pour l’analyse automatique d’un texte:

§ Segmenter le texte en phrases

§ Segmenter les phrases en mots (ou « unités lexicales »)

§ Pas si simple, exemple:

« Le conducteur du poids lourd ne se rendait pas compte de sa vitesse. »

§ Quels mots repérez-vous?

§ Sous quelle forme sont-ils dans un dictionnaire?

54

(55)

Analyse automatique: reconnaître les unités lexicales

§ « Tokenisation » versus reconnaissance des mots

§ pour langues à séparateurs de mots

§ segmentation sur caractères typographiques + exceptions

§ on obtient une séquence de « tokens »

§ Le / conducteur / du / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .

§ = tâche de « tokenisation »

(56)

Analyse automatique: reconnaître les unités lexicales

§ « Tokenisation » versus reconnaissance des mots

§ pour langues à séparateurs de mots

§ segmentation sur caractères typographiques + exceptions

§ on obtient une séquence de « tokens »

§ Le / conducteur / du / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .

§ = tâche de « tokenisation »

§ Éventuellement suivie de la reconnaissance de mots

§ Le / conducteur / de+le / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .

§ Amalgames: 1 token => n mots

§ Expressions polylexicales: n tokens => 1 mot

56

(57)

Analyse automatique: reconnaître les unités lexicales

§ « Tokenisation » versus reconnaissance des mots

§ pour langues sans séparateur: complexe!

§

挑戰和挑戰性的中國風

§ Un ou plusieurs caractères peuvent constituer un mot, et ambiguïtés

de segmentation

(58)

Expressions polylexicales

§ Exemples

§ cas continu ("mot composé") : poids lourd

§ possiblement discontinu : mettre en garde

§ Elle a mis tous les participants en garde contre une possible recrudescence de l'épidémie.

58

(59)

Expressions polylexicales

§ Exemples

§ cas continu ("mot composé") : poids lourd

§ possiblement discontinu : mettre en garde

§ Elle a mis tous les participants en garde contre une possible recrudescence de l'épidémie.

§ Caractérisés par

§ non compositionnalité sémantique

§ leur sens n'est pas obtenu par une composition régulière des composants

§ un poids lourd n'est pas un "poids qui est lourd"

§ => doivent être repérés pour toute tâche d'ordre sémantique

§ => en pratique : souvent pas fait, car pas encore de

(60)

Regroupements morphologiques de mots:

lemme

§ 2 sens du mot « mot »

§ les mots rencontrés dans les textes : mot-forme

§ mangerait, fraises, éclatantes

§ les « mots du dictionnaire » : mot-lemme

§ manger, fraise, éclatant

§ un mot-lemme est un ensemble de formes, qui ne varient que pour le nombre, genre, temps, personne, mode

§ on parle de variation flexionnelle

§ le nom « fraise » a 2 formes possibles : fraise et fraises

§ le verbe « manger » a … 64 formes possibles : mange, manges, mangeons… mangèrent … mangiez …

60

(61)

Regroupements morphologiques de mots:

Lemme vs « radical »

§ soit le mot-forme « indéchiffrables »

§ lemme = indéchiffrable

§ décomposition en affixes + radical

§ = in / dé / chiffr / able

§ « chiffr » est la racine ou le radical

§ « in », « dé » sont des préfixes : précèdent le radical

§ « able » est un suffixe : suit le radical

§ rem: nombreux processus morphologiques plus complexes

§ ex. langues sémitiques: transfixes à l’intérieur de racines consonantiques

§ par exemple en arabe radical KTB : écrire

(62)

Regroupements morphologiques de mots:

« Familles » de mots

§ Famille de mots : même radical

§ construire, déconstruire, construction, constructeur …

§ Noyau de sens commun

§ Mais nombreuses irrégularités

§ inexistence : planter => *déplanter

§ restriction de sens : compter est ambigu => comptage ne l'est plus

62

(63)

Regroupements morphologiques de mots:

« Familles » de mots

§ Famille de mots : même radical

§ construire, déconstruire, construction, constructeur …

§ Noyau de sens commun

§ Mais nombreuses irrégularités

§ inexistence : planter => *déplanter

§ restriction de sens : compter est ambigu => comptage ne l'est plus

§ à l’inverse: l’ensemble des mots-formes existant pour un même lemme est régulier

§ sauf très rares exceptions: tout verbe admet une forme au futur, première personne du pluriel

§ le sens de « futur, 1

ère

pers du pluriel » est stable

§ l’existence de la forme est régulière, mais la forme obtenue peut

(64)

Regroupements morphologiques de mots:

lemmatisation versus racinisation

§ Lemmatisation:

§ construisaient => construire

§ Peu d’ambiguïtés si on connaît la catégorie du mot

§ Exemples d’ambiguïtés:

§ fils

§ suis

§ ≠ Racinisation (« stemming »)

§ déconstruction => « constr »

§ construisaient => « constr »

§ Beaucoup plus simple mais plus bruité

64

(65)

Analyse automatique: tagging

§ Etiquetage morpho-syntaxique (part-of-speech tagging)

§ = associer une catégorie morpho-syntaxique à un mot- token (une occurrence de mot)

§ La thrombine joue un rôle mineur pendant le processus

§ Il a une marque sur la joue.

(66)

Analyse automatique: tagging

§ Qu’est-ce qu’une catégorie morpho-syntaxique?

§ La fille regarde l’océan

§ Essayez de remplacer chaque mot par d’autres, en préservant

§ La grammaticalité de l’ensemble

§ Le sens des mots non remplacés

66

(67)

Analyse automatique: tagging

§ Qu’est-ce qu’une catégorie morpho-syntaxique?

§ La fille regarde l’océan

§ Essayez de remplacer chaque mot par d’autres, en préservant

§ La grammaticalité de l’ensemble

§ Le sens des mots non remplacés

§ Remplacement de « la » => une, cette, sa, ma, ...

§ => on vérifie que dans ~tous leurs contextes ces mots sont grammaticalement interchangeables

§ => on obtient la catégorie Déterminant-fem-sing

§ => en ignorant la flexion (genre nombre etc…)

§ on peut regrouper avec le, ce, ces, mes, des, un ...

§ => on obtient la catégorie « déterminant »

§ Caractéristiques:

§ placement avant un nom

§ accord en genre et nb avec le nom

(68)

Analyse automatique: tagging

§ Qu’est-ce qu’une catégorie morpho-syntaxique?

§ une catégorie = ensemble de mots-lemmes pouvant apparaître ≈ dans les mêmes contextes

§ on parle de partage de « distribution » = ens. des contextes formels possibles pour un mot

§ NB: en préservant grammaticalité, pas forcément interprétabilité

§ exemple: quels mots peuvent apparaître dans:

§ Les XXX écrivent des romans.

§ et leurs propriétés flexionnelles

§ varient-ils en genre? en mode? en temps? etc…

§ exemple: seuls les verbes varient en temps grammatical

68

(69)

Analyse automatique: tagging

§ Quel intérêt d’expliciter les catégories ?

§ => pouvoir de généralisation

§ par ex. en FR:

§ toute séquence Det N Vtrans Det N sera grammaticale

(70)

Analyse automatique: analyse syntaxique

§ Analyse syntaxique (syntactic parsing)

§ Produire automatiquement une représentation syntaxique des phrases

§ « syntaxe »: étude de l'agencement des mots au sein des phrases

§ ≠ morphologie: en gros étude de la formation des mots

§ in / destr / uctible

§ in / fais / able

70

(71)

Analyse syntaxique: pourquoi le concept de

« syntaxe »?

§ Justification du domaine de la syntaxe

§ l’ordre des mots est signifiant

§ Anna regarde Paul ≠ Paul regarde Anna

§ les mots entretiennent des relations autres que la juxtaposition

§ phénomènes d’accord

§ Les deux tables, après avoir été repeintes, furent transportées

par bâteau.

(72)

Analyse syntaxique: pourquoi le concept de

« syntaxe »?

§ Justification du domaine de la syntaxe

§ l’ordre des mots est signifiant

§ Anna regarde Paul ≠ Paul regarde Anna

§ les mots entretiennent des relations autres que la juxtaposition

§ phénomènes d’accord

§ Les deux tables, après avoir été repeintes, furent transportées par bâteau.

§ comportement ≠ pour une même séquence de catégories :

§ Ma fille trouve ce chanteur ridicule

§ Ma fille admire ce chanteur ridicule

72

(73)

Analyse syntaxique: pourquoi le concept de

« syntaxe »?

§ Justification du domaine de la syntaxe

§ l’ordre des mots est signifiant

§ Anna regarde Paul ≠ Paul regarde Anna

§ les mots entretiennent des relations autres que la juxtaposition

§ phénomènes d’accord

§ Les deux tables, après avoir été repeintes, furent transportées par bâteau.

§ comportement ≠ pour une même séquence de catégories :

§ Ma fille trouve ce chanteur ridicule

§ Ma fille admire ce chanteur ridicule

§ cf. certaines manipulations donnent des acceptabilités ≠

§ Ma fille trouve ridicule ce chanteur

§ #Ma fille admire ridicule ce chanteur

§ C’est ce chanteur ridicule que ma fille admire

§ #C’est ce chanteur ridicule que ma fille trouve

(74)

Analyse syntaxique: types de représentations syntaxiques

§ 2 grands types de représentation:

1. « arbres en constituants » = « arbres syntagmatiques »

§ syntagme = séquence de mots ayant une cohésion

§ typé d'après mot central (tête)

§ SN = « syntagme nominal », SA = synt. adjectival …

§ Rem: pas de consensus sur les symboles précis à poser

74

(75)

Analyse syntaxique: types de représentations syntaxiques

§ 2 grands types de représentation:

1. « arbres en constituants » = « arbres syntagmatiques »

§ syntagme = séquence de mots ayant une cohésion

§ typé d'après mot central (tête)

§ SN = « syntagme nominal », SA = synt. adjectival …

§ Rem: pas de consensus sur les symboles précis à poser

§ 2 structures ≠ pour les ex. précédents:

(76)

Analyse syntaxique: types de représentations syntaxiques

§ 2 grands types de représentation:

2. « arbres de dépendances » (cf. TP Spacy)

§ 1 nœud par mot-forme

§ arc g à d si la présence de d est « légitimée » par celle de g

§ étiquette de dépendances: fonctions grammaticales

76

(77)

Analyse syntaxique: notion de fonction grammaticale

§ Le mot impose la manière dont se réalisent d'autres éléments

§ On parle d’arguments syntaxiques

§ traduire : traducteur => sujet, texte à traduire => objet direct

§ (pas de forme imposée pour réaliser le résultat de la trad)

§ X commande Y à Z

§ X compte sur Y

§ X parle de Y à Z…

§ argument d’un nom : fin de N

§ argument d’un adjectif : capable de N/Vinf , apte à N/Vinf

(78)

Analyse syntaxique: notion de fonction grammaticale

§ Fonction grammaticale : typage de la relation entre un mot et un de ses arguments

§ chaque fonction a des propriétés spécifiques

§ exemples :

§ sujet = s’accorde avec le verbe, préverbal, pronom nominatif, relatif qui …

§ objet direct = postverbal, pronom accusatif, relatif que, etc…

§ permet de normaliser différents types de réalisation

§ La maire a inauguré la nouvelle salle de sports.

§ La maire l’a inauguré

§ Qu’est-ce que la maire a inauguré?

78

(79)

Utilisation de la syntaxe en TAL

§ La représentation syntaxique a longtemps constitué un premier pas vers la représentation du sens

§ Exemple : extraction d'informations:

§ comment repérer dans des textes toutes les mentions de

transactions commerciales?

(80)

Utilisation de la syntaxe en TAL

§ La représentation syntaxique a longtemps constitué un premier pas vers la représentation du sens

§ Exemple : extraction d'informations:

§ comment repérer dans des textes toutes les mentions de transactions commerciales?

§ solution naïve: rechercher les phrases avec:

§ verbe = « acheter », et interpréter:

§ sujet = acheteur,

§ complément d’objet direct = les biens achetés

§ complément indirect = ?

§ => facile à repérer en particulier dans les arbres de dépendances

80

(81)

Utilisation de la syntaxe en TAL : les problèmes

§ Mais problème central : variation linguistique

§ variation lexicale

§ acheter / acquérir / achat / vendre …

§ actuellement abordé en TAL en représentant les mots dans un espace vectoriel (cf. suite du cours « word embeddings »)

§ variation syntaxique

§ par ex: le passif (la filiale a été vendue en mars)

§ par ex: relative (le groupe qui a racheté la filiale)

§ voir par exemple variation de réalisation des arguments de

« acheter » dans annotations manuelles Framenet :

http://asfalda.linguist.univ-paris-

(82)

Utilisation de la syntaxe en TAL : les problèmes

§ Problème d’interprétation

§ 1 occurrence de prédicat-arguments ≠ un fait avéré

§ temporalité

§ le groupe achètera la filiale dans 1 an

§ négation et portée de négation

§ Le groupe n’achètera pas la filiale dans 1 an

§ degré de croyance de l’auteur / de différentes sources

§ D’après Mme Dumas, le groupe est sensé acheter la filiale dans 1 an.

§ D’après Mme Dumas, le groupe est sensé acheter la filiale dans 1 an, mais les derniers chiffres rendent ce projet très incertain.

§ Le groupe dit vouloir acheter la filiale

§ Certes, le groupe dit vouloir acheter la filiale, mais ne fait rien pour

en pratique. 82

(83)

Utilisation de la syntaxe en TAL : les problèmes

§ Performances insuffisantes sur texte tout venant

§ Analyseurs actuels performants si phrases bien formées

§ Texte « journalistique »

§ (>90% des mots bien attachés, pour bcp de langues)

§ Mais dégradation des performances sur autre genre de texte

§ En particulier « contenu généré par utilisateur »

§ Problème général de la dépendance aux données d’apprentissage en apprentissage supervisé

§ Conclusion: l’analyse syntaxique reste très

(84)

Analyse automatique:

reconnaissance d’entités nommées (NER)

84

(85)

Analyse automatique: NER

§ Reconnaissance d’entités nommées (named-entity

recognition NER)

(86)

Analyse automatique: NER

§ Tâche mal définie sur le plan linguistique

§ En gros = repérer les noms propres

§ Typiquement utilisés pour des personnes, lieux, organisations, produits …

§ Parfois également les dates

§ => tout ce qui a une forme un peu spécifique

§ Le NER a bcp de succès car les « entités nommées » sont

§ des entités de discours importantes sur le plan sémantique

§ et … faciles à repérer

86

(87)

Analyse automatique: NER

§ Mais difficulté à définir précisément ce qu’est une entité nommée

§ notion d’entité de discours

§ notion de nom propre

(88)

Entités du discours

§ Un discours (un texte)

§ évoque des « entités du discours »

§ via des mentions = portions de texte évoquant une entité

§ => identifier les entités du discours semble indispensable à toute

« compréhension » du texte

88

(89)

Entités du discours

§ Un discours (un texte)

§ évoque des « entités du discours »

§ via des mentions = portions de texte évoquant une entité

§ => identifier les entités du discours semble indispensable à toute

« compréhension » du texte

§ Phénomène de coréférence : la même entité peut être évoquée par plusieurs mentions

Thierry Henry contre-attaque. Il s’est longuement exprimé sur RTL et L’Equipe lundi pour répondre à ses détracteurs... Depuis cinq jours que sa main

enflamme la planète football, les explications de Henry étaient lapidaires. Du coup, lundi, le capitaine des Bleus est passé à la contre-offensive. S’il y a bien une chose qui l'a révulsé, c’est le manque de soutien au plus fort de la

tempête.

(90)

Entités du discours: typologie

§ Les entités ont des caractéristiques très diverses

§ Qu'est-ce qui distingue les exemples en orange ci-dessous?

§ Un chat retombe toujours sur ses pattes.

§ J’ai adopté un chat.

§ Anna a acheté un livre vert.

§ Anna enseigne la physique quantique.

§ la destruction de l'immeuble a été décidée en conseil

§ Peter Pan est un petit garçon qui refuse de grandir.

§ Le fils de mon voisin est un petit garçon qui refuse de grandir.

§ J’ai vendu ma voiture. Elle me coûtait trop cher.

§ Je n’ai finalement pas acheté de voiture, elle m’ aurait coûté trop cher

90

(91)

Entités du discours: typologie

§ Les entités ont des caractéristiques très diverses

§ Générique ou spécifique

§ Un chat retombe toujours sur ses pattes.

§ J’ai adopté un chat.

§ abstraites, concrètes

§ Anna a un livre vert.

§ Anna a un courage impressionnant.

§ « réelles » ou imaginaires

§ Peter Pan est un petit garçon qui refuse de grandir.

§ existantes ou inexistantes

§ Peter Pan n’a finalement pas acheté de voiture, elle lui aurait coûté trop cher

§ un événement peut constituer une entité

§ noms évènementiels: funérailles, concert, destruction …

§ anaphore évènementielle:

§ - Marie Curie a aussi eu le prix Nobel de chimie.

(92)

Deux types de convention de nommage

§ Distinction classique entre « nom propre et nom commun »

§ nom commun : dans la majorité des cas, désigne une classe d’entités

§ les locuteurs apprennent une convention de nommage entre le nom et la classe d’entités

§ si on connaît le sens du nom, on peut l’appliquer à des entités auparavant inconnues, d'après leurs

caractéristiques

§ marteau, femme, funérailles

92

(93)

Deux types de convention de nommage

§ Distinction classique entre « nom propre et nom commun »

§ nom propre :

§ une convention de nommage spécifique entre un nom et une entité

§ convention qu’un locuteur doit apprendre pour chaque entité

§ certaines classes sémantiques reçoivent typiquement des noms propres

§ en particulier : noms de personnes, lieux, organisations

Anna Duval, Massif Central, Ubisoft

§ également : noms d’artefact, noms d’évènements

Windows, la guerre de cent ans

(94)

Deux types de convention de nommage

§ Distinction pas si simple

§ nom propre à base descriptive

§ le Jardin des Plantes

§ La Ligue Internationale Contre le Racisme et l'Antisémitisme

§ et nom d'entité unique

§ lune ou Lune

94

(95)

Analyse automatique: NER

§ « entités nommées » ont souvent une forme avec caractéristiques repérables aisément

§ conventions orthographiques : majuscule

§ syntaxe spécifique:

§ ex. personne = titre? + profession? + prénom? + nom

§ Mme la maire Céline de la Verrière

§ et sont d’un type sémantique « important » pour la compréhension

§ personnes, organisations, lieux…

(96)

Analyse automatique: NER

§ « entités nommées » ont souvent une forme avec caractéristiques repérables aisément

§ conventions orthographiques : majuscule

§ syntaxe spécifique:

§ ex. personne = titre? + profession? + prénom? + nom

§ Mme la maire Céline de la Verrière

§ et sont d’un type sémantique « important » pour la compréhension

§ personnes, organisations, lieux…

§ d’où tâche populaire, car à peu près faisable

§ anciennement : systèmes par règles

§ puis apprentissage supervisé

§ technique dominante: étiquetage de séquence

§ jeu de « tags » de type BIO (Begin Inside Outside)

Hier, Anna von Schön a commencé à travailler chez Ubisoft.

O B I I O O O O O B

96

(97)

Analyse automatique: coréférence

§ Résolution de coréférence (coreference resolution)

§ = repérer dans un texte les portions référant à la même entité du discours

Thierry Henry contre-attaque. Il s’est longuement exprimé sur RTL et L’Equipe lundi pour répondre à ses

détracteurs... Depuis cinq jours que sa main enflamme la planète football, les explications de Henry étaient

lapidaires. Du coup, lundi, le capitaine des Bleus est

passé à la contre-offensive. S’il y a bien une chose qui l'a révulsé, c’est le manque de soutien au plus fort de la

tempête.

(98)

Analyse automatique: WSD

§ Désambiguisation lexicale (word sense disambiguation WSD)

§ La liste comprend également des produits chimiques et des toxines.

§ On ne comprend pas pourquoi il a fait ça.

98

(99)

Analyse automatique: analyse sémantique

§ Analyse sémantique (semantic analysis / natural language understanding NLU)

§ associer un énoncé à la représentation de son sens, manipulable par algorithmes

§ Problèmes ouverts (cf. début du cours):

§ que veut dire comprendre pour une machine?

§ quelle représentation du sens ?

§ …

Références

Documents relatifs

Pro & Cons X État de l’art en TAL sur de nombreuse tâches, mais proche d’autres méthodes d’apprentissage X ouverture vers d’autres tâches approches moins supervisées

9- La Boîte à Merveilles ne représente pas uniquement pour Sidi Mohammed un simple moyen de jouer ou encore un simple passe-temps.

 Permettent la création d’un lien d’un point du texte vers un autre point du texte ou vers un autre

 L’index lexical permet l’énumération des mots- clefs du document en relation avec l’endroit du document où ils sont utilisés..  Les mots-clefs doivent

– Saisir un texte (suite de caractères constituant le texte) – Structurer le texte sous forme de document. – Mise en forme

Models with even modestly sized auxiliary input represen- tations are considerably harder to train than a typical un- supervised character model.. To overcome this problem, we

◦ Il est souvent (toujours) possible de trouver des mots qui n’apparaissent que dans l’une des classes de documents..?. ◦ Il suffit de se baser dessus pour prendre une

is the number of times words assigned to topic j and sentiment label k, N j,k,d is the number of times a word from document d has been associated with topic j and sentiment label k,