Traitement de la langue naturelle (TAL – NLP)
M2 MIDS
Marie Candito / Antoine Simoulin
Aperçu du cours
§ 3 séances M Candito [email protected]
§ introduction au TAL
§ concepts linguistiques
§ 7 séances Antoine Simoulin [email protected]
§ classification de documents
§ vecteurs de mots, modèles de langue
§ CM et TPs
§ Evaluation
§ 50% examen final + 50% contrôle continu
§ contrôle continu : quizz / TPs
2
Biblio indicative
§ Jurafsky, D., and Martin, J. (2019), Speech and Language Processing. Pearson
§ (nombreuses rééditions, pédagogique)
§ chapitres en ligne: https://web.stanford.edu/~jurafsky/slp3/
§ panorama assez complet du domaine
§ moins centré sur le deep learning
§ Goldberg, Y. (2016), Neural network methods in NLP. Morgan
& Claypool
§ très pédagogique
§ Eisenstein, J. (2019). Natural Language Processing. MIT Press
Traitement automatique des langues (TAL)
§ = Natural Language Processing (NLP)
§ rem: « langue naturelle » est un pléonasme
§ Relève de:
§ Communication humain-machine
§ Intelligence artificielle
§ Informatique
§ Peut utiliser:
§ Mathématiques (par ex. logique)
§ Apprentissage automatique
§ Linguistique (dont psycho-linguistique)
4
Exemples d’applications
Applications faisant intervenir du TAL
Exemples d’applications:
§ Traduction automatique (machine translation)
§ Question-réponse (question answering QA)
§ Classification de documents
6
Traduction automatique
§ la trad neuronale (neural machine translation)…
§ exemple : DeepL
Traduction automatique
§ a totalement éclipsé la trad "par transfert" (rule-based)
§ par exemple Systran
8
Question-réponse ( Question Answering QA )
§ Système devant répondre automatiquement à une question en « langue naturelle »
§ Qui a gagné la ligue des champions féminine en 2020?
§ Quel est le nombre moyen de jours de vent par an à
Marseille?
Question-réponse ( Question Answering QA )
§ 2 types d’applications techniquement très différentes, selon la source pour la/les réponses
1. Source des réponses = des documents textuels
§ réponses = documents non formatés
§ => simple moteur de recherche documentaire
§ réponses = information précise
§ trouvée dans les textes
§ = système de question-réponse extractif (extractive QA)
§ ou bien inférées
§ Nécessitant un raisonnement à partir des énoncés
§ Plus difficile!
§ Autre terme pour la tâche (plus général) : Machine reading comprehension (MRC)
10
extractive QA + mise en forme: Google
extractive QA: données SQuAD
§ https://rajpurkar.github.io/SQuAD-explorer/
12
Question-réponse ( Question Answering QA )
§ 2 types d’applications techniquement très différentes, selon la source pour la/les réponses
2. Source des réponses = une base de connaissances (knowledge base KB)
§ en général graphe décrivant des faits
§ nœuds = entités du monde, arcs = relations
sémantiques
QA from knowledge base
§ Exemple de KB = wikidata,
§ wikidata query service
§ https://query.wikidata.org/
§ langage de requête SPARQL
§ Tâche = traduire la question en requête
§ input:
§ Quels sont les auteurs nommés au prix Nobel de littérature qui ne l'ont pas obtenu ?
§ output = requête, par exemple en SPARQL
§ voir slide suivant
14
QA: réponses dans base de connaissance
§ Tâche = traduire la question en requête
§ par ex. KB = wikidata, wikidata query service:
Application "Classification de documents"
§ associer une ou plusieurs catégories à un document / une portion de textes
§ NB: les catégories sont pré-existantes
§ par ex. thèmes de dépêches
§ ≠ clustering / détection de thèmes
§ Exemples:
§ identifier le thème d'articles de presse
§ identification de spam
§ mais aussi : analyse de sentiment (« sentiment analysis »)
§ « document » = verbatim, contenu généré par utilisateur
§ « catégorie » = positif, négatif, neutre
§ mais aussi : réponse à une FAQ
§ "document" = question utilisateur
§ "catégorie" = les questions répertoriées dans une FAQ
§ …
16
Autres exemples d'applications faisant intervenir du TAL
Quelques exemples supplémentaires:
§ Agents conversationnels (chatbots)
§ Résumé automatique (automatic summarization)
§ « Analyse de sentiment » (sentiment analysis)
§ Extraction d’information / fouille de textes (text mining)
§ Correction grammaticale
§ Multi-modal: recherche d’images (d’après légende+image)
§ …
Bref historique du TAL
18
Historique express
§ Débuts de l’informatique
§ Traduction automatique, abordée comme de la cryptographie
§ rapport ALPAC 1966 : constat d'échec des approches sous- estimant les difficultés
§ 70’s-80’s : TAL symbolique, « par règles »
§ symbolic, rule-based
§ interfaces de BDD en langage naturel
§ approche symbolique: « systèmes experts »
§ Exemple de règle:
§ « Si une graphie m peut être un nom ou un verbe et qu’elle est précédée d’un déterminant, alors c’est un nom »
§ Mon épaule gauche me fait mal
Historique express
§ 90’s : TAL probabiliste
§ Modèles « génératifs » :
§ estimation de P(observations | sorties cherchées)
§ par exemple
§ Classifieur bayésien naïf
§ Par exemple classification de documents
§ C = ensemble de classes possibles
classe* = argmaxc ∈C P(c | document)
= argmaxc ∈C P(doc | c) P(c) / P(doc)
= argmaxc ∈C P(doc | c) P(c)
§ statistical machine translation (IBM, Brown et al. 93)
§ Traduction phrase f langue F vers langue E e* = argmaxphrases e P(e)P(f | e) / P(f)
= argmaxphrases e P(e)P(f | e)
20
Historique express
§ Fin années 90 – années 2000
§ Modèles probabilistes discriminants
§ Estimation directe de P(sorties cherchées | observations)
§ Via classifieurs linéaires
§ Permettant de représenter les observations au moyen de vecteurs de traits, définis manuellement
§ Feature engineering
§ Machines à vecteurs support (support vector machines SVM)
Historique express
§ ≈ 2013
§ Apprentissage profond ("deep learning")
§ Réseaux neuronaux
§ Spécificité du TAL: intégration de vecteurs de mots ("word embeddings")
§ Colobert et al. 2008, Mikolov et al. 2013 (word2vec)
§ La similarité entre 2 vecteurs de mots (en général cosinus) est sensée capturer la similarité entre ces 2 mots
22
Historique express
§ À partir de 2018
§ Intégration au sein de réseaux de neurones de deep contextualized word representations
§ Vecteurs représentant un mot en contexte
§ ElMO (Peters et al. 2018)
§ Transformer-based models (par ex. BERT (Devlin et al. 2018) )
§ pour l’anglais + modèle multilingue
§ Blog pédagogique: https://jalammar.github.io/illustrated-bert/
§ Pléthore de modèles pour autres langues: flauBERT … CamemBERT…
§ entraînable sur texte brut (milliards de mots disponibles)
§ techniquement = apprentissage supervisé
§ mais construction triviale d'exemples d'apprentissage
§ Par exemple à partir du contexte « le chat XXX à la balle », identifier le mot manquant
§ paramètres appris utilisables dans modèles entraînés pour des tâches plus sophistiquées
èOn parle d’apprentissage par transfert (« transfer learning ») ègains importants sur toutes les tâches de TAL
Tendances actuelles en TAL (NLP)
§ Modèles de TAL
§ intégrent actuellement peu de linguistique
§ Intelligence artificielle, apprentissage profond
§ Apprentissage supervisé
§ Récents gains de performance
§ In fine: optimisation mathématique: recherche de paramètres minimisant une perte
24
Tendances actuelles en TAL (NLP)
§ Mais enjeux:
1. Manque de données d’apprentissage
§ Annotations de données : long, coûteux, peu généralisable
§ Même si apprentissage par transfert limite un peu le volume de données nécessaires pour obtenir de bons résultats
§ Apprentissage d’un point de départ de valeurs de paramètres d’un modèle
§ Sur données produites trivialement à partir de corpus bruts
§ Puis spécialisation des valeurs de paramètres pour une tâche plus sophistiquée, requérant des données annotées
2. Interprétabilité:
§ è connaissances linguistiques restent utiles en pratique dans le
milieu industriel
Un peu de linguistique
26
Un peu de linguistique:
§ Qu’est-ce que la linguistique?
§ Notion d'acceptabilité
§ Objectif de la linguistique
§ Qu’est-ce que modéliser la langue?
§ Décrire versus prescrire
§ Représentation linguistique d’une phrase
§ Concepts descriptifs:
§ en morphologie:
§ catégorie morpho-syntaxique (Nom, Verbe…)
§ lemme (manger) et traits flexionnels (sing, féminin…)
§ expression polylexicale (carte bleue, mettre en garde)
§ en syntaxe: arbre syntaxique
§ en sémantique: rôle sémantique
§ notion d’ « entité nommée »
Qu’est-ce que la linguistique ?
28
Qu’est-ce que la linguistique ?
§ Linguistique = étude du fonctionnement des langues et de la compétence langagière des locuteurs
§ « mitruchaient » et « chluktaag »
§ sont-ils des mots français?
§ sonnent-ils français?
§ Idem pour
§ « Les chitailles mitruchaient sous la pongère. »
§ « Oiseaux les mur le sur picoraient. »
Qu’est-ce que la linguistique ?
§ Linguistique = étude du fonctionnement des langues et de la compétence langagière des locuteurs
§ « mitruchaient » et « chluktaag »
§ sont-ils des mots français?
§ sonnent-ils français?
§ Idem pour
§ « Les chitailles mitruchaient sous la pongère. »
§ « Oiseaux les mur le sur picoraient. »
§ Un locuteur produit et comprend des énoncés jamais rencontrés auparavant
§ è La compétence d’un locuteur ne se réduit pas à un ensemble fini d’énoncés appris par cœur
§ è des règles sous-tendent la formation des énoncés dans une langue donnée
30
Concept linguistique: Acceptabilité
§ Compétence des locuteurs, qui savent dire que:
§ certains énoncés appartiennent à leur langue
§ J’aime beaucoup les olives.
§ et d’autres certainement pas
§ * Aimer olives beaucoup moi.
Concept linguistique: Acceptabilité
§ Compétence des locuteurs, qui savent dire que:
§ certains énoncés appartiennent à leur langue
§ J’aime beaucoup les olives.
§ et d’autres certainement pas
§ * Aimer olives beaucoup moi.
§ è on parle d’acceptabilité des énoncés
§ inacceptabilité notée avec *
§ les locuteurs savent "juger" de l'acceptabilité d'un énoncé
§ compétence acquise à l'apprentissage d'une langue maternelle
§ les jugements d'acceptabilité sont plus ou moins unanimes
§ è échelle d’acceptabilité (non binaire)
32
Concept linguistique: Acceptabilité
§ À vous de juger l'acceptabilité de :
§ phrase de contexte :
§ Elle autorisa une personne sans masque à entrer/monter.
Alors en arrivèrent beaucoup d’autres.
? Alors en montèrent beaucoup d'autres.
Alors en arrivèrent des milliers.
? Alors en montèrent des milliers.
Alors commencèrent à en arriver des milliers.
? Alors commencèrent à en arriver beaucoup d’autres.
?? Alors commencèrent à en monter beaucoup d’autres.
Grammaticalité/Interprétabilité
§ Acceptabilité = grammaticalité + interprétabilité
§ interprétable mais agrammatical
§ *Je manger olive beaucoup.
§ grammatical mais ininterprétable
§ #Les rugueux athéismes liquides appuient sur le mur.
§ phrase « bien formée » mais quel sens lui donner?
§ *Je sais que tu as rencontré un homme qui travaille avec le voisin de la femme que le frère de ma dentiste qui
habite la rue passant derrière celle que Paul a photographiée a décidé d’épouser.
§ limites cognitives
34
Objectif de la linguistique
§ = modéliser la « grammaire » intériorisée par les
locuteurs
Objectif de la linguistique
§ = modéliser la « grammaire » intériorisée par les locuteurs
§ = construire appareil formel permettant de
reproduire / prédire le comportement langagier
§ i.e. prédire quels énoncés sont acceptables et lesquels ne le sont pas
36
Décrire versus prescrire
§ « Grammaire intériorisée par locuteurs »
§ ≠ grammaire normative
§ les autorités normatives prescrivent le « bon usage »
§ Académie française, grammaire scolaire …
§ échelle de valeur
§ et insistent justement sur ce qui contredit les règles normatives mais est employé par les locuteurs
§ « J’aime pas les photos que t’as pris »
§ => c'est français!
Décrire versus prescrire
§ « Grammaire intériorisée par locuteurs »
§ ≠ grammaire normative
§ les autorités normatives prescrivent le « bon usage »
§ Académie française, grammaire scolaire …
§ échelle de valeur
§ et insistent justement sur ce qui contredit les règles normatives mais est employé par les locuteurs
§ « J’aime pas les photos que t’as pris »
§ => c'est français!
§ Objectif du linguiste
§ = prendre en compte tous les usages effectifs de la langue
§ décrire la langue et non pas prescrire ce qu’elle devrait être
38
Décrire versus prescrire: exemples
§ Collectivement, les locuteurs introduisent des changements…
§ que les autorités normatives finissent par entériner ou pas:
§ Prononciation:
§ les zaricots
§ Mots:
§ 109 nouveaux mots au Robert 2020: boboïser, anticasseur, coworking...
§ pour 2021: déconfinement, cluster, télétravailler…
§ Constructions:
§ exemple typique: malgré que
§ usage encore « non recommandé » par l’Académie
§ Au Robert depuis 1990
§ cf. historique Candel et Kibbee 2006
Décrire tous les usages langagiers
§ Linguistique / TAL prend en compte tous les usages
§ mais locuteurs savent repérer différents « registres » de langue
§ connaissance active / passive
§ Les langues contribuent à assurer l’identité et l’unité à l’intérieur des communautés humaines.
§ Lunes et nuit, vous êtes un loup de velours noir, village, sur la veillée de mon amour (René Char)
§ Donne lui-en pas!
§ Auriez-vous l’obligeance de bien vouloir faire cesser ces désordres?
§ Mention de l’arrêté préfectoral et des modalités de consultation de celui-ci est inséré en caractères apparents dans deux journaux
régionaux ou locaux diffusés dans le département
40
Décrire tous les usages langagiers
§ Impératif en TAL de traiter les usages réels
§ exemples French Social Media Bank (Seddah et al., 2012)
§ Mais y’a des gens ils pensent pas à l’ avenir de leur gosse !
§ J’ai pas lisser mes cheveux il boucle un peu, sa fais jolie :3
§ J’en ai marre de me lisser les chvx, ils peuven pas être tout lisse déjà ?
§ Je pars me lisser les cheveux , énorme journée de
diiiiiingue .
Analyse automatique de textes
42
Analyse automatique de textes
§ But = produire automatiquement une représentation formelle d’un texte / de phrases
§ => pour permettre des traitements informatiques
§ But ultime: obtenir une représentation formelle du sens du texte
§ Problème:
§ Aucun consensus sur la façon de représenter le sens d’un texte
§ mais desiderata: la représentation devrait permettre de
faire toutes les inférences qu’un humain ferait à partir
du contenu du texte
Exercice: Analyse idéale d’un texte
§ Quand Elena Greco reçoit un coup de fil annonçant la disparition de son amie d’enfance Lila, cette sexagénaire italienne décide de raconter l’histoire de leur vie.
§ Dans le Naples de la fin des années 50, dans un quartier pauvre de la ville, Lila, petite fille rebelle et rejetée par ses camarades, démontre un jour en classe des capacités exceptionnelles : elle a appris à lire et écrire seule. À partir de ce jour, Elena se met en tête de devenir son amie coûte que coûte, intriguée par sa
personnalité et ses connaissances.
§ Afin de tester la loyauté et le cran d’Elena, Lila décide de jeter sa poupée dans la cave de Don Achille, le mafieux du quartier qu’elles voient comme un ogre. Elena en fait de même avec celle de sa nouvelle amie et après avoir tenté en vain de les récupérer dans la cave en question, elles décident de confronter Don Achille en personne. Lila et Elena l’accusent d’avoir volé leurs poupées, une frasque tout droit venue de l’imaginaire bouillonnant de Lila. Admirant certainement leur courage, Don Achille finit par leur donner un billet pour qu’elles s’en rachètent.
§ (source: https://www.canalplus.com/articles/series/l-amie-prodigieuse-le-resume-des-episodes-1-et-2)
44
Exercice: Analyse idéale d’un texte
§ Exercice:
§ Imaginez comment représenter le sens de ce texte: quels concepts utiliser?
§ Quelle représentation idéale permettrait de répondre aux questions suivantes:
§ Questions dont la réponse est directement exprimée dans le texte
§ Elena et Lila sont-elles amies d’enfance?
§ Qui a disparu?
§ Lila et Elena ont-elles récupéré leurs poupées dans la cave de Don Achille?
§ Qu’est-ce que Lila a jeté dans la cave de Don Achille?
§ Questions nécessitant des inférences
§ Elena et Lila sont-elles sœurs?
§ Don Achille a-t-il volé les poupées?
§ Lila et Elena ont-elles de l’argent pour racheter des poupées?
Analyse automatique de textes
§ Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment
§ Approches neuronales capables d’obtenir de bons résultats par exemple en Question-réponse (QA)
§ Par apprentissage supervisé
§ Exemples d’apprentissage = paires
§ Entrée = paragraphe+question
§ Sortie = réponse
§ Pb du manque de données annotées
46
Analyse automatique de textes
§ Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment
§ Approches neuronales capables d’obtenir de bons résultats par exemple en Question-réponse (QA)
§ Par apprentissage supervisé
§ Exemples d’apprentissage = paires
§ Entrée = paragraphe+question
§ Sortie = réponse
§ Pb du manque de données annotées
§ Mais :
§ aucune représentation symbolique et donc interprétable du sens
§ aucune généralisation à d’autres tâches
Analyse automatique de textes
§ Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment
§ Approche symbolique:
§ Pas de consensus sur la représentation sémantique visée
§ Manque de ressources linguistiques
§ Suffisamment couvrantes
§ Multilingues
§ Difficulté à gérer les ambiguïtés
§ Rendre explicite le savoir nécessaire pour répondre aux questions est trop complexe
48
Analyse automatique de textes
§ Des tâches moins ambitieuses fonctionnent bien
§ qui construisent différents niveaux de représentation symbolique du texte
§ On parle de « tâches de TAL »:
§ Segmentation du texte en phrases et en mots
§ Analyse morphologique
§ Analyse syntaxique
§ Analyse sémantique, dont:
§ Désambiguisation lexicale
§ Reconnaissance d’entités nommées
§ Résolution de coréférences
§ Voire construction d’une représentation (imparfaite) du sens de phrases/de discours
Analyse automatique de textes
§ Des tâches moins ambitieuses fonctionnent bien
§ qui construisent différents niveaux de représentation symbolique du texte
§ On parle de « tâches de TAL »:
§ Segmentation du texte en phrases et en mots
§ Analyse morphologique
§ Analyse syntaxique
§ Analyse sémantique, dont:
§ Désambiguisation lexicale
§ Reconnaissance d’entités nommées
§ Résolution de coréférences
§ Voire construction d’une représentation (imparfaite) du sens de phrases/de discours
§ Les méthodes neuronales, avec apprentissage par
transfert fonctionnent le mieux
50« Tâches » d’analyse automatique
Tâches d’analyse automatique
§ Reconnaissance vocale / synthèse vocale
§ non abordé dans ce cours
§ on suppose partir d'une forme écrite
52
Analyse automatique: reconnaître les unités lexicales
§ Tâche de base pour l’analyse automatique d’un texte:
§ Segmenter le texte en phrases
§ Segmenter les phrases en mots (ou « unités lexicales »)
Analyse automatique: reconnaître les unités lexicales
§ Tâche de base pour l’analyse automatique d’un texte:
§ Segmenter le texte en phrases
§ Segmenter les phrases en mots (ou « unités lexicales »)
§ Pas si simple, exemple:
« Le conducteur du poids lourd ne se rendait pas compte de sa vitesse. »
§ Quels mots repérez-vous?
§ Sous quelle forme sont-ils dans un dictionnaire?
54
Analyse automatique: reconnaître les unités lexicales
§ « Tokenisation » versus reconnaissance des mots
§ pour langues à séparateurs de mots
§ segmentation sur caractères typographiques + exceptions
§ on obtient une séquence de « tokens »
§ Le / conducteur / du / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .
§ = tâche de « tokenisation »
Analyse automatique: reconnaître les unités lexicales
§ « Tokenisation » versus reconnaissance des mots
§ pour langues à séparateurs de mots
§ segmentation sur caractères typographiques + exceptions
§ on obtient une séquence de « tokens »
§ Le / conducteur / du / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .
§ = tâche de « tokenisation »
§ Éventuellement suivie de la reconnaissance de mots
§ Le / conducteur / de+le / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .
§ Amalgames: 1 token => n mots
§ Expressions polylexicales: n tokens => 1 mot
56
Analyse automatique: reconnaître les unités lexicales
§ « Tokenisation » versus reconnaissance des mots
§ pour langues sans séparateur: complexe!
§
挑戰和挑戰性的中國風§ Un ou plusieurs caractères peuvent constituer un mot, et ambiguïtés
de segmentation
Expressions polylexicales
§ Exemples
§ cas continu ("mot composé") : poids lourd
§ possiblement discontinu : mettre en garde
§ Elle a mis tous les participants en garde contre une possible recrudescence de l'épidémie.
58
Expressions polylexicales
§ Exemples
§ cas continu ("mot composé") : poids lourd
§ possiblement discontinu : mettre en garde
§ Elle a mis tous les participants en garde contre une possible recrudescence de l'épidémie.
§ Caractérisés par
§ non compositionnalité sémantique
§ leur sens n'est pas obtenu par une composition régulière des composants
§ un poids lourd n'est pas un "poids qui est lourd"
§ => doivent être repérés pour toute tâche d'ordre sémantique
§ => en pratique : souvent pas fait, car pas encore de
Regroupements morphologiques de mots:
lemme
§ 2 sens du mot « mot »
§ les mots rencontrés dans les textes : mot-forme
§ mangerait, fraises, éclatantes
§ les « mots du dictionnaire » : mot-lemme
§ manger, fraise, éclatant
§ un mot-lemme est un ensemble de formes, qui ne varient que pour le nombre, genre, temps, personne, mode
§ on parle de variation flexionnelle
§ le nom « fraise » a 2 formes possibles : fraise et fraises
§ le verbe « manger » a … 64 formes possibles : mange, manges, mangeons… mangèrent … mangiez …
60
Regroupements morphologiques de mots:
Lemme vs « radical »
§ soit le mot-forme « indéchiffrables »
§ lemme = indéchiffrable
§ décomposition en affixes + radical
§ = in / dé / chiffr / able
§ « chiffr » est la racine ou le radical
§ « in », « dé » sont des préfixes : précèdent le radical
§ « able » est un suffixe : suit le radical
§ rem: nombreux processus morphologiques plus complexes
§ ex. langues sémitiques: transfixes à l’intérieur de racines consonantiques
§ par exemple en arabe radical KTB : écrire
Regroupements morphologiques de mots:
« Familles » de mots
§ Famille de mots : même radical
§ construire, déconstruire, construction, constructeur …
§ Noyau de sens commun
§ Mais nombreuses irrégularités
§ inexistence : planter => *déplanter
§ restriction de sens : compter est ambigu => comptage ne l'est plus
62
Regroupements morphologiques de mots:
« Familles » de mots
§ Famille de mots : même radical
§ construire, déconstruire, construction, constructeur …
§ Noyau de sens commun
§ Mais nombreuses irrégularités
§ inexistence : planter => *déplanter
§ restriction de sens : compter est ambigu => comptage ne l'est plus
§ à l’inverse: l’ensemble des mots-formes existant pour un même lemme est régulier
§ sauf très rares exceptions: tout verbe admet une forme au futur, première personne du pluriel
§ le sens de « futur, 1
èrepers du pluriel » est stable
§ l’existence de la forme est régulière, mais la forme obtenue peut
Regroupements morphologiques de mots:
lemmatisation versus racinisation
§ Lemmatisation:
§ construisaient => construire
§ Peu d’ambiguïtés si on connaît la catégorie du mot
§ Exemples d’ambiguïtés:
§ fils
§ suis
§ ≠ Racinisation (« stemming »)
§ déconstruction => « constr »
§ construisaient => « constr »
§ Beaucoup plus simple mais plus bruité
64
Analyse automatique: tagging
§ Etiquetage morpho-syntaxique (part-of-speech tagging)
§ = associer une catégorie morpho-syntaxique à un mot- token (une occurrence de mot)
§ La thrombine joue un rôle mineur pendant le processus
§ Il a une marque sur la joue.
Analyse automatique: tagging
§ Qu’est-ce qu’une catégorie morpho-syntaxique?
§ La fille regarde l’océan
§ Essayez de remplacer chaque mot par d’autres, en préservant
§ La grammaticalité de l’ensemble
§ Le sens des mots non remplacés
66
Analyse automatique: tagging
§ Qu’est-ce qu’une catégorie morpho-syntaxique?
§ La fille regarde l’océan
§ Essayez de remplacer chaque mot par d’autres, en préservant
§ La grammaticalité de l’ensemble
§ Le sens des mots non remplacés
§ Remplacement de « la » => une, cette, sa, ma, ...
§ => on vérifie que dans ~tous leurs contextes ces mots sont grammaticalement interchangeables
§ => on obtient la catégorie Déterminant-fem-sing
§ => en ignorant la flexion (genre nombre etc…)
§ on peut regrouper avec le, ce, ces, mes, des, un ...
§ => on obtient la catégorie « déterminant »
§ Caractéristiques:
§ placement avant un nom
§ accord en genre et nb avec le nom
Analyse automatique: tagging
§ Qu’est-ce qu’une catégorie morpho-syntaxique?
§ une catégorie = ensemble de mots-lemmes pouvant apparaître ≈ dans les mêmes contextes
§ on parle de partage de « distribution » = ens. des contextes formels possibles pour un mot
§ NB: en préservant grammaticalité, pas forcément interprétabilité
§ exemple: quels mots peuvent apparaître dans:
§ Les XXX écrivent des romans.
§ et leurs propriétés flexionnelles
§ varient-ils en genre? en mode? en temps? etc…
§ exemple: seuls les verbes varient en temps grammatical
68
Analyse automatique: tagging
§ Quel intérêt d’expliciter les catégories ?
§ => pouvoir de généralisation
§ par ex. en FR:
§ toute séquence Det N Vtrans Det N sera grammaticale
Analyse automatique: analyse syntaxique
§ Analyse syntaxique (syntactic parsing)
§ Produire automatiquement une représentation syntaxique des phrases
§ « syntaxe »: étude de l'agencement des mots au sein des phrases
§ ≠ morphologie: en gros étude de la formation des mots
§ in / destr / uctible
§ in / fais / able
70
Analyse syntaxique: pourquoi le concept de
« syntaxe »?
§ Justification du domaine de la syntaxe
§ l’ordre des mots est signifiant
§ Anna regarde Paul ≠ Paul regarde Anna
§ les mots entretiennent des relations autres que la juxtaposition
§ phénomènes d’accord
§ Les deux tables, après avoir été repeintes, furent transportées
par bâteau.
Analyse syntaxique: pourquoi le concept de
« syntaxe »?
§ Justification du domaine de la syntaxe
§ l’ordre des mots est signifiant
§ Anna regarde Paul ≠ Paul regarde Anna
§ les mots entretiennent des relations autres que la juxtaposition
§ phénomènes d’accord
§ Les deux tables, après avoir été repeintes, furent transportées par bâteau.
§ comportement ≠ pour une même séquence de catégories :
§ Ma fille trouve ce chanteur ridicule
§ Ma fille admire ce chanteur ridicule
72
Analyse syntaxique: pourquoi le concept de
« syntaxe »?
§ Justification du domaine de la syntaxe
§ l’ordre des mots est signifiant
§ Anna regarde Paul ≠ Paul regarde Anna
§ les mots entretiennent des relations autres que la juxtaposition
§ phénomènes d’accord
§ Les deux tables, après avoir été repeintes, furent transportées par bâteau.
§ comportement ≠ pour une même séquence de catégories :
§ Ma fille trouve ce chanteur ridicule
§ Ma fille admire ce chanteur ridicule
§ cf. certaines manipulations donnent des acceptabilités ≠
§ Ma fille trouve ridicule ce chanteur
§ #Ma fille admire ridicule ce chanteur
§ C’est ce chanteur ridicule que ma fille admire
§ #C’est ce chanteur ridicule que ma fille trouve
Analyse syntaxique: types de représentations syntaxiques
§ 2 grands types de représentation:
1. « arbres en constituants » = « arbres syntagmatiques »
§ syntagme = séquence de mots ayant une cohésion
§ typé d'après mot central (tête)
§ SN = « syntagme nominal », SA = synt. adjectival …
§ Rem: pas de consensus sur les symboles précis à poser
74
Analyse syntaxique: types de représentations syntaxiques
§ 2 grands types de représentation:
1. « arbres en constituants » = « arbres syntagmatiques »
§ syntagme = séquence de mots ayant une cohésion
§ typé d'après mot central (tête)
§ SN = « syntagme nominal », SA = synt. adjectival …
§ Rem: pas de consensus sur les symboles précis à poser
§ 2 structures ≠ pour les ex. précédents:
Analyse syntaxique: types de représentations syntaxiques
§ 2 grands types de représentation:
2. « arbres de dépendances » (cf. TP Spacy)
§ 1 nœud par mot-forme
§ arc g à d si la présence de d est « légitimée » par celle de g
§ étiquette de dépendances: fonctions grammaticales
76
Analyse syntaxique: notion de fonction grammaticale
§ Le mot impose la manière dont se réalisent d'autres éléments
§ On parle d’arguments syntaxiques
§ traduire : traducteur => sujet, texte à traduire => objet direct
§ (pas de forme imposée pour réaliser le résultat de la trad)
§ X commande Y à Z
§ X compte sur Y
§ X parle de Y à Z…
§ argument d’un nom : fin de N
§ argument d’un adjectif : capable de N/Vinf , apte à N/Vinf
Analyse syntaxique: notion de fonction grammaticale
§ Fonction grammaticale : typage de la relation entre un mot et un de ses arguments
§ chaque fonction a des propriétés spécifiques
§ exemples :
§ sujet = s’accorde avec le verbe, préverbal, pronom nominatif, relatif qui …
§ objet direct = postverbal, pronom accusatif, relatif que, etc…
§ permet de normaliser différents types de réalisation
§ La maire a inauguré la nouvelle salle de sports.
§ La maire l’a inauguré
§ Qu’est-ce que la maire a inauguré?
78
Utilisation de la syntaxe en TAL
§ La représentation syntaxique a longtemps constitué un premier pas vers la représentation du sens
§ Exemple : extraction d'informations:
§ comment repérer dans des textes toutes les mentions de
transactions commerciales?
Utilisation de la syntaxe en TAL
§ La représentation syntaxique a longtemps constitué un premier pas vers la représentation du sens
§ Exemple : extraction d'informations:
§ comment repérer dans des textes toutes les mentions de transactions commerciales?
§ solution naïve: rechercher les phrases avec:
§ verbe = « acheter », et interpréter:
§ sujet = acheteur,
§ complément d’objet direct = les biens achetés
§ complément indirect = ?
§ => facile à repérer en particulier dans les arbres de dépendances
80
Utilisation de la syntaxe en TAL : les problèmes
§ Mais problème central : variation linguistique
§ variation lexicale
§ acheter / acquérir / achat / vendre …
§ actuellement abordé en TAL en représentant les mots dans un espace vectoriel (cf. suite du cours « word embeddings »)
§ variation syntaxique
§ par ex: le passif (la filiale a été vendue en mars)
§ par ex: relative (le groupe qui a racheté la filiale)
§ voir par exemple variation de réalisation des arguments de
« acheter » dans annotations manuelles Framenet :
http://asfalda.linguist.univ-paris-
Utilisation de la syntaxe en TAL : les problèmes
§ Problème d’interprétation
§ 1 occurrence de prédicat-arguments ≠ un fait avéré
§ temporalité
§ le groupe achètera la filiale dans 1 an
§ négation et portée de négation
§ Le groupe n’achètera pas la filiale dans 1 an
§ degré de croyance de l’auteur / de différentes sources
§ D’après Mme Dumas, le groupe est sensé acheter la filiale dans 1 an.
§ D’après Mme Dumas, le groupe est sensé acheter la filiale dans 1 an, mais les derniers chiffres rendent ce projet très incertain.
§ Le groupe dit vouloir acheter la filiale
§ Certes, le groupe dit vouloir acheter la filiale, mais ne fait rien pour
en pratique. 82
Utilisation de la syntaxe en TAL : les problèmes
§ Performances insuffisantes sur texte tout venant
§ Analyseurs actuels performants si phrases bien formées
§ Texte « journalistique »
§ (>90% des mots bien attachés, pour bcp de langues)
§ Mais dégradation des performances sur autre genre de texte
§ En particulier « contenu généré par utilisateur »
§ Problème général de la dépendance aux données d’apprentissage en apprentissage supervisé
§ Conclusion: l’analyse syntaxique reste très
Analyse automatique:
reconnaissance d’entités nommées (NER)
84
Analyse automatique: NER
§ Reconnaissance d’entités nommées (named-entity
recognition NER)
Analyse automatique: NER
§ Tâche mal définie sur le plan linguistique
§ En gros = repérer les noms propres
§ Typiquement utilisés pour des personnes, lieux, organisations, produits …
§ Parfois également les dates
§ => tout ce qui a une forme un peu spécifique
§ Le NER a bcp de succès car les « entités nommées » sont
§ des entités de discours importantes sur le plan sémantique
§ et … faciles à repérer
86
Analyse automatique: NER
§ Mais difficulté à définir précisément ce qu’est une entité nommée
§ notion d’entité de discours
§ notion de nom propre
Entités du discours
§ Un discours (un texte)
§ évoque des « entités du discours »
§ via des mentions = portions de texte évoquant une entité
§ => identifier les entités du discours semble indispensable à toute
« compréhension » du texte
88
Entités du discours
§ Un discours (un texte)
§ évoque des « entités du discours »
§ via des mentions = portions de texte évoquant une entité
§ => identifier les entités du discours semble indispensable à toute
« compréhension » du texte
§ Phénomène de coréférence : la même entité peut être évoquée par plusieurs mentions
Thierry Henry contre-attaque. Il s’est longuement exprimé sur RTL et L’Equipe lundi pour répondre à ses détracteurs... Depuis cinq jours que sa main
enflamme la planète football, les explications de Henry étaient lapidaires. Du coup, lundi, le capitaine des Bleus est passé à la contre-offensive. S’il y a bien une chose qui l'a révulsé, c’est le manque de soutien au plus fort de la
tempête.
Entités du discours: typologie
§ Les entités ont des caractéristiques très diverses
§ Qu'est-ce qui distingue les exemples en orange ci-dessous?
§ Un chat retombe toujours sur ses pattes.
§ J’ai adopté un chat.
§ Anna a acheté un livre vert.
§ Anna enseigne la physique quantique.
§ la destruction de l'immeuble a été décidée en conseil
§ Peter Pan est un petit garçon qui refuse de grandir.
§ Le fils de mon voisin est un petit garçon qui refuse de grandir.
§ J’ai vendu ma voiture. Elle me coûtait trop cher.
§ Je n’ai finalement pas acheté de voiture, elle m’ aurait coûté trop cher
90
Entités du discours: typologie
§ Les entités ont des caractéristiques très diverses
§ Générique ou spécifique
§ Un chat retombe toujours sur ses pattes.
§ J’ai adopté un chat.
§ abstraites, concrètes
§ Anna a un livre vert.
§ Anna a un courage impressionnant.
§ « réelles » ou imaginaires
§ Peter Pan est un petit garçon qui refuse de grandir.
§ existantes ou inexistantes
§ Peter Pan n’a finalement pas acheté de voiture, elle lui aurait coûté trop cher
§ un événement peut constituer une entité
§ noms évènementiels: funérailles, concert, destruction …
§ anaphore évènementielle:
§ - Marie Curie a aussi eu le prix Nobel de chimie.
Deux types de convention de nommage
§ Distinction classique entre « nom propre et nom commun »
§ nom commun : dans la majorité des cas, désigne une classe d’entités
§ les locuteurs apprennent une convention de nommage entre le nom et la classe d’entités
§ si on connaît le sens du nom, on peut l’appliquer à des entités auparavant inconnues, d'après leurs
caractéristiques
§ marteau, femme, funérailles
92
Deux types de convention de nommage
§ Distinction classique entre « nom propre et nom commun »
§ nom propre :
§ une convention de nommage spécifique entre un nom et une entité
§ convention qu’un locuteur doit apprendre pour chaque entité
§ certaines classes sémantiques reçoivent typiquement des noms propres
§ en particulier : noms de personnes, lieux, organisations
• Anna Duval, Massif Central, Ubisoft
§ également : noms d’artefact, noms d’évènements
• Windows, la guerre de cent ans
Deux types de convention de nommage
§ Distinction pas si simple
§ nom propre à base descriptive
§ le Jardin des Plantes
§ La Ligue Internationale Contre le Racisme et l'Antisémitisme
§ et nom d'entité unique
§ lune ou Lune
94
Analyse automatique: NER
§ « entités nommées » ont souvent une forme avec caractéristiques repérables aisément
§ conventions orthographiques : majuscule
§ syntaxe spécifique:
§ ex. personne = titre? + profession? + prénom? + nom
§ Mme la maire Céline de la Verrière
§ et sont d’un type sémantique « important » pour la compréhension
§ personnes, organisations, lieux…
Analyse automatique: NER
§ « entités nommées » ont souvent une forme avec caractéristiques repérables aisément
§ conventions orthographiques : majuscule
§ syntaxe spécifique:
§ ex. personne = titre? + profession? + prénom? + nom
§ Mme la maire Céline de la Verrière
§ et sont d’un type sémantique « important » pour la compréhension
§ personnes, organisations, lieux…
§ d’où tâche populaire, car à peu près faisable
§ anciennement : systèmes par règles
§ puis apprentissage supervisé
§ technique dominante: étiquetage de séquence
§ jeu de « tags » de type BIO (Begin Inside Outside)
Hier, Anna von Schön a commencé à travailler chez Ubisoft.
O B I I O O O O O B
96
Analyse automatique: coréférence
§ Résolution de coréférence (coreference resolution)
§ = repérer dans un texte les portions référant à la même entité du discours
Thierry Henry contre-attaque. Il s’est longuement exprimé sur RTL et L’Equipe lundi pour répondre à ses
détracteurs... Depuis cinq jours que sa main enflamme la planète football, les explications de Henry étaient
lapidaires. Du coup, lundi, le capitaine des Bleus est
passé à la contre-offensive. S’il y a bien une chose qui l'a révulsé, c’est le manque de soutien au plus fort de la
tempête.
Analyse automatique: WSD
§ Désambiguisation lexicale (word sense disambiguation WSD)
§ La liste comprend également des produits chimiques et des toxines.
§ On ne comprend pas pourquoi il a fait ça.
98