Analyse automatique de textes
42
Analyse automatique de textes
! But = produire automatiquement une représentation formelle d’un texte / de phrases
! => pour permettre des traitements informatiques
! But ultime: obtenir une représentation formelle du sens du texte
! Problème:
! Aucun consensus sur la façon de représenter le sens d’un texte
! mais desiderata: la représentation devrait permettre de faire toutes les inférences qu’un humain ferait à partir du contenu du texte
Exercice: Analyse idéale d’un texte
! Quand Elena Greco reçoit un coup de fil annonçant la disparition de son amie d’enfance Lila, cette sexagénaire italienne décide de raconter l’histoire de leur vie.
! Dans le Naples de la fin des années 50, dans un quartier pauvre de la ville, Lila, petite fille rebelle et rejetée par ses camarades, démontre un jour en classe des capacités exceptionnelles : elle a appris à lire et écrire seule. À partir de ce jour, Elena se met en tête de devenir son amie coûte que coûte, intriguée par sa
personnalité et ses connaissances.
! Afin de tester la loyauté et le cran d’Elena, Lila décide de jeter sa poupée dans la cave de Don Achille, le mafieux du quartier qu’elles voient comme un ogre. Elena en fait de même avec celle de sa nouvelle amie et après avoir tenté en vain de les récupérer dans la cave en question, elles décident de confronter Don Achille en personne. Lila et Elena l’accusent d’avoir volé leurs poupées, une frasque tout droit venue de l’imaginaire bouillonnant de Lila. Admirant certainement leur courage, Don Achille finit par leur donner un billet pour qu’elles s’en rachètent.
! (source: https://www.canalplus.com/articles/series/l-amie-prodigieuse-le-resume-des-episodes-1-et-2)
44
Exercice: Analyse idéale d’un texte
! Exercice:
! Imaginez comment représenter le sens de ce texte: quels concepts utiliser?
! Quelle représentation idéale permettrait de répondre aux questions suivantes:
! Questions dont la réponse est directement exprimée dans le texte
! Elena et Lila sont-elles amies d’enfance?
! Qui a disparu?
! Lila et Elena ont-elles récupéré leurs poupées dans la cave de Don Achille?
! Qu’est-ce que Lila a jeté dans la cave de Don Achille?
! Questions nécessitant des inférences
! Elena et Lila sont-elles sœurs?
! Don Achille a-t-il volé les poupées?
! Lila et Elena ont-elles de l’argent pour racheter des poupées?
Analyse automatique de textes
! Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment
! Approches neuronales capables d’obtenir de bons résultats par exemple en Question-réponse (QA)
! Par apprentissage supervisé
! Exemples d’apprentissage = paires
! Entrée = paragraphe+question
! Sortie = réponse
! Pb du manque de données annotées
46
Analyse automatique de textes
! Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment
! Approches neuronales capables d’obtenir de bons résultats par exemple en Question-réponse (QA)
! Par apprentissage supervisé
! Exemples d’apprentissage = paires
! Entrée = paragraphe+question
! Sortie = réponse
! Pb du manque de données annotées
! Mais :
! aucune représentation symbolique et donc interprétable du sens
Analyse automatique de textes
! Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment
! Approche symbolique:
! Pas de consensus sur la représentation sémantique visée
! Manque de ressources linguistiques
! Suffisamment couvrantes
! Multilingues
! Difficulté à gérer les ambiguïtés
! Rendre explicite le savoir nécessaire pour répondre aux questions est trop complexe
48
Analyse automatique de textes
! Des tâches moins ambitieuses fonctionnent bien
! qui construisent différents niveaux de représentation symbolique du texte
! On parle de « tâches de TAL »:
! Segmentation du texte en phrases et en mots
! Analyse morphologique
! Analyse syntaxique
! Analyse sémantique, dont:
! Désambiguisation lexicale
! Reconnaissance d’entités nommées
! Résolution de coréférences
! Voire construction d’une représentation (imparfaite) du sens de phrases/de discours
Analyse automatique de textes
! Des tâches moins ambitieuses fonctionnent bien
! qui construisent différents niveaux de représentation symbolique du texte
! On parle de « tâches de TAL »:
! Segmentation du texte en phrases et en mots
! Analyse morphologique
! Analyse syntaxique
! Analyse sémantique, dont:
! Désambiguisation lexicale
! Reconnaissance d’entités nommées
! Résolution de coréférences
! Voire construction d’une représentation (imparfaite) du sens de phrases/de discours
! Les méthodes neuronales, avec apprentissage par
transfert fonctionnent le mieux
50« Tâches » d’analyse automatique
Tâches d’analyse automatique
! Reconnaissance vocale / synthèse vocale
! non abordé dans ce cours
! on suppose partir d'une forme écrite
52
Analyse automatique: reconnaître les unités lexicales
! Tâche de base pour l’analyse automatique d’un texte:
! Segmenter le texte en phrases
! Segmenter les phrases en mots (ou « unités lexicales »)
Analyse automatique: reconnaître les unités lexicales
! Tâche de base pour l’analyse automatique d’un texte:
! Segmenter le texte en phrases
! Segmenter les phrases en mots (ou « unités lexicales »)
! Pas si simple, exemple:
« Le conducteur du poids lourd ne se rendait pas compte de sa vitesse. »
! Quels mots repérez-vous?
! Sous quelle forme sont-ils dans un dictionnaire?
54
Analyse automatique: reconnaître les unités lexicales
! « Tokenisation » versus reconnaissance des mots
! pour langues à séparateurs de mots
! segmentation sur caractères typographiques + exceptions
! on obtient une séquence de « tokens »
! Le / conducteur / du / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .
! = tâche de « tokenisation »
Analyse automatique: reconnaître les unités lexicales
! « Tokenisation » versus reconnaissance des mots
! pour langues à séparateurs de mots
! segmentation sur caractères typographiques + exceptions
! on obtient une séquence de « tokens »
! Le / conducteur / du / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .
! = tâche de « tokenisation »
! Éventuellement suivie de la reconnaissance de mots
! Le / conducteur / de+le / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .
! Amalgames: 1 token => n mots
! Expressions polylexicales: n tokens => 1 mot
56
Analyse automatique: reconnaître les unités lexicales
! « Tokenisation » versus reconnaissance des mots
! pour langues sans séparateur: complexe!
! 挑戰和挑戰性的中國⾵風
! Un ou plusieurs caractères peuvent constituer un mot, et ambiguïtés de segmentation
Expressions polylexicales
! Exemples
! cas continu ("mot composé") : poids lourd
! possiblement discontinu : mettre en garde
! Elle a mis tous les participants en garde contre une possible recrudescence de l'épidémie.
58
Expressions polylexicales
! Exemples
! cas continu ("mot composé") : poids lourd
! possiblement discontinu : mettre en garde
! Elle a mis tous les participants en garde contre une possible recrudescence de l'épidémie.
! Caractérisés par
! non compositionnalité sémantique
! leur sens n'est pas obtenu par une composition régulière des composants
! un poids lourd n'est pas un "poids qui est lourd"
! => doivent être repérés pour toute tâche d'ordre sémantique
Regroupements morphologiques de mots:
lemme
! 2 sens du mot « mot »
! les mots rencontrés dans les textes : mot-forme
! mangerait, fraises, éclatantes
! les « mots du dictionnaire » : mot-lemme
! manger, fraise, éclatant
! un mot-lemme est un ensemble de formes, qui ne varient que pour le nombre, genre, temps, personne, mode
! on parle de variation flexionnelle
! le nom « fraise » a 2 formes possibles : fraise et fraises
! le verbe « manger » a … 64 formes possibles : mange, manges, mangeons… mangèrent … mangiez …
60
Regroupements morphologiques de mots:
Lemme vs « radical »
! soit le mot-forme « indéchiffrables »
! lemme = indéchiffrable
! décomposition en affixes + radical
! = in / dé / chiffr / able
! « chiffr » est la racine ou le radical
! « in », « dé » sont des préfixes : précèdent le radical
! « able » est un suffixe : suit le radical
! rem: nombreux processus morphologiques plus complexes
! ex. langues sémitiques: transfixes à l’intérieur de racines consonantiques
! par exemple en arabe radical KTB : écrire
Regroupements morphologiques de mots:
« Familles » de mots
! Famille de mots : même radical
! construire, déconstruire, construction, constructeur …
! Noyau de sens commun
! Mais nombreuses irrégularités
! inexistence : planter => *déplanter
! restriction de sens : compter est ambigu => comptage ne l'est plus
62
Regroupements morphologiques de mots:
« Familles » de mots
! Famille de mots : même radical
! construire, déconstruire, construction, constructeur …
! Noyau de sens commun
! Mais nombreuses irrégularités
! inexistence : planter => *déplanter
! restriction de sens : compter est ambigu => comptage ne l'est plus
! à l’inverse: l’ensemble des mots-formes existant pour un même lemme est régulier
! sauf très rares exceptions: tout verbe admet une forme au futur, première personne du pluriel
! le sens de « futur, 1ère pers du pluriel » est stable
Regroupements morphologiques de mots:
lemmatisation versus racinisation
! Lemmatisation:
! construisaient => construire
! Peu d’ambiguïtés si on connaît la catégorie du mot
! Exemples d’ambiguïtés:
! fils
! suis
! ≠ Racinisation (« stemming »)
! déconstruction => « constr »
! construisaient => « constr »
! Beaucoup plus simple mais plus bruité
64
Analyse automatique: tagging
! Etiquetage morpho-syntaxique (part-of-speech tagging)
! = associer une catégorie morpho-syntaxique à un mot- token (une occurrence de mot)
! La thrombine joue un rôle mineur pendant le processus
! Il a une marque sur la joue.
Analyse automatique: tagging
! Qu’est-ce qu’une catégorie morpho-syntaxique?
! La fille regarde l’océan
! Essayez de remplacer chaque mot par d’autres, en préservant
! La grammaticalité de l’ensemble
! Le sens des mots non remplacés
66
Analyse automatique: tagging
! Qu’est-ce qu’une catégorie morpho-syntaxique?
! La fille regarde l’océan
! Essayez de remplacer chaque mot par d’autres, en préservant
! La grammaticalité de l’ensemble
! Le sens des mots non remplacés
! Remplacement de « la » => une, cette, sa, ma, ...
! => on vérifie que dans ~tous leurs contextes ces mots sont grammaticalement interchangeables
! => on obtient la catégorie Déterminant-fem-sing
! => en ignorant la flexion (genre nombre etc…)
! on peut regrouper avec le, ce, ces, mes, des, un ...
! => on obtient la catégorie « déterminant »
! Caractéristiques:
Analyse automatique: tagging
! Qu’est-ce qu’une catégorie morpho-syntaxique?
! une catégorie = ensemble de mots-lemmes pouvant apparaître ≈ dans les mêmes contextes
! on parle de partage de « distribution » = ens. des contextes formels possibles pour un mot
! NB: en préservant grammaticalité, pas forcément interprétabilité
! exemple: quels mots peuvent apparaître dans:
! Les XXX écrivent des romans.
! et leurs propriétés flexionnelles
! varient-ils en genre? en mode? en temps? etc…
! exemple: seuls les verbes varient en temps grammatical
68
Analyse automatique: tagging
! Quel intérêt d’expliciter les catégories ?
! => pouvoir de généralisation
! par ex. en FR:
! toute séquence Det N Vtrans Det N sera grammaticale