• Aucun résultat trouvé

Analyse automatique de textes

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse automatique de textes"

Copied!
28
0
0

Texte intégral

(1)

Analyse automatique de textes

42

(2)

Analyse automatique de textes

!  But = produire automatiquement une représentation formelle d’un texte / de phrases

!  => pour permettre des traitements informatiques

!  But ultime: obtenir une représentation formelle du sens du texte

!  Problème:

! Aucun consensus sur la façon de représenter le sens d’un texte

! mais desiderata: la représentation devrait permettre de faire toutes les inférences qu’un humain ferait à partir du contenu du texte

(3)

Exercice: Analyse idéale d’un texte

!  Quand Elena Greco reçoit un coup de fil annonçant la disparition de son amie d’enfance Lila, cette sexagénaire italienne décide de raconter l’histoire de leur vie.

!  Dans le Naples de la fin des années 50, dans un quartier pauvre de la ville, Lila, petite fille rebelle et rejetée par ses camarades, démontre un jour en classe des capacités exceptionnelles : elle a appris à lire et écrire seule. À partir de ce jour, Elena se met en tête de devenir son amie coûte que coûte, intriguée par sa

personnalité et ses connaissances.

!  Afin de tester la loyauté et le cran d’Elena, Lila décide de jeter sa poupée dans la cave de Don Achille, le mafieux du quartier qu’elles voient comme un ogre. Elena en fait de même avec celle de sa nouvelle amie et après avoir tenté en vain de les récupérer dans la cave en question, elles décident de confronter Don Achille en personne. Lila et Elena l’accusent d’avoir volé leurs poupées, une frasque tout droit venue de l’imaginaire bouillonnant de Lila. Admirant certainement leur courage, Don Achille finit par leur donner un billet pour qu’elles s’en rachètent. 

!  (source: https://www.canalplus.com/articles/series/l-amie-prodigieuse-le-resume-des-episodes-1-et-2)

44

(4)

Exercice: Analyse idéale d’un texte

!  Exercice:

!  Imaginez comment représenter le sens de ce texte: quels concepts utiliser?

!  Quelle représentation idéale permettrait de répondre aux questions suivantes:

!  Questions dont la réponse est directement exprimée dans le texte

!  Elena et Lila sont-elles amies d’enfance?

!  Qui a disparu?

!  Lila et Elena ont-elles récupéré leurs poupées dans la cave de Don Achille?

!  Qu’est-ce que Lila a jeté dans la cave de Don Achille?

!  Questions nécessitant des inférences

!  Elena et Lila sont-elles sœurs?

!  Don Achille a-t-il volé les poupées?

!  Lila et Elena ont-elles de l’argent pour racheter des poupées?

(5)

Analyse automatique de textes

!  Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment

!  Approches neuronales capables d’obtenir de bons résultats par exemple en Question-réponse (QA)

! Par apprentissage supervisé

!  Exemples d’apprentissage = paires

!  Entrée = paragraphe+question

!  Sortie = réponse

!  Pb du manque de données annotées

46

(6)

Analyse automatique de textes

!  Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment

!  Approches neuronales capables d’obtenir de bons résultats par exemple en Question-réponse (QA)

! Par apprentissage supervisé

!  Exemples d’apprentissage = paires

!  Entrée = paragraphe+question

!  Sortie = réponse

!  Pb du manque de données annotées

! Mais :

!  aucune représentation symbolique et donc interprétable du sens

(7)

Analyse automatique de textes

!  Ni l’approche symbolique, ni l’approche neuronale ne fonctionnent vraiment

!  Approche symbolique:

! Pas de consensus sur la représentation sémantique visée

! Manque de ressources linguistiques

!  Suffisamment couvrantes

!  Multilingues

! Difficulté à gérer les ambiguïtés

! Rendre explicite le savoir nécessaire pour répondre aux questions est trop complexe

48

(8)

Analyse automatique de textes

!  Des tâches moins ambitieuses fonctionnent bien

!  qui construisent différents niveaux de représentation symbolique du texte

!  On parle de « tâches de TAL »:

!  Segmentation du texte en phrases et en mots

!  Analyse morphologique

!  Analyse syntaxique

!  Analyse sémantique, dont:

!  Désambiguisation lexicale

!  Reconnaissance d’entités nommées

!  Résolution de coréférences

!  Voire construction d’une représentation (imparfaite) du sens de phrases/de discours

(9)

Analyse automatique de textes

!  Des tâches moins ambitieuses fonctionnent bien

!  qui construisent différents niveaux de représentation symbolique du texte

!  On parle de « tâches de TAL »:

!  Segmentation du texte en phrases et en mots

!  Analyse morphologique

!  Analyse syntaxique

!  Analyse sémantique, dont:

!  Désambiguisation lexicale

!  Reconnaissance d’entités nommées

!  Résolution de coréférences

!  Voire construction d’une représentation (imparfaite) du sens de phrases/de discours

!  Les méthodes neuronales, avec apprentissage par

transfert fonctionnent le mieux

50

(10)

« Tâches » d’analyse automatique

(11)

Tâches d’analyse automatique

!  Reconnaissance vocale / synthèse vocale

!  non abordé dans ce cours

!  on suppose partir d'une forme écrite

52

(12)

Analyse automatique: reconnaître les unités lexicales

!  Tâche de base pour l’analyse automatique d’un texte:

!  Segmenter le texte en phrases

!  Segmenter les phrases en mots (ou « unités lexicales »)

(13)

Analyse automatique: reconnaître les unités lexicales

!  Tâche de base pour l’analyse automatique d’un texte:

!  Segmenter le texte en phrases

!  Segmenter les phrases en mots (ou « unités lexicales »)

!  Pas si simple, exemple:

« Le conducteur du poids lourd ne se rendait pas compte de sa vitesse. »

!  Quels mots repérez-vous?

!  Sous quelle forme sont-ils dans un dictionnaire?

54

(14)

Analyse automatique: reconnaître les unités lexicales

!  « Tokenisation » versus reconnaissance des mots

!  pour langues à séparateurs de mots

!  segmentation sur caractères typographiques + exceptions

!  on obtient une séquence de « tokens »

!  Le / conducteur / du / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .

!  = tâche de « tokenisation »

(15)

Analyse automatique: reconnaître les unités lexicales

!  « Tokenisation » versus reconnaissance des mots

!  pour langues à séparateurs de mots

!  segmentation sur caractères typographiques + exceptions

!  on obtient une séquence de « tokens »

!  Le / conducteur / du / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .

!  = tâche de « tokenisation »

!  Éventuellement suivie de la reconnaissance de mots

!  Le / conducteur / de+le / poids / lourd / ne / se / rendait / pas / compte / de / sa / vitesse/ .

!  Amalgames: 1 token => n mots

!  Expressions polylexicales: n tokens => 1 mot

56

(16)

Analyse automatique: reconnaître les unités lexicales

!  « Tokenisation » versus reconnaissance des mots

!  pour langues sans séparateur: complexe!

!  挑戰和挑戰性的中國⾵風

!  Un ou plusieurs caractères peuvent constituer un mot, et ambiguïtés de segmentation

(17)

Expressions polylexicales

!  Exemples

!  cas continu ("mot composé") : poids lourd

!  possiblement discontinu : mettre en garde

! Elle a mis tous les participants en garde contre une possible recrudescence de l'épidémie.

58

(18)

Expressions polylexicales

!  Exemples

!  cas continu ("mot composé") : poids lourd

!  possiblement discontinu : mettre en garde

!  Elle a mis tous les participants en garde contre une possible recrudescence de l'épidémie.

!  Caractérisés par

!  non compositionnalité sémantique

!  leur sens n'est pas obtenu par une composition régulière des composants

!  un poids lourd n'est pas un "poids qui est lourd"

!  => doivent être repérés pour toute tâche d'ordre sémantique

(19)

Regroupements morphologiques de mots:

lemme

!  2 sens du mot « mot »

!  les mots rencontrés dans les textes : mot-forme

! mangerait, fraises, éclatantes

!  les « mots du dictionnaire » : mot-lemme

! manger, fraise, éclatant

! un mot-lemme est un ensemble de formes, qui ne varient que pour le nombre, genre, temps, personne, mode

!  on parle de variation flexionnelle

!  le nom « fraise » a 2 formes possibles : fraise et fraises

!  le verbe « manger » a … 64 formes possibles : mange, manges, mangeons… mangèrent … mangiez …

60

(20)

Regroupements morphologiques de mots:

Lemme vs « radical »

!  soit le mot-forme « indéchiffrables »

!  lemme = indéchiffrable

!  décomposition en affixes + radical

!  = in / dé / chiffr / able

! « chiffr » est la racine ou le radical

! « in », « dé » sont des préfixes : précèdent le radical

! « able » est un suffixe : suit le radical

!  rem: nombreux processus morphologiques plus complexes

! ex. langues sémitiques: transfixes à l’intérieur de racines consonantiques

!  par exemple en arabe radical KTB : écrire

(21)

Regroupements morphologiques de mots:

« Familles » de mots

!  Famille de mots : même radical

!  construire, déconstruire, construction, constructeur …

!  Noyau de sens commun

!  Mais nombreuses irrégularités

! inexistence : planter => *déplanter

! restriction de sens : compter est ambigu => comptage ne l'est plus

62

(22)

Regroupements morphologiques de mots:

« Familles » de mots

!  Famille de mots : même radical

!  construire, déconstruire, construction, constructeur …

!  Noyau de sens commun

!  Mais nombreuses irrégularités

!  inexistence : planter => *déplanter

!  restriction de sens : compter est ambigu => comptage ne l'est plus

!  à l’inverse: l’ensemble des mots-formes existant pour un même lemme est régulier

!  sauf très rares exceptions: tout verbe admet une forme au futur, première personne du pluriel

!  le sens de « futur, 1ère pers du pluriel » est stable

(23)

Regroupements morphologiques de mots:

lemmatisation versus racinisation

!  Lemmatisation:

!  construisaient => construire

!  Peu d’ambiguïtés si on connaît la catégorie du mot

!  Exemples d’ambiguïtés:

!  fils

! suis

!  ≠ Racinisation (« stemming »)

!  déconstruction => « constr »

!  construisaient => « constr »

!  Beaucoup plus simple mais plus bruité

64

(24)

Analyse automatique: tagging

!  Etiquetage morpho-syntaxique (part-of-speech tagging)

!  = associer une catégorie morpho-syntaxique à un mot- token (une occurrence de mot)

!  La thrombine joue un rôle mineur pendant le processus

!  Il a une marque sur la joue.

(25)

Analyse automatique: tagging

!  Qu’est-ce qu’une catégorie morpho-syntaxique?

!  La fille regarde l’océan

!  Essayez de remplacer chaque mot par d’autres, en préservant

! La grammaticalité de l’ensemble

!  Le sens des mots non remplacés

66

(26)

Analyse automatique: tagging

!  Qu’est-ce qu’une catégorie morpho-syntaxique?

!  La fille regarde l’océan

!  Essayez de remplacer chaque mot par d’autres, en préservant

! La grammaticalité de l’ensemble

!  Le sens des mots non remplacés

!  Remplacement de « la » => une, cette, sa, ma, ...

!  => on vérifie que dans ~tous leurs contextes ces mots sont grammaticalement interchangeables

!  => on obtient la catégorie Déterminant-fem-sing

!  => en ignorant la flexion (genre nombre etc…)

!  on peut regrouper avec le, ce, ces, mes, des, un ...

!  => on obtient la catégorie « déterminant »

!  Caractéristiques:

(27)

Analyse automatique: tagging

!  Qu’est-ce qu’une catégorie morpho-syntaxique?

!  une catégorie = ensemble de mots-lemmes pouvant apparaître ≈ dans les mêmes contextes

!  on parle de partage de « distribution » = ens. des contextes formels possibles pour un mot

! NB: en préservant grammaticalité, pas forcément interprétabilité

! exemple: quels mots peuvent apparaître dans:

!  Les XXX écrivent des romans.

!  et leurs propriétés flexionnelles

! varient-ils en genre? en mode? en temps? etc…

!  exemple: seuls les verbes varient en temps grammatical

68

(28)

Analyse automatique: tagging

!  Quel intérêt d’expliciter les catégories ?

!  => pouvoir de généralisation

!  par ex. en FR:

!  toute séquence Det N Vtrans Det N sera grammaticale

Références

Documents relatifs

Sony a également annoncé qu'il se lancerait directement sur le marché du jeu sur portable. Sa PlayStation Suite 20 distribuera d'anciens jeux pour.. PlayStation 21 One 22 pour

Dans ce contexte, l’indexation d’un document (par sa représentation textuelle) ou d’une requête passent par le même mécanisme d’analyse dans SIMBAD. « Système d’Indexation

Ce scénario décrit les processus qui surviennent lors des interventions de maintenance précédant généralement un avis de panne pour un objet technique (vous avez également

Au sein du dernier plan-pivot, la voix extra-diégétique cède au son direct : nous sommes dans l’appartement de Rosie et Felcher lui offre son cadeau.. Il s’agit

Mettons que l'ensemble I soit un en- semble de textes (dont on accepte pour l'instant le découpage), reste àchoisir J et définir les k(i,j). Il est commun de prendre pour J un

La narratrice de Amie D’Enfance, écrit le lendemain d’une rencontre, après 37 ans de séparation avec celle qui a continué, malgré les années, à occuper une

Dans le cadre initial de l’approche thématique, il s’agissait d’observer les relations entre les formes des lexèmes réguliers et de les comparer avec celles des lexèmes

Parce que le conseil de surveillance est le gardien des intérêts de ses mandants et que ses orientations de gestion engagent sa responsabilité, son fonctionnement s’ap- puierait