Statistiques pour la linguistique

(1)

Statistiques pour la linguistique

Damien Nouvel

Damien Nouvel (Inalco) Prétraitements de corpus 1 / 21

(2)

Prétraitements

Plan

1. Prétraitements

2. Annotation morpho-syntaxique 3. Statistiques textuelles

(3)

Prétraitements

Données du corpus

§ Corpus comme ensemble de documents (ou parties)

§ Deux éléments

‚ Le contenu (diverses structures)

ñ Le titre, le résumé sont-ils du contenu ou des métadonnées ?

‚ Lesmétadonnées :

‚ Auteur

‚ Date de création

‚ Mots-clés

‚ Thèmes

‚ ...

§ Focale sur le contenu commetexte brut :

‚ Séquence de caractères UTF-8 àsegmenter en tokens

‚ En général, aucune prise en compte de la mise en page ñ Un document, un fichier doc1.txt

ñ Prétraitements pour accéder à la linguistique ñ Suite de tokens porteurs de sens

(4)

Prétraitements

Données du corpus

§ Deux éléments

‚ Le contenu(diverses structures)

‚ Auteur

‚ Mots-clés

‚ Thèmes

‚ ...

‚ En général, aucune prise en compte de la mise en page ñ Un document, un fichier doc1.txt

(5)

Prétraitements

Données du corpus

§ Deux éléments

‚ Auteur

‚ Mots-clés

‚ Thèmes

‚ ...

‚ En général, aucune prise en compte de la mise en page

ñ Un document, un fichier doc1.txt

(6)

Prétraitements

Données du corpus

§ Deux éléments

‚ Auteur

‚ Mots-clés

‚ Thèmes

‚ ...

(7)

Prétraitements

Segmentation

§ Séparer un texte (en phrases puis) en mots, les tokens

§ Difficultés pour le français :

‚ Clitiques, locutions, expressions polylexicales

‚ Expressions polylexicales (cf Aldebert « Mots mélangés ») ñ Utilisation d’automates et de probabilités

ñ Utilisation répandue de TreeTagger

ñ En python, dans des librairies (NLTK, etc.)

(8)

Prétraitements

Segmentation

(9)

Prétraitements

Segmentation

(10)

Prétraitements

Représentation séquentielle

§ Notations

‚ Séquence:xc₁,c₂. . .c_ny

‚ Item:c₁ élément de la séquence

ñ Séquence de lettres, de mots, de caractères

§ Exemple “Il m’a parlé du porte-avions Charles de Gaulle” Il m’a parlé du porte- avions Charles de Gaulle

Il m’ a parlé du porte- avions Charles de Gaulle

Il m’ a parlé du porte-avions Charles de Gaulle

(11)

Prétraitements

Représentation séquentielle

§ Notations

‚ Séquence:xc₁,c₂. . .c_ny

‚ Item:c₁ élément de la séquence

ñ Séquence de lettres, de mots, de caractères

§ Exemple “Il m’a parlé du porte-avions Charles de Gaulle”

Il m’a parlé du porte- avions Charles de Gaulle

Il m’ a parlé du porte- avions Charles de Gaulle

Il m’ a parlé du porte-avions Charles de Gaulle

(12)

Prétraitements

Ambiguïtés et graphes

§ Formalisme pour les ambiguïtés :

‚ Nœud : mot ou suite de mots

‚ Arc (flèche) : choix d’un chemin

ñ Chemin est une analyse possible ñ Combinatoire des analyses

Il

m’ a

m’a

parlé du

porte- avions

porte-avions

Charles de Gaulle

(13)

Prétraitements

Ambiguïtés et graphes

§ Formalisme pour les ambiguïtés :

‚ Nœud : mot ou suite de mots

‚ Arc (flèche) : choix d’un chemin

ñ Chemin est une analyse possible ñ Combinatoire des analyses

Il

m’ a

m’a

parlé du

porte- avions

porte-avions

Charles de Gaulle

(14)

Prétraitements

Autres représentations

§ De nombreuses autres représentations possibles :

‚ Sacs de mots (Bag of Words)

‚ N-grammes

‚ Syntagmes (chunking)

‚ Arbres syntaxiques (constituants)

‚ Graphes de dépendances

‚ Chaînes de coréférence

‚ Cadres sémantiques (frames)

‚ ...

ñ Et pour chacune, N possibilités pour faire des statistiques …

(15)

Prétraitements

Utilisation des lexiques

§ Objectifs multiples :

‚ Catégoriser les mots (morphologie, syntaxe, etc.)

‚ Affecter desclasses sémantiquesaux tokens

‚ Constituer ou exploiter une terminologie

‚ Normalisation de termes ou d’entités ñ Inventaire de mots, d’expressions

ñ Reconnaissance par automates déterministes ñ Plongements de mots (embeddings)

§ Difficultés rencontrées avec les lexiques

‚ Synonymie: plusieurs mots pour un même sens ñ Agrandir la taille du lexique

‚ Homonymie: un unité typographique a plusieurs sens ñ Ambiguïté inhérente de l’unité :contextualisation

‚ Métonymie: le sens d’un mot est détourné par le contexte ñ Difficile à détecter :contextualisation sémantique

(16)

Prétraitements

TAL vs textométrie

§ Traitement automatique des langues

‚ Automatisation de traitements sur des textes

‚ Tâches prédictives

‚ Objectif opérationnel et robuste

§ Textométrie / lexicométrie / analyse du discours

‚ Analyses pour la linguistique

‚ Focale sur les données brutes (non-corrigées)

‚ Interprétation par l’humain

(17)

Annotation morpho-syntaxique

Plan

1. Prétraitements

(18)

La catégorisation morpho-syntaxique

§ Affecter des catégories morpho-syntaxiques aux tokens

§ Un choix toujours ambigü

‚ Selon le lexique

‚ Selon le corpus d’entraînement

‚ Selon l’approcheutilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte

§ Pour une phrase de n tokens ăm₁. . .m_n ą, étiquettes associées ăe₁. . .e_n ąles plus vraisemblables

ñ max_ăe₁_...e_n_ąP(ăe₁. . .e_n ą | ăm₁. . .m_n ą)

§ Corpus étiqueté (TreeTagger) au format “Brown corpus” : Passepartout/NAM demeura/VER seul/ADJ dans/PRP la/DET maison/NOM de/PRP Saville-row/NAM ./SENT

(19)

La catégorisation morpho-syntaxique

ñ max_ăe₁_...e_n_ąP(ăe₁. . .e_n ą | ăm₁. . .m_n ą)

(20)

La catégorisation morpho-syntaxique

ñ max_ăe₁_...e_n_ąP(ăe₁. . .e_ną | ă m₁. . .m_n ą)

(21)

La catégorisation morpho-syntaxique

ñ max_ăe₁_...e_n_ąP(ăe₁. . .e_ną | ă m₁. . .m_n ą)

(22)

Etiquetage par classes majoritaires

§ Hypothèse d’indépendance sur les mots et les étiquettes : ñ P(ăe₁. . .e_n ą | ăm₁. . .m_n ą) = ś

iP(e_i|m_i)

§ Statistiques simples :

‚ Fréquences des motsF(m)

‚ Fréquences des étiquettesF(e)

‚ Fréquence desassociations mots-étiquettes F(m,e)

§ Étiquette qui maximise la probabilité sachant le mot :

‚ Pour un mot donné, P(e|m) = ^P(e,m)_P(m)

‚ Or (corpus de taille N),P(e,m) = ^F(m,e)_N etP(m) = ^F(m)_N

‚ Comparaisons pour unm donné :F(m)n’a pas d’influence ñ Pour un mot, étiquette “majoritaire”:max_eF(m,e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]

(23)

Etiquetage par classes majoritaires

iP(e_i|m_i)

‚ Comparaisons pour unm donné :F(m)n’a pas d’influence ñ Pour un mot, étiquette “majoritaire”:max_eF(m,e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]

(24)

Etiquetage par classes majoritaires

iP(e_i|m_i)

me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]

(25)

Etiquetage par classes majoritaires

iP(e_i|m_i)

‚ Comparaisons pour unm donné :F(m)n’a pas d’influence ñ Pour un mot, étiquette “majoritaire”:max_eF(m,e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}}

e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]

(26)

Utilisation des n-grammes

§ N-grammes :

‚ Sous-séquences de taillen

‚ Pour une séquence xe₁. . .e_nx, il y a :

‚ nunigrammes :txe1x,xe2x. . .xenxu

‚ n´1bigrammes :txe1,e2x,xe2,e3x. . .xen´1,enxu

‚ n´2trigrammes :txe1,e2,e3x,xe2,e3,e4x. . .xen´2,en´1,enxu

‚ etc.

ñ Statistiques sur les successions d’éléments

(27)

Modèle de Markov Caché

ñ Quelle suite d’états a pu “générer” la phrase mot à mot ?

§ Décomposition de la probabilité :

‚ Approchebayésienne :

ñ P(xe₁. . .e_ny|xm₁. . .m_ny) = P(x(e₁,m₁). . .(e_n,m_n)y) P(xm₁. . .m_ny)

‚ Hypothèse markoviennede contexte limité : ñ P(ă(e₁,m₁). . .(e_n,m_n)ą=P(e₁,m₁)˚ś

iP(e_i,m_i|e_i´1)

‚ Vraisemblance selon les générationsettransitions : ñ P(e_i,m_i|e_i´1)„P(e_i|e_i´1)˚P(m_i|e_i)

§ Ajout des statistiques :

‚ D’émission des mots :P(m|e) = ^F(m,e)_F(e)

‚ Detransitiond’étiquettes (bigrammes : P(e₁|e₂) = ^F(e_F(e¹^,e²⁾

2)

§ Suite d’étiquettes qui maximise la probabilité de génération : ñ max_ăe₁_...e_n_ąP(m₁|e₁)˚ś

i=1...nP(e_i|e_i´1)˚P(m_i|e_i)

(28)

Modèle de Markov Caché

iP(e_i,m_i|e_i´1)

2)

i=1...nP(e_i|e_i´1)˚P(m_i|e_i)

(29)

Modèle de Markov Caché

iP(e_i,m_i|e_i´1)

2)

i=1...nP(e_i|e_i´1)˚P(m_i|e_i)

(30)

Modèle de Markov Caché

iP(e_i,m_i|e_i´1)

‚ D’émission des mots :P(m|e) = ^F(m,e)

(31)

Statistiques textuelles

Plan

1. Prétraitements

(32)

Représentation matricielle

§ Hypothèses

‚ Corpus séparé endocuments et/ou parties

‚ Textes déjà segmentés (tokenisés)

‚ Corpus : matrice termes par documents, sacs de mots

§ Fréquences des termes dans les documents t₁ t₂ t₃ … d₁ f₁₁ f₁₂ f₁₃ … d₂ f₂₁ f₂₂ f₂₃ … d₃ f₃₁ f₃₂ f₃₃ …

… … … … …

ñ Vector Space Model

§ Forme matricielle : calculs statistiques facilités

‚ Taille totale ou moyenne des documents

‚ Fréquence totale ou moyenne d’un terme

‚ Coocurrences des termes dans les documents

(33)

Représentation matricielle

§ Hypothèses

… … … … …

§ Forme matricielle : calculs statistiques facilités

‚ Taille totale ou moyenne des documents

‚ Fréquence totale ou moyenne d’un terme

‚ Coocurrences des termes dans les documents

(34)

Représentation matricielle

§ Hypothèses

… … … … …

(35)

Loi normale

§ Principes généraux

‚ Aucun apriorisur la répartition des données

‚ Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes

§ Formule : P(X=x) = 1 σx

?2πexp (

´(x´µx)² 2σ_x²

)

§ Courbe (µ_x= 5,σ_x = 2) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(36)

Loi normale

§ Formule : P(X=x) = 1 σx

?2πexp (

´(x´µx)² 2σ_x²

)

§ Courbe (µ_x= 5,σ_x = 2) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(37)

Loi normale

§ Formule : P(X=x) = 1 σ_x?

2πexp (

´(x´µx)² 2σ_x²

)

§ Courbe (µ_x= 5,σ_x = 2) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(38)

Loi normale

§ Formule : P(X=x) = 1 σ_x?

2πexp (

´(x´µx)² 2σ_x²

)

§ Courbe (µ_x= 5,σ_x = 2) :

0.4

P(X)

(39)

Loi binomiale

‚ Répétition d’une épreuve nfois avec remise

‚ Combien de « succès » ?

ñ Entre0 etn, selon la probabilité

‚ Paramètres : probabilitép, répétitionn

§ Formule : P(X=k) = (_n

k

)p^k(1´p)^n´k

§ Courbe (p= 0,3, n= 10) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(40)

Loi binomiale

‚ Répétition d’une épreuven fois avec remise

§ Formule : P(X=k) = (_n

k

)p^k(1´p)^n´k

§ Courbe (p= 0,3, n= 10) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(41)

Loi binomiale

§ Formule : P(X=k) = (_n

k

)p^k(1´p)^n´k

§ Courbe (p= 0,3, n= 10) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(42)

Loi binomiale

§ Formule : P(X=k) = (_n

k

)p^k(1´p)^n´k

§ Courbe (p= 0,3, n= 10) :

0.4

P(X)

(43)

Loi hypergéométrique

‚ Répétition d’une épreuven fois sans remise

ñ Entre0 etn, avec une probabilité décroissante

‚ Paramètres : probabilitép, répétitionn, nombre total N

§ Formule : P(X=k) = (_pN

k

)˚(_(1´p)N

n´k

)/(_N

n

)

§ Courbe (p= 0,3, n= 10, N= 20) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(44)

Loi hypergéométrique

§ Formule : P(X=k) = (_pN

k

)˚(_(1´p)N

n´k

)/(_N

n

)

§ Courbe (p= 0,3, n= 10, N= 20) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(45)

Loi hypergéométrique

§ Formule : P(X=k) = (_pN

k

)˚(_(1´p)N

n´k

)/(_N

n

)

§ Courbe (p= 0,3, n= 10, N= 20) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(46)

Loi hypergéométrique

§ Formule : P(X=k) = (_pN

k

)˚(_(1´p)N

n´k

)/(_N

n

)

§ Courbe (p= 0,3, n= 10,N= 20) :

0.4

P(X)

(47)

Calcul des spécificités

§ Statistique sur les fréquences des termes par partie

‚ Formule sur la matrice termes / documents (parties)

‚ fij(fréquence dans une partieid’un terme j)

‚ T=ř

ijfij(taille totale du corpus)

‚ di=ř

jfij(taille d’une partie i)

‚ tj=ř

ifij (nombre total d’occurence du termej ñ P(fij=k) =

(_t_j

k

)˚(_T_´_t_j

di´k

) (_T

di

)

§ Spécificités pour la partie au regard du corpus

‚ Probabilité faible (fréquence inattendue) par seuil(0,05)

‚ Spécificitéspositives : fréquence forte, sur-représentation

‚ Spécificitésnégatives: fréquence faible, sous-représentation ñ Permet de caractériser la sous-partie du corpus

§ On peut travailler sur plusieurs partitions du corpus

(48)

Calcul des spécificités

‚ T=ř

‚ di=ř

‚ tj=ř

(_t_j

k

)˚(_T_´_t_j

di´k

) (_T

di

)

‚ Probabilité faible (fréquence inattendue) par seuil(0,05)

(49)

Calcul des spécificités

‚ T=ř

‚ di=ř

‚ tj=ř

(_t_j

k

)˚(_T_´_t_j

di´k

) (_T

di

)

‚ Probabilité faible (fréquence inattendue) parseuil (0,05)

‚ Spécificitésnégatives: fréquence faible, sous-représentation

ñ Permet de caractériser la sous-partie du corpus

(50)

Calcul des spécificités

‚ T=ř

‚ di=ř

‚ tj=ř

(_t_j

k

)˚(_T_´_t_j

di´k

) (_T

di

)

(51)

Calcul des spécificités

‚ T=ř

‚ di=ř

‚ tj=ř

(_t_j

k

)˚(_T_´_t_j

di´k

) (_T

di

)

(52)

Utilisation de la textométrie

§ Recherche des termes caractéristiques par sous-partie ñ Fréquence plus importante que celle attendue

ñ Probabilité de cette fréquence faible ñ Permet de caractériser la sous-partie

§ Contraste de parties d’un corpus

‚ Par date

‚ Par auteur

‚ Par thème

‚ …

(53)

Utilisation de la textométrie

§ Recherche des termes caractéristiques par sous-partie ñ Fréquence plus importante que celle attendue

ñ Probabilité de cette fréquence faible ñ Permet de caractériser la sous-partie

§ Contraste de parties d’un corpus

‚ Par date

‚ Par auteur

‚ Par thème

‚ …