Statistiques pour la linguistique
Damien Nouvel
Damien Nouvel (Inalco) Prétraitements de corpus 1 / 21
Prétraitements
Plan
1. Prétraitements
2. Annotation morpho-syntaxique 3. Statistiques textuelles
Prétraitements
Données du corpus
§ Corpus comme ensemble de documents (ou parties)
§ Deux éléments
‚ Le contenu (diverses structures)
ñ Le titre, le résumé sont-ils du contenu ou des métadonnées ?
‚ Lesmétadonnées :
‚ Auteur
‚ Date de création
‚ Mots-clés
‚ Thèmes
‚ ...
§ Focale sur le contenu commetexte brut :
‚ Séquence de caractères UTF-8 àsegmenter en tokens
‚ En général, aucune prise en compte de la mise en page ñ Un document, un fichier doc1.txt
ñ Prétraitements pour accéder à la linguistique ñ Suite de tokens porteurs de sens
Damien Nouvel (Inalco) Prétraitements de corpus 3 / 21
Prétraitements
Données du corpus
§ Corpus comme ensemble de documents (ou parties)
§ Deux éléments
‚ Le contenu(diverses structures)
ñ Le titre, le résumé sont-ils du contenu ou des métadonnées ?
‚ Lesmétadonnées :
‚ Auteur
‚ Date de création
‚ Mots-clés
‚ Thèmes
‚ ...
§ Focale sur le contenu commetexte brut :
‚ Séquence de caractères UTF-8 àsegmenter en tokens
‚ En général, aucune prise en compte de la mise en page ñ Un document, un fichier doc1.txt
ñ Prétraitements pour accéder à la linguistique ñ Suite de tokens porteurs de sens
Prétraitements
Données du corpus
§ Corpus comme ensemble de documents (ou parties)
§ Deux éléments
‚ Le contenu(diverses structures)
ñ Le titre, le résumé sont-ils du contenu ou des métadonnées ?
‚ Lesmétadonnées :
‚ Auteur
‚ Date de création
‚ Mots-clés
‚ Thèmes
‚ ...
§ Focale sur le contenu commetexte brut :
‚ Séquence de caractères UTF-8 àsegmenter en tokens
‚ En général, aucune prise en compte de la mise en page
ñ Un document, un fichier doc1.txt
ñ Prétraitements pour accéder à la linguistique ñ Suite de tokens porteurs de sens
Damien Nouvel (Inalco) Prétraitements de corpus 3 / 21
Prétraitements
Données du corpus
§ Corpus comme ensemble de documents (ou parties)
§ Deux éléments
‚ Le contenu(diverses structures)
ñ Le titre, le résumé sont-ils du contenu ou des métadonnées ?
‚ Lesmétadonnées :
‚ Auteur
‚ Date de création
‚ Mots-clés
‚ Thèmes
‚ ...
§ Focale sur le contenu commetexte brut :
‚ Séquence de caractères UTF-8 àsegmenter en tokens
Prétraitements
Segmentation
§ Séparer un texte (en phrases puis) en mots, les tokens
§ Difficultés pour le français :
‚ Clitiques, locutions, expressions polylexicales
‚ Expressions polylexicales (cf Aldebert « Mots mélangés ») ñ Utilisation d’automates et de probabilités
ñ Utilisation répandue de TreeTagger
ñ En python, dans des librairies (NLTK, etc.)
Damien Nouvel (Inalco) Prétraitements de corpus 4 / 21
Prétraitements
Segmentation
§ Séparer un texte (en phrases puis) en mots, les tokens
§ Difficultés pour le français :
‚ Clitiques, locutions, expressions polylexicales
‚ Expressions polylexicales (cf Aldebert « Mots mélangés ») ñ Utilisation d’automates et de probabilités
ñ Utilisation répandue de TreeTagger
ñ En python, dans des librairies (NLTK, etc.)
Prétraitements
Segmentation
§ Séparer un texte (en phrases puis) en mots, les tokens
§ Difficultés pour le français :
‚ Clitiques, locutions, expressions polylexicales
‚ Expressions polylexicales (cf Aldebert « Mots mélangés ») ñ Utilisation d’automates et de probabilités
ñ Utilisation répandue de TreeTagger
ñ En python, dans des librairies (NLTK, etc.)
Damien Nouvel (Inalco) Prétraitements de corpus 4 / 21
Prétraitements
Représentation séquentielle
§ Notations
‚ Séquence:xc1,c2. . .cny
‚ Item:c1 élément de la séquence
ñ Séquence de lettres, de mots, de caractères
§ Exemple “Il m’a parlé du porte-avions Charles de Gaulle” Il m’a parlé du porte- avions Charles de Gaulle
Il m’ a parlé du porte- avions Charles de Gaulle
Il m’ a parlé du porte-avions Charles de Gaulle
Prétraitements
Représentation séquentielle
§ Notations
‚ Séquence:xc1,c2. . .cny
‚ Item:c1 élément de la séquence
ñ Séquence de lettres, de mots, de caractères
§ Exemple “Il m’a parlé du porte-avions Charles de Gaulle”
Il m’a parlé du porte- avions Charles de Gaulle
Il m’ a parlé du porte- avions Charles de Gaulle
Il m’ a parlé du porte-avions Charles de Gaulle
Damien Nouvel (Inalco) Prétraitements de corpus 5 / 21
Prétraitements
Ambiguïtés et graphes
§ Formalisme pour les ambiguïtés :
‚ Nœud : mot ou suite de mots
‚ Arc (flèche) : choix d’un chemin
ñ Chemin est une analyse possible ñ Combinatoire des analyses
§ Exemple “Il m’a parlé du porte-avions Charles de Gaulle”
Il
m’ a
m’a
parlé du
porte- avions
porte-avions
Charles de Gaulle
Charles de Gaulle
Prétraitements
Ambiguïtés et graphes
§ Formalisme pour les ambiguïtés :
‚ Nœud : mot ou suite de mots
‚ Arc (flèche) : choix d’un chemin
ñ Chemin est une analyse possible ñ Combinatoire des analyses
§ Exemple “Il m’a parlé du porte-avions Charles de Gaulle”
Il
m’ a
m’a
parlé du
porte- avions
porte-avions
Charles de Gaulle
Charles de Gaulle
Damien Nouvel (Inalco) Prétraitements de corpus 6 / 21
Prétraitements
Autres représentations
§ De nombreuses autres représentations possibles :
‚ Sacs de mots (Bag of Words)
‚ N-grammes
‚ Syntagmes (chunking)
‚ Arbres syntaxiques (constituants)
‚ Graphes de dépendances
‚ Chaînes de coréférence
‚ Cadres sémantiques (frames)
‚ ...
ñ Et pour chacune, N possibilités pour faire des statistiques …
Prétraitements
Utilisation des lexiques
§ Objectifs multiples :
‚ Catégoriser les mots (morphologie, syntaxe, etc.)
‚ Affecter desclasses sémantiquesaux tokens
‚ Constituer ou exploiter une terminologie
‚ Normalisation de termes ou d’entités ñ Inventaire de mots, d’expressions
ñ Reconnaissance par automates déterministes ñ Plongements de mots (embeddings)
§ Difficultés rencontrées avec les lexiques
‚ Synonymie: plusieurs mots pour un même sens ñ Agrandir la taille du lexique
‚ Homonymie: un unité typographique a plusieurs sens ñ Ambiguïté inhérente de l’unité :contextualisation
‚ Métonymie: le sens d’un mot est détourné par le contexte ñ Difficile à détecter :contextualisation sémantique
Damien Nouvel (Inalco) Prétraitements de corpus 8 / 21
Prétraitements
TAL vs textométrie
§ Traitement automatique des langues
‚ Automatisation de traitements sur des textes
‚ Tâches prédictives
‚ Objectif opérationnel et robuste
§ Textométrie / lexicométrie / analyse du discours
‚ Analyses pour la linguistique
‚ Focale sur les données brutes (non-corrigées)
‚ Interprétation par l’humain
Annotation morpho-syntaxique
Plan
1. Prétraitements
2. Annotation morpho-syntaxique 3. Statistiques textuelles
Damien Nouvel (Inalco) Prétraitements de corpus 10 / 21
Annotation morpho-syntaxique
La catégorisation morpho-syntaxique
§ Affecter des catégories morpho-syntaxiques aux tokens
§ Un choix toujours ambigü
‚ Selon le lexique
‚ Selon le corpus d’entraînement
‚ Selon l’approcheutilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte
§ Pour une phrase de n tokens ăm1. . .mn ą, étiquettes associées ăe1. . .en ąles plus vraisemblables
ñ maxăe1...enąP(ăe1. . .en ą | ăm1. . .mn ą)
§ Corpus étiqueté (TreeTagger) au format “Brown corpus” : Passepartout/NAM demeura/VER seul/ADJ dans/PRP la/DET maison/NOM de/PRP Saville-row/NAM ./SENT
Annotation morpho-syntaxique
La catégorisation morpho-syntaxique
§ Affecter des catégories morpho-syntaxiques aux tokens
§ Un choix toujours ambigü
‚ Selon le lexique
‚ Selon le corpus d’entraînement
‚ Selon l’approcheutilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte
§ Pour une phrase de n tokens ăm1. . .mn ą, étiquettes associées ăe1. . .en ąles plus vraisemblables
ñ maxăe1...enąP(ăe1. . .en ą | ăm1. . .mn ą)
§ Corpus étiqueté (TreeTagger) au format “Brown corpus” : Passepartout/NAM demeura/VER seul/ADJ dans/PRP la/DET maison/NOM de/PRP Saville-row/NAM ./SENT
Damien Nouvel (Inalco) Prétraitements de corpus 11 / 21
Annotation morpho-syntaxique
La catégorisation morpho-syntaxique
§ Affecter des catégories morpho-syntaxiques aux tokens
§ Un choix toujours ambigü
‚ Selon le lexique
‚ Selon le corpus d’entraînement
‚ Selon l’approcheutilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte
§ Pour une phrase de n tokens ăm1. . .mn ą, étiquettes associées ăe1. . .en ąles plus vraisemblables
ñ maxăe1...enąP(ăe1. . .eną | ă m1. . .mn ą)
§ Corpus étiqueté (TreeTagger) au format “Brown corpus” : Passepartout/NAM demeura/VER seul/ADJ dans/PRP la/DET maison/NOM de/PRP Saville-row/NAM ./SENT
Annotation morpho-syntaxique
La catégorisation morpho-syntaxique
§ Affecter des catégories morpho-syntaxiques aux tokens
§ Un choix toujours ambigü
‚ Selon le lexique
‚ Selon le corpus d’entraînement
‚ Selon l’approcheutilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte
§ Pour une phrase de n tokens ăm1. . .mn ą, étiquettes associées ăe1. . .en ąles plus vraisemblables
ñ maxăe1...enąP(ăe1. . .eną | ă m1. . .mn ą)
§ Corpus étiqueté (TreeTagger) au format “Brown corpus” : Passepartout/NAM demeura/VER seul/ADJ dans/PRP la/DET maison/NOM de/PRP Saville-row/NAM ./SENT
Damien Nouvel (Inalco) Prétraitements de corpus 11 / 21
Annotation morpho-syntaxique
Etiquetage par classes majoritaires
§ Hypothèse d’indépendance sur les mots et les étiquettes : ñ P(ăe1. . .en ą | ăm1. . .mn ą) = ś
iP(ei|mi)
§ Statistiques simples :
‚ Fréquences des motsF(m)
‚ Fréquences des étiquettesF(e)
‚ Fréquence desassociations mots-étiquettes F(m,e)
§ Étiquette qui maximise la probabilité sachant le mot :
‚ Pour un mot donné, P(e|m) = P(e,m)P(m)
‚ Or (corpus de taille N),P(e,m) = F(m,e)N etP(m) = F(m)N
‚ Comparaisons pour unm donné :F(m)n’a pas d’influence ñ Pour un mot, étiquette “majoritaire”:maxeF(m,e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]
Annotation morpho-syntaxique
Etiquetage par classes majoritaires
§ Hypothèse d’indépendance sur les mots et les étiquettes : ñ P(ăe1. . .en ą | ăm1. . .mn ą) = ś
iP(ei|mi)
§ Statistiques simples :
‚ Fréquences des motsF(m)
‚ Fréquences des étiquettesF(e)
‚ Fréquence desassociations mots-étiquettes F(m,e)
§ Étiquette qui maximise la probabilité sachant le mot :
‚ Pour un mot donné, P(e|m) = P(e,m)P(m)
‚ Or (corpus de taille N),P(e,m) = F(m,e)N etP(m) = F(m)N
‚ Comparaisons pour unm donné :F(m)n’a pas d’influence ñ Pour un mot, étiquette “majoritaire”:maxeF(m,e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]
Damien Nouvel (Inalco) Prétraitements de corpus 12 / 21
Annotation morpho-syntaxique
Etiquetage par classes majoritaires
§ Hypothèse d’indépendance sur les mots et les étiquettes : ñ P(ăe1. . .en ą | ăm1. . .mn ą) = ś
iP(ei|mi)
§ Statistiques simples :
‚ Fréquences des motsF(m)
‚ Fréquences des étiquettesF(e)
‚ Fréquence desassociations mots-étiquettes F(m,e)
§ Étiquette qui maximise la probabilité sachant le mot :
‚ Pour un mot donné, P(e|m) = P(e,m)P(m)
‚ Or (corpus de taille N),P(e,m) = F(m,e)N etP(m) = F(m)N
me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]
Annotation morpho-syntaxique
Etiquetage par classes majoritaires
§ Hypothèse d’indépendance sur les mots et les étiquettes : ñ P(ăe1. . .en ą | ăm1. . .mn ą) = ś
iP(ei|mi)
§ Statistiques simples :
‚ Fréquences des motsF(m)
‚ Fréquences des étiquettesF(e)
‚ Fréquence desassociations mots-étiquettes F(m,e)
§ Étiquette qui maximise la probabilité sachant le mot :
‚ Pour un mot donné, P(e|m) = P(e,m)P(m)
‚ Or (corpus de taille N),P(e,m) = F(m,e)N etP(m) = F(m)N
‚ Comparaisons pour unm donné :F(m)n’a pas d’influence ñ Pour un mot, étiquette “majoritaire”:maxeF(m,e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}}
e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]
Damien Nouvel (Inalco) Prétraitements de corpus 12 / 21
Annotation morpho-syntaxique
Utilisation des n-grammes
§ N-grammes :
‚ Sous-séquences de taillen
‚ Pour une séquence xe1. . .enx, il y a :
‚ nunigrammes :txe1x,xe2x. . .xenxu
‚ n´1bigrammes :txe1,e2x,xe2,e3x. . .xen´1,enxu
‚ n´2trigrammes :txe1,e2,e3x,xe2,e3,e4x. . .xen´2,en´1,enxu
‚ etc.
ñ Statistiques sur les successions d’éléments
Annotation morpho-syntaxique
Modèle de Markov Caché
ñ Quelle suite d’états a pu “générer” la phrase mot à mot ?
§ Décomposition de la probabilité :
‚ Approchebayésienne :
ñ P(xe1. . .eny|xm1. . .mny) = P(x(e1,m1). . .(en,mn)y) P(xm1. . .mny)
‚ Hypothèse markoviennede contexte limité : ñ P(ă(e1,m1). . .(en,mn)ą=P(e1,m1)˚ś
iP(ei,mi|ei´1)
‚ Vraisemblance selon les générationsettransitions : ñ P(ei,mi|ei´1)„P(ei|ei´1)˚P(mi|ei)
§ Ajout des statistiques :
‚ D’émission des mots :P(m|e) = F(m,e)F(e)
‚ Detransitiond’étiquettes (bigrammes : P(e1|e2) = F(eF(e1,e2)
2)
§ Suite d’étiquettes qui maximise la probabilité de génération : ñ maxăe1...enąP(m1|e1)˚ś
i=1...nP(ei|ei´1)˚P(mi|ei)
Damien Nouvel (Inalco) Prétraitements de corpus 14 / 21
Annotation morpho-syntaxique
Modèle de Markov Caché
ñ Quelle suite d’états a pu “générer” la phrase mot à mot ?
§ Décomposition de la probabilité :
‚ Approchebayésienne :
ñ P(xe1. . .eny|xm1. . .mny) = P(x(e1,m1). . .(en,mn)y) P(xm1. . .mny)
‚ Hypothèse markoviennede contexte limité : ñ P(ă(e1,m1). . .(en,mn)ą=P(e1,m1)˚ś
iP(ei,mi|ei´1)
‚ Vraisemblance selon les générationsettransitions : ñ P(ei,mi|ei´1)„P(ei|ei´1)˚P(mi|ei)
§ Ajout des statistiques :
‚ D’émission des mots :P(m|e) = F(m,e)F(e)
‚ Detransitiond’étiquettes (bigrammes : P(e1|e2) = F(eF(e1,e2)
2)
§ Suite d’étiquettes qui maximise la probabilité de génération : ñ maxăe1...enąP(m1|e1)˚ś
i=1...nP(ei|ei´1)˚P(mi|ei)
Annotation morpho-syntaxique
Modèle de Markov Caché
ñ Quelle suite d’états a pu “générer” la phrase mot à mot ?
§ Décomposition de la probabilité :
‚ Approchebayésienne :
ñ P(xe1. . .eny|xm1. . .mny) = P(x(e1,m1). . .(en,mn)y) P(xm1. . .mny)
‚ Hypothèse markoviennede contexte limité : ñ P(ă(e1,m1). . .(en,mn)ą=P(e1,m1)˚ś
iP(ei,mi|ei´1)
‚ Vraisemblance selon les générationsettransitions : ñ P(ei,mi|ei´1)„P(ei|ei´1)˚P(mi|ei)
§ Ajout des statistiques :
‚ D’émission des mots :P(m|e) = F(m,e)F(e)
‚ Detransitiond’étiquettes (bigrammes : P(e1|e2) = F(eF(e1,e2)
2)
§ Suite d’étiquettes qui maximise la probabilité de génération : ñ maxăe1...enąP(m1|e1)˚ś
i=1...nP(ei|ei´1)˚P(mi|ei)
Damien Nouvel (Inalco) Prétraitements de corpus 14 / 21
Annotation morpho-syntaxique
Modèle de Markov Caché
ñ Quelle suite d’états a pu “générer” la phrase mot à mot ?
§ Décomposition de la probabilité :
‚ Approchebayésienne :
ñ P(xe1. . .eny|xm1. . .mny) = P(x(e1,m1). . .(en,mn)y) P(xm1. . .mny)
‚ Hypothèse markoviennede contexte limité : ñ P(ă(e1,m1). . .(en,mn)ą=P(e1,m1)˚ś
iP(ei,mi|ei´1)
‚ Vraisemblance selon les générationsettransitions : ñ P(ei,mi|ei´1)„P(ei|ei´1)˚P(mi|ei)
§ Ajout des statistiques :
‚ D’émission des mots :P(m|e) = F(m,e)
Statistiques textuelles
Plan
1. Prétraitements
2. Annotation morpho-syntaxique 3. Statistiques textuelles
Damien Nouvel (Inalco) Prétraitements de corpus 15 / 21
Statistiques textuelles
Représentation matricielle
§ Hypothèses
‚ Corpus séparé endocuments et/ou parties
‚ Textes déjà segmentés (tokenisés)
‚ Corpus : matrice termes par documents, sacs de mots
§ Fréquences des termes dans les documents t1 t2 t3 … d1 f11 f12 f13 … d2 f21 f22 f23 … d3 f31 f32 f33 …
… … … … …
ñ Vector Space Model
§ Forme matricielle : calculs statistiques facilités
‚ Taille totale ou moyenne des documents
‚ Fréquence totale ou moyenne d’un terme
‚ Coocurrences des termes dans les documents
Statistiques textuelles
Représentation matricielle
§ Hypothèses
‚ Corpus séparé endocuments et/ou parties
‚ Textes déjà segmentés (tokenisés)
‚ Corpus : matrice termes par documents, sacs de mots
§ Fréquences des termes dans les documents t1 t2 t3 … d1 f11 f12 f13 … d2 f21 f22 f23 … d3 f31 f32 f33 …
… … … … …
ñ Vector Space Model
§ Forme matricielle : calculs statistiques facilités
‚ Taille totale ou moyenne des documents
‚ Fréquence totale ou moyenne d’un terme
‚ Coocurrences des termes dans les documents
Damien Nouvel (Inalco) Prétraitements de corpus 16 / 21
Statistiques textuelles
Représentation matricielle
§ Hypothèses
‚ Corpus séparé endocuments et/ou parties
‚ Textes déjà segmentés (tokenisés)
‚ Corpus : matrice termes par documents, sacs de mots
§ Fréquences des termes dans les documents t1 t2 t3 … d1 f11 f12 f13 … d2 f21 f22 f23 … d3 f31 f32 f33 …
… … … … …
ñ Vector Space Model
Statistiques textuelles
Loi normale
§ Principes généraux
‚ Aucun apriorisur la répartition des données
‚ Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes
§ Formule : P(X=x) = 1 σx
?2πexp (
´(x´µx)2 2σx2
)
§ Courbe (µx= 5,σx = 2) :
0 2 4 6 8 10
0 0.2 0.4
X
P(X)
Damien Nouvel (Inalco) Prétraitements de corpus 17 / 21
Statistiques textuelles
Loi normale
§ Principes généraux
‚ Aucun apriorisur la répartition des données
‚ Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes
§ Formule : P(X=x) = 1 σx
?2πexp (
´(x´µx)2 2σx2
)
§ Courbe (µx= 5,σx = 2) :
0 2 4 6 8 10
0 0.2 0.4
X
P(X)
Statistiques textuelles
Loi normale
§ Principes généraux
‚ Aucun apriorisur la répartition des données
‚ Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes
§ Formule : P(X=x) = 1 σx?
2πexp (
´(x´µx)2 2σx2
)
§ Courbe (µx= 5,σx = 2) :
0 2 4 6 8 10
0 0.2 0.4
X
P(X)
Damien Nouvel (Inalco) Prétraitements de corpus 17 / 21
Statistiques textuelles
Loi normale
§ Principes généraux
‚ Aucun apriorisur la répartition des données
‚ Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes
§ Formule : P(X=x) = 1 σx?
2πexp (
´(x´µx)2 2σx2
)
§ Courbe (µx= 5,σx = 2) :
0.4
P(X)
Statistiques textuelles
Loi binomiale
§ Principes généraux
‚ Répétition d’une épreuve nfois avec remise
‚ Combien de « succès » ?
ñ Entre0 etn, selon la probabilité
‚ Paramètres : probabilitép, répétitionn
§ Formule : P(X=k) = (n
k
)pk(1´p)n´k
§ Courbe (p= 0,3, n= 10) :
0 2 4 6 8 10
0 0.2 0.4
X
P(X)
Damien Nouvel (Inalco) Prétraitements de corpus 18 / 21
Statistiques textuelles
Loi binomiale
§ Principes généraux
‚ Répétition d’une épreuven fois avec remise
‚ Combien de « succès » ?
ñ Entre0 etn, selon la probabilité
‚ Paramètres : probabilitép, répétitionn
§ Formule : P(X=k) = (n
k
)pk(1´p)n´k
§ Courbe (p= 0,3, n= 10) :
0 2 4 6 8 10
0 0.2 0.4
X
P(X)
Statistiques textuelles
Loi binomiale
§ Principes généraux
‚ Répétition d’une épreuven fois avec remise
‚ Combien de « succès » ?
ñ Entre0 etn, selon la probabilité
‚ Paramètres : probabilitép, répétitionn
§ Formule : P(X=k) = (n
k
)pk(1´p)n´k
§ Courbe (p= 0,3, n= 10) :
0 2 4 6 8 10
0 0.2 0.4
X
P(X)
Damien Nouvel (Inalco) Prétraitements de corpus 18 / 21
Statistiques textuelles
Loi binomiale
§ Principes généraux
‚ Répétition d’une épreuven fois avec remise
‚ Combien de « succès » ?
ñ Entre0 etn, selon la probabilité
‚ Paramètres : probabilitép, répétitionn
§ Formule : P(X=k) = (n
k
)pk(1´p)n´k
§ Courbe (p= 0,3, n= 10) :
0.4
P(X)
Statistiques textuelles
Loi hypergéométrique
§ Principes généraux
‚ Répétition d’une épreuven fois sans remise
‚ Combien de « succès » ?
ñ Entre0 etn, avec une probabilité décroissante
‚ Paramètres : probabilitép, répétitionn, nombre total N
§ Formule : P(X=k) = (pN
k
)˚((1´p)N
n´k
)/(N
n
)
§ Courbe (p= 0,3, n= 10, N= 20) :
0 2 4 6 8 10
0 0.2 0.4
X
P(X)
Damien Nouvel (Inalco) Prétraitements de corpus 19 / 21
Statistiques textuelles
Loi hypergéométrique
§ Principes généraux
‚ Répétition d’une épreuven fois sans remise
‚ Combien de « succès » ?
ñ Entre0 etn, avec une probabilité décroissante
‚ Paramètres : probabilitép, répétitionn, nombre total N
§ Formule : P(X=k) = (pN
k
)˚((1´p)N
n´k
)/(N
n
)
§ Courbe (p= 0,3, n= 10, N= 20) :
0 2 4 6 8 10
0 0.2 0.4
X
P(X)
Statistiques textuelles
Loi hypergéométrique
§ Principes généraux
‚ Répétition d’une épreuven fois sans remise
‚ Combien de « succès » ?
ñ Entre0 etn, avec une probabilité décroissante
‚ Paramètres : probabilitép, répétitionn, nombre total N
§ Formule : P(X=k) = (pN
k
)˚((1´p)N
n´k
)/(N
n
)
§ Courbe (p= 0,3, n= 10, N= 20) :
0 2 4 6 8 10
0 0.2 0.4
X
P(X)
Damien Nouvel (Inalco) Prétraitements de corpus 19 / 21
Statistiques textuelles
Loi hypergéométrique
§ Principes généraux
‚ Répétition d’une épreuven fois sans remise
‚ Combien de « succès » ?
ñ Entre0 etn, avec une probabilité décroissante
‚ Paramètres : probabilitép, répétitionn, nombre total N
§ Formule : P(X=k) = (pN
k
)˚((1´p)N
n´k
)/(N
n
)
§ Courbe (p= 0,3, n= 10,N= 20) :
0.4
P(X)
Statistiques textuelles
Calcul des spécificités
§ Statistique sur les fréquences des termes par partie
‚ Formule sur la matrice termes / documents (parties)
‚ fij(fréquence dans une partieid’un terme j)
‚ T=ř
ijfij(taille totale du corpus)
‚ di=ř
jfij(taille d’une partie i)
‚ tj=ř
ifij (nombre total d’occurence du termej ñ P(fij=k) =
(tj
k
)˚(T´tj
di´k
) (T
di
)
§ Spécificités pour la partie au regard du corpus
‚ Probabilité faible (fréquence inattendue) par seuil(0,05)
‚ Spécificitéspositives : fréquence forte, sur-représentation
‚ Spécificitésnégatives: fréquence faible, sous-représentation ñ Permet de caractériser la sous-partie du corpus
§ On peut travailler sur plusieurs partitions du corpus
Damien Nouvel (Inalco) Prétraitements de corpus 20 / 21
Statistiques textuelles
Calcul des spécificités
§ Statistique sur les fréquences des termes par partie
‚ Formule sur la matrice termes / documents (parties)
‚ fij(fréquence dans une partieid’un terme j)
‚ T=ř
ijfij(taille totale du corpus)
‚ di=ř
jfij(taille d’une partie i)
‚ tj=ř
ifij (nombre total d’occurence du termej ñ P(fij=k) =
(tj
k
)˚(T´tj
di´k
) (T
di
)
§ Spécificités pour la partie au regard du corpus
‚ Probabilité faible (fréquence inattendue) par seuil(0,05)
‚ Spécificitéspositives : fréquence forte, sur-représentation
‚ Spécificitésnégatives: fréquence faible, sous-représentation ñ Permet de caractériser la sous-partie du corpus
§ On peut travailler sur plusieurs partitions du corpus
Statistiques textuelles
Calcul des spécificités
§ Statistique sur les fréquences des termes par partie
‚ Formule sur la matrice termes / documents (parties)
‚ fij(fréquence dans une partieid’un terme j)
‚ T=ř
ijfij(taille totale du corpus)
‚ di=ř
jfij(taille d’une partie i)
‚ tj=ř
ifij (nombre total d’occurence du termej ñ P(fij=k) =
(tj
k
)˚(T´tj
di´k
) (T
di
)
§ Spécificités pour la partie au regard du corpus
‚ Probabilité faible (fréquence inattendue) parseuil (0,05)
‚ Spécificitéspositives : fréquence forte, sur-représentation
‚ Spécificitésnégatives: fréquence faible, sous-représentation
ñ Permet de caractériser la sous-partie du corpus
§ On peut travailler sur plusieurs partitions du corpus
Damien Nouvel (Inalco) Prétraitements de corpus 20 / 21
Statistiques textuelles
Calcul des spécificités
§ Statistique sur les fréquences des termes par partie
‚ Formule sur la matrice termes / documents (parties)
‚ fij(fréquence dans une partieid’un terme j)
‚ T=ř
ijfij(taille totale du corpus)
‚ di=ř
jfij(taille d’une partie i)
‚ tj=ř
ifij (nombre total d’occurence du termej ñ P(fij=k) =
(tj
k
)˚(T´tj
di´k
) (T
di
)
§ Spécificités pour la partie au regard du corpus
‚ Probabilité faible (fréquence inattendue) parseuil (0,05)
‚ Spécificitéspositives : fréquence forte, sur-représentation
§ On peut travailler sur plusieurs partitions du corpus
Statistiques textuelles
Calcul des spécificités
§ Statistique sur les fréquences des termes par partie
‚ Formule sur la matrice termes / documents (parties)
‚ fij(fréquence dans une partieid’un terme j)
‚ T=ř
ijfij(taille totale du corpus)
‚ di=ř
jfij(taille d’une partie i)
‚ tj=ř
ifij (nombre total d’occurence du termej ñ P(fij=k) =
(tj
k
)˚(T´tj
di´k
) (T
di
)
§ Spécificités pour la partie au regard du corpus
‚ Probabilité faible (fréquence inattendue) parseuil (0,05)
‚ Spécificitéspositives : fréquence forte, sur-représentation
‚ Spécificitésnégatives: fréquence faible, sous-représentation ñ Permet de caractériser la sous-partie du corpus
§ On peut travailler sur plusieurs partitions du corpus
Damien Nouvel (Inalco) Prétraitements de corpus 20 / 21
Statistiques textuelles
Utilisation de la textométrie
§ Recherche des termes caractéristiques par sous-partie ñ Fréquence plus importante que celle attendue
ñ Probabilité de cette fréquence faible ñ Permet de caractériser la sous-partie
§ Contraste de parties d’un corpus
‚ Par date
‚ Par auteur
‚ Par thème
‚ …
Statistiques textuelles
Utilisation de la textométrie
§ Recherche des termes caractéristiques par sous-partie ñ Fréquence plus importante que celle attendue
ñ Probabilité de cette fréquence faible ñ Permet de caractériser la sous-partie
§ Contraste de parties d’un corpus
‚ Par date
‚ Par auteur
‚ Par thème
‚ …
Damien Nouvel (Inalco) Prétraitements de corpus 21 / 21