• Aucun résultat trouvé

Statistiques pour la linguistique

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques pour la linguistique"

Copied!
53
0
0

Texte intégral

(1)

Statistiques pour la linguistique

Damien Nouvel

Damien Nouvel (Inalco) Prétraitements de corpus 1 / 21

(2)

Prétraitements

Plan

1. Prétraitements

2. Annotation morpho-syntaxique 3. Statistiques textuelles

(3)

Prétraitements

Données du corpus

§ Corpus comme ensemble de documents (ou parties)

§ Deux éléments

‚ Le contenu (diverses structures)

ñ Le titre, le résumé sont-ils du contenu ou des métadonnées ?

‚ Lesmétadonnées :

Auteur

Date de création

Mots-clés

Thèmes

...

§ Focale sur le contenu commetexte brut :

‚ Séquence de caractères UTF-8 àsegmenter en tokens

‚ En général, aucune prise en compte de la mise en page ñ Un document, un fichier doc1.txt

ñ Prétraitements pour accéder à la linguistique ñ Suite de tokens porteurs de sens

Damien Nouvel (Inalco) Prétraitements de corpus 3 / 21

(4)

Prétraitements

Données du corpus

§ Corpus comme ensemble de documents (ou parties)

§ Deux éléments

‚ Le contenu(diverses structures)

ñ Le titre, le résumé sont-ils du contenu ou des métadonnées ?

‚ Lesmétadonnées :

Auteur

Date de création

Mots-clés

Thèmes

...

§ Focale sur le contenu commetexte brut :

‚ Séquence de caractères UTF-8 àsegmenter en tokens

‚ En général, aucune prise en compte de la mise en page ñ Un document, un fichier doc1.txt

ñ Prétraitements pour accéder à la linguistique ñ Suite de tokens porteurs de sens

(5)

Prétraitements

Données du corpus

§ Corpus comme ensemble de documents (ou parties)

§ Deux éléments

‚ Le contenu(diverses structures)

ñ Le titre, le résumé sont-ils du contenu ou des métadonnées ?

‚ Lesmétadonnées :

Auteur

Date de création

Mots-clés

Thèmes

...

§ Focale sur le contenu commetexte brut :

‚ Séquence de caractères UTF-8 àsegmenter en tokens

‚ En général, aucune prise en compte de la mise en page

ñ Un document, un fichier doc1.txt

ñ Prétraitements pour accéder à la linguistique ñ Suite de tokens porteurs de sens

Damien Nouvel (Inalco) Prétraitements de corpus 3 / 21

(6)

Prétraitements

Données du corpus

§ Corpus comme ensemble de documents (ou parties)

§ Deux éléments

‚ Le contenu(diverses structures)

ñ Le titre, le résumé sont-ils du contenu ou des métadonnées ?

‚ Lesmétadonnées :

Auteur

Date de création

Mots-clés

Thèmes

...

§ Focale sur le contenu commetexte brut :

‚ Séquence de caractères UTF-8 àsegmenter en tokens

(7)

Prétraitements

Segmentation

§ Séparer un texte (en phrases puis) en mots, les tokens

§ Difficultés pour le français :

Clitiques, locutions, expressions polylexicales

Expressions polylexicales (cf Aldebert « Mots mélangés ») ñ Utilisation d’automates et de probabilités

ñ Utilisation répandue de TreeTagger

ñ En python, dans des librairies (NLTK, etc.)

Damien Nouvel (Inalco) Prétraitements de corpus 4 / 21

(8)

Prétraitements

Segmentation

§ Séparer un texte (en phrases puis) en mots, les tokens

§ Difficultés pour le français :

Clitiques, locutions, expressions polylexicales

Expressions polylexicales (cf Aldebert « Mots mélangés ») ñ Utilisation d’automates et de probabilités

ñ Utilisation répandue de TreeTagger

ñ En python, dans des librairies (NLTK, etc.)

(9)

Prétraitements

Segmentation

§ Séparer un texte (en phrases puis) en mots, les tokens

§ Difficultés pour le français :

Clitiques, locutions, expressions polylexicales

Expressions polylexicales (cf Aldebert « Mots mélangés ») ñ Utilisation d’automates et de probabilités

ñ Utilisation répandue de TreeTagger

ñ En python, dans des librairies (NLTK, etc.)

Damien Nouvel (Inalco) Prétraitements de corpus 4 / 21

(10)

Prétraitements

Représentation séquentielle

§ Notations

Séquence:xc1,c2. . .cny

Item:c1 élément de la séquence

ñ Séquence de lettres, de mots, de caractères

§ Exemple “Il m’a parlé du porte-avions Charles de Gaulle” Il m’a parlé du porte- avions Charles de Gaulle

Il m’ a parlé du porte- avions Charles de Gaulle

Il m’ a parlé du porte-avions Charles de Gaulle

(11)

Prétraitements

Représentation séquentielle

§ Notations

Séquence:xc1,c2. . .cny

Item:c1 élément de la séquence

ñ Séquence de lettres, de mots, de caractères

§ Exemple “Il m’a parlé du porte-avions Charles de Gaulle”

Il m’a parlé du porte- avions Charles de Gaulle

Il m’ a parlé du porte- avions Charles de Gaulle

Il m’ a parlé du porte-avions Charles de Gaulle

Damien Nouvel (Inalco) Prétraitements de corpus 5 / 21

(12)

Prétraitements

Ambiguïtés et graphes

§ Formalisme pour les ambiguïtés :

Nœud : mot ou suite de mots

Arc (flèche) : choix d’un chemin

ñ Chemin est une analyse possible ñ Combinatoire des analyses

§ Exemple “Il m’a parlé du porte-avions Charles de Gaulle”

Il

m’ a

m’a

parlé du

porte- avions

porte-avions

Charles de Gaulle

Charles de Gaulle

(13)

Prétraitements

Ambiguïtés et graphes

§ Formalisme pour les ambiguïtés :

Nœud : mot ou suite de mots

Arc (flèche) : choix d’un chemin

ñ Chemin est une analyse possible ñ Combinatoire des analyses

§ Exemple “Il m’a parlé du porte-avions Charles de Gaulle”

Il

m’ a

m’a

parlé du

porte- avions

porte-avions

Charles de Gaulle

Charles de Gaulle

Damien Nouvel (Inalco) Prétraitements de corpus 6 / 21

(14)

Prétraitements

Autres représentations

§ De nombreuses autres représentations possibles :

‚ Sacs de mots (Bag of Words)

‚ N-grammes

‚ Syntagmes (chunking)

‚ Arbres syntaxiques (constituants)

‚ Graphes de dépendances

‚ Chaînes de coréférence

‚ Cadres sémantiques (frames)

‚ ...

ñ Et pour chacune, N possibilités pour faire des statistiques …

(15)

Prétraitements

Utilisation des lexiques

§ Objectifs multiples :

Catégoriser les mots (morphologie, syntaxe, etc.)

‚ Affecter desclasses sémantiquesaux tokens

‚ Constituer ou exploiter une terminologie

Normalisation de termes ou d’entités ñ Inventaire de mots, d’expressions

ñ Reconnaissance par automates déterministes ñ Plongements de mots (embeddings)

§ Difficultés rencontrées avec les lexiques

Synonymie: plusieurs mots pour un même sens ñ Agrandir la taille du lexique

Homonymie: un unité typographique a plusieurs sens ñ Ambiguïté inhérente de l’unité :contextualisation

Métonymie: le sens d’un mot est détourné par le contexte ñ Difficile à détecter :contextualisation sémantique

Damien Nouvel (Inalco) Prétraitements de corpus 8 / 21

(16)

Prétraitements

TAL vs textométrie

§ Traitement automatique des langues

‚ Automatisation de traitements sur des textes

‚ Tâches prédictives

‚ Objectif opérationnel et robuste

§ Textométrie / lexicométrie / analyse du discours

‚ Analyses pour la linguistique

‚ Focale sur les données brutes (non-corrigées)

‚ Interprétation par l’humain

(17)

Annotation morpho-syntaxique

Plan

1. Prétraitements

2. Annotation morpho-syntaxique 3. Statistiques textuelles

Damien Nouvel (Inalco) Prétraitements de corpus 10 / 21

(18)

Annotation morpho-syntaxique

La catégorisation morpho-syntaxique

§ Affecter des catégories morpho-syntaxiques aux tokens

§ Un choix toujours ambigü

‚ Selon le lexique

‚ Selon le corpus d’entraînement

‚ Selon l’approcheutilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte

§ Pour une phrase de n tokens ăm1. . .mn ą, étiquettes associées ăe1. . .en ąles plus vraisemblables

ñ maxăe1...enąP(ăe1. . .en ą | ăm1. . .mn ą)

§ Corpus étiqueté (TreeTagger) au format “Brown corpus” : Passepartout/NAM demeura/VER seul/ADJ dans/PRP la/DET maison/NOM de/PRP Saville-row/NAM ./SENT

(19)

Annotation morpho-syntaxique

La catégorisation morpho-syntaxique

§ Affecter des catégories morpho-syntaxiques aux tokens

§ Un choix toujours ambigü

‚ Selon le lexique

‚ Selon le corpus d’entraînement

‚ Selon l’approcheutilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte

§ Pour une phrase de n tokens ăm1. . .mn ą, étiquettes associées ăe1. . .en ąles plus vraisemblables

ñ maxăe1...enąP(ăe1. . .en ą | ăm1. . .mn ą)

§ Corpus étiqueté (TreeTagger) au format “Brown corpus” : Passepartout/NAM demeura/VER seul/ADJ dans/PRP la/DET maison/NOM de/PRP Saville-row/NAM ./SENT

Damien Nouvel (Inalco) Prétraitements de corpus 11 / 21

(20)

Annotation morpho-syntaxique

La catégorisation morpho-syntaxique

§ Affecter des catégories morpho-syntaxiques aux tokens

§ Un choix toujours ambigü

‚ Selon le lexique

‚ Selon le corpus d’entraînement

‚ Selon l’approcheutilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte

§ Pour une phrase de n tokens ăm1. . .mn ą, étiquettes associées ăe1. . .en ąles plus vraisemblables

ñ maxăe1...enąP(ăe1. . .eną | ă m1. . .mn ą)

§ Corpus étiqueté (TreeTagger) au format “Brown corpus” : Passepartout/NAM demeura/VER seul/ADJ dans/PRP la/DET maison/NOM de/PRP Saville-row/NAM ./SENT

(21)

Annotation morpho-syntaxique

La catégorisation morpho-syntaxique

§ Affecter des catégories morpho-syntaxiques aux tokens

§ Un choix toujours ambigü

‚ Selon le lexique

‚ Selon le corpus d’entraînement

‚ Selon l’approcheutilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte

§ Pour une phrase de n tokens ăm1. . .mn ą, étiquettes associées ăe1. . .en ąles plus vraisemblables

ñ maxăe1...enąP(ăe1. . .eną | ă m1. . .mn ą)

§ Corpus étiqueté (TreeTagger) au format “Brown corpus” : Passepartout/NAM demeura/VER seul/ADJ dans/PRP la/DET maison/NOM de/PRP Saville-row/NAM ./SENT

Damien Nouvel (Inalco) Prétraitements de corpus 11 / 21

(22)

Annotation morpho-syntaxique

Etiquetage par classes majoritaires

§ Hypothèse d’indépendance sur les mots et les étiquettes : ñ P(ăe1. . .en ą | ăm1. . .mn ą) = ś

iP(ei|mi)

§ Statistiques simples :

‚ Fréquences des motsF(m)

‚ Fréquences des étiquettesF(e)

‚ Fréquence desassociations mots-étiquettes F(m,e)

§ Étiquette qui maximise la probabilité sachant le mot :

‚ Pour un mot donné, P(e|m) = P(e,m)P(m)

‚ Or (corpus de taille N),P(e,m) = F(m,e)N etP(m) = F(m)N

‚ Comparaisons pour unm donné :F(m)n’a pas d’influence ñ Pour un mot, étiquette “majoritaire”:maxeF(m,e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]

(23)

Annotation morpho-syntaxique

Etiquetage par classes majoritaires

§ Hypothèse d’indépendance sur les mots et les étiquettes : ñ P(ăe1. . .en ą | ăm1. . .mn ą) = ś

iP(ei|mi)

§ Statistiques simples :

‚ Fréquences des motsF(m)

‚ Fréquences des étiquettesF(e)

‚ Fréquence desassociations mots-étiquettes F(m,e)

§ Étiquette qui maximise la probabilité sachant le mot :

‚ Pour un mot donné, P(e|m) = P(e,m)P(m)

‚ Or (corpus de taille N),P(e,m) = F(m,e)N etP(m) = F(m)N

‚ Comparaisons pour unm donné :F(m)n’a pas d’influence ñ Pour un mot, étiquette “majoritaire”:maxeF(m,e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]

Damien Nouvel (Inalco) Prétraitements de corpus 12 / 21

(24)

Annotation morpho-syntaxique

Etiquetage par classes majoritaires

§ Hypothèse d’indépendance sur les mots et les étiquettes : ñ P(ăe1. . .en ą | ăm1. . .mn ą) = ś

iP(ei|mi)

§ Statistiques simples :

‚ Fréquences des motsF(m)

‚ Fréquences des étiquettesF(e)

‚ Fréquence desassociations mots-étiquettes F(m,e)

§ Étiquette qui maximise la probabilité sachant le mot :

‚ Pour un mot donné, P(e|m) = P(e,m)P(m)

‚ Or (corpus de taille N),P(e,m) = F(m,e)N etP(m) = F(m)N

me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]

(25)

Annotation morpho-syntaxique

Etiquetage par classes majoritaires

§ Hypothèse d’indépendance sur les mots et les étiquettes : ñ P(ăe1. . .en ą | ăm1. . .mn ą) = ś

iP(ei|mi)

§ Statistiques simples :

‚ Fréquences des motsF(m)

‚ Fréquences des étiquettesF(e)

‚ Fréquence desassociations mots-étiquettes F(m,e)

§ Étiquette qui maximise la probabilité sachant le mot :

‚ Pour un mot donné, P(e|m) = P(e,m)P(m)

‚ Or (corpus de taille N),P(e,m) = F(m,e)N etP(m) = F(m)N

‚ Comparaisons pour unm donné :F(m)n’a pas d’influence ñ Pour un mot, étiquette “majoritaire”:maxeF(m,e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}}

e = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0]

Damien Nouvel (Inalco) Prétraitements de corpus 12 / 21

(26)

Annotation morpho-syntaxique

Utilisation des n-grammes

§ N-grammes :

‚ Sous-séquences de taillen

‚ Pour une séquence xe1. . .enx, il y a :

nunigrammes :txe1x,xe2x. . .xenxu

n´1bigrammes :txe1,e2x,xe2,e3x. . .xen´1,enxu

n´2trigrammes :txe1,e2,e3x,xe2,e3,e4x. . .xen´2,en´1,enxu

etc.

ñ Statistiques sur les successions d’éléments

(27)

Annotation morpho-syntaxique

Modèle de Markov Caché

ñ Quelle suite d’états a pu “générer” la phrase mot à mot ?

§ Décomposition de la probabilité :

‚ Approchebayésienne :

ñ P(xe1. . .eny|xm1. . .mny) = P(x(e1,m1). . .(en,mn)y) P(xm1. . .mny)

‚ Hypothèse markoviennede contexte limité : ñ P(ă(e1,m1). . .(en,mn)ą=P(e1,m1)˚ś

iP(ei,mi|ei´1)

‚ Vraisemblance selon les générationsettransitions : ñ P(ei,mi|ei´1)„P(ei|ei´1P(mi|ei)

§ Ajout des statistiques :

‚ D’émission des mots :P(m|e) = F(m,e)F(e)

‚ Detransitiond’étiquettes (bigrammes : P(e1|e2) = F(eF(e1,e2)

2)

§ Suite d’étiquettes qui maximise la probabilité de génération : ñ maxăe1...enąP(m1|e1)˚ś

i=1...nP(ei|ei´1P(mi|ei)

Damien Nouvel (Inalco) Prétraitements de corpus 14 / 21

(28)

Annotation morpho-syntaxique

Modèle de Markov Caché

ñ Quelle suite d’états a pu “générer” la phrase mot à mot ?

§ Décomposition de la probabilité :

‚ Approchebayésienne :

ñ P(xe1. . .eny|xm1. . .mny) = P(x(e1,m1). . .(en,mn)y) P(xm1. . .mny)

‚ Hypothèse markoviennede contexte limité : ñ P(ă(e1,m1). . .(en,mn)ą=P(e1,m1)˚ś

iP(ei,mi|ei´1)

‚ Vraisemblance selon les générationsettransitions : ñ P(ei,mi|ei´1)„P(ei|ei´1P(mi|ei)

§ Ajout des statistiques :

‚ D’émission des mots :P(m|e) = F(m,e)F(e)

‚ Detransitiond’étiquettes (bigrammes : P(e1|e2) = F(eF(e1,e2)

2)

§ Suite d’étiquettes qui maximise la probabilité de génération : ñ maxăe1...enąP(m1|e1)˚ś

i=1...nP(ei|ei´1P(mi|ei)

(29)

Annotation morpho-syntaxique

Modèle de Markov Caché

ñ Quelle suite d’états a pu “générer” la phrase mot à mot ?

§ Décomposition de la probabilité :

‚ Approchebayésienne :

ñ P(xe1. . .eny|xm1. . .mny) = P(x(e1,m1). . .(en,mn)y) P(xm1. . .mny)

‚ Hypothèse markoviennede contexte limité : ñ P(ă(e1,m1). . .(en,mn)ą=P(e1,m1)˚ś

iP(ei,mi|ei´1)

‚ Vraisemblance selon les générationsettransitions : ñ P(ei,mi|ei´1)„P(ei|ei´1P(mi|ei)

§ Ajout des statistiques :

‚ D’émission des mots :P(m|e) = F(m,e)F(e)

‚ Detransitiond’étiquettes (bigrammes : P(e1|e2) = F(eF(e1,e2)

2)

§ Suite d’étiquettes qui maximise la probabilité de génération : ñ maxăe1...enąP(m1|e1)˚ś

i=1...nP(ei|ei´1P(mi|ei)

Damien Nouvel (Inalco) Prétraitements de corpus 14 / 21

(30)

Annotation morpho-syntaxique

Modèle de Markov Caché

ñ Quelle suite d’états a pu “générer” la phrase mot à mot ?

§ Décomposition de la probabilité :

‚ Approchebayésienne :

ñ P(xe1. . .eny|xm1. . .mny) = P(x(e1,m1). . .(en,mn)y) P(xm1. . .mny)

‚ Hypothèse markoviennede contexte limité : ñ P(ă(e1,m1). . .(en,mn)ą=P(e1,m1)˚ś

iP(ei,mi|ei´1)

‚ Vraisemblance selon les générationsettransitions : ñ P(ei,mi|ei´1)„P(ei|ei´1P(mi|ei)

§ Ajout des statistiques :

‚ D’émission des mots :P(m|e) = F(m,e)

(31)

Statistiques textuelles

Plan

1. Prétraitements

2. Annotation morpho-syntaxique 3. Statistiques textuelles

Damien Nouvel (Inalco) Prétraitements de corpus 15 / 21

(32)

Statistiques textuelles

Représentation matricielle

§ Hypothèses

‚ Corpus séparé endocuments et/ou parties

‚ Textes déjà segmentés (tokenisés)

‚ Corpus : matrice termes par documents, sacs de mots

§ Fréquences des termes dans les documents t1 t2 t3d1 f11 f12 f13d2 f21 f22 f23d3 f31 f32 f33

… … … … …

ñ Vector Space Model

§ Forme matricielle : calculs statistiques facilités

‚ Taille totale ou moyenne des documents

‚ Fréquence totale ou moyenne d’un terme

‚ Coocurrences des termes dans les documents

(33)

Statistiques textuelles

Représentation matricielle

§ Hypothèses

‚ Corpus séparé endocuments et/ou parties

‚ Textes déjà segmentés (tokenisés)

‚ Corpus : matrice termes par documents, sacs de mots

§ Fréquences des termes dans les documents t1 t2 t3d1 f11 f12 f13d2 f21 f22 f23d3 f31 f32 f33

… … … … …

ñ Vector Space Model

§ Forme matricielle : calculs statistiques facilités

‚ Taille totale ou moyenne des documents

‚ Fréquence totale ou moyenne d’un terme

‚ Coocurrences des termes dans les documents

Damien Nouvel (Inalco) Prétraitements de corpus 16 / 21

(34)

Statistiques textuelles

Représentation matricielle

§ Hypothèses

‚ Corpus séparé endocuments et/ou parties

‚ Textes déjà segmentés (tokenisés)

‚ Corpus : matrice termes par documents, sacs de mots

§ Fréquences des termes dans les documents t1 t2 t3d1 f11 f12 f13d2 f21 f22 f23d3 f31 f32 f33

… … … … …

ñ Vector Space Model

(35)

Statistiques textuelles

Loi normale

§ Principes généraux

‚ Aucun apriorisur la répartition des données

‚ Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes

§ Formule : P(X=x) = 1 σx

?2πexp (

´(x´µx)2x2

)

§ Courbe (µx= 5,σx = 2) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

Damien Nouvel (Inalco) Prétraitements de corpus 17 / 21

(36)

Statistiques textuelles

Loi normale

§ Principes généraux

‚ Aucun apriorisur la répartition des données

‚ Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes

§ Formule : P(X=x) = 1 σx

?2πexp (

´(x´µx)2x2

)

§ Courbe (µx= 5,σx = 2) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(37)

Statistiques textuelles

Loi normale

§ Principes généraux

‚ Aucun apriorisur la répartition des données

‚ Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes

§ Formule : P(X=x) = 1 σx?

exp (

´(x´µx)2x2

)

§ Courbe (µx= 5,σx = 2) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

Damien Nouvel (Inalco) Prétraitements de corpus 17 / 21

(38)

Statistiques textuelles

Loi normale

§ Principes généraux

‚ Aucun apriorisur la répartition des données

‚ Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes

§ Formule : P(X=x) = 1 σx?

exp (

´(x´µx)2x2

)

§ Courbe (µx= 5,σx = 2) :

0.4

P(X)

(39)

Statistiques textuelles

Loi binomiale

§ Principes généraux

Répétition d’une épreuve nfois avec remise

‚ Combien de « succès » ?

ñ Entre0 etn, selon la probabilité

‚ Paramètres : probabilitép, répétitionn

§ Formule : P(X=k) = (n

k

)pk(1´p)n´k

§ Courbe (p= 0,3, n= 10) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

Damien Nouvel (Inalco) Prétraitements de corpus 18 / 21

(40)

Statistiques textuelles

Loi binomiale

§ Principes généraux

Répétition d’une épreuven fois avec remise

‚ Combien de « succès » ?

ñ Entre0 etn, selon la probabilité

‚ Paramètres : probabilitép, répétitionn

§ Formule : P(X=k) = (n

k

)pk(1´p)n´k

§ Courbe (p= 0,3, n= 10) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(41)

Statistiques textuelles

Loi binomiale

§ Principes généraux

Répétition d’une épreuven fois avec remise

‚ Combien de « succès » ?

ñ Entre0 etn, selon la probabilité

‚ Paramètres : probabilitép, répétitionn

§ Formule : P(X=k) = (n

k

)pk(1´p)n´k

§ Courbe (p= 0,3, n= 10) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

Damien Nouvel (Inalco) Prétraitements de corpus 18 / 21

(42)

Statistiques textuelles

Loi binomiale

§ Principes généraux

Répétition d’une épreuven fois avec remise

‚ Combien de « succès » ?

ñ Entre0 etn, selon la probabilité

‚ Paramètres : probabilitép, répétitionn

§ Formule : P(X=k) = (n

k

)pk(1´p)n´k

§ Courbe (p= 0,3, n= 10) :

0.4

P(X)

(43)

Statistiques textuelles

Loi hypergéométrique

§ Principes généraux

‚ Répétition d’une épreuven fois sans remise

‚ Combien de « succès » ?

ñ Entre0 etn, avec une probabilité décroissante

‚ Paramètres : probabilitép, répétitionn, nombre total N

§ Formule : P(X=k) = (pN

k

)˚((1´p)N

n´k

)/(N

n

)

§ Courbe (p= 0,3, n= 10, N= 20) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

Damien Nouvel (Inalco) Prétraitements de corpus 19 / 21

(44)

Statistiques textuelles

Loi hypergéométrique

§ Principes généraux

‚ Répétition d’une épreuven fois sans remise

‚ Combien de « succès » ?

ñ Entre0 etn, avec une probabilité décroissante

‚ Paramètres : probabilitép, répétitionn, nombre total N

§ Formule : P(X=k) = (pN

k

)˚((1´p)N

n´k

)/(N

n

)

§ Courbe (p= 0,3, n= 10, N= 20) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

(45)

Statistiques textuelles

Loi hypergéométrique

§ Principes généraux

‚ Répétition d’une épreuven fois sans remise

‚ Combien de « succès » ?

ñ Entre0 etn, avec une probabilité décroissante

‚ Paramètres : probabilitép, répétitionn, nombre total N

§ Formule : P(X=k) = (pN

k

)˚((1´p)N

n´k

)/(N

n

)

§ Courbe (p= 0,3, n= 10, N= 20) :

0 2 4 6 8 10

0 0.2 0.4

X

P(X)

Damien Nouvel (Inalco) Prétraitements de corpus 19 / 21

(46)

Statistiques textuelles

Loi hypergéométrique

§ Principes généraux

‚ Répétition d’une épreuven fois sans remise

‚ Combien de « succès » ?

ñ Entre0 etn, avec une probabilité décroissante

‚ Paramètres : probabilitép, répétitionn, nombre total N

§ Formule : P(X=k) = (pN

k

)˚((1´p)N

n´k

)/(N

n

)

§ Courbe (p= 0,3, n= 10,N= 20) :

0.4

P(X)

(47)

Statistiques textuelles

Calcul des spécificités

§ Statistique sur les fréquences des termes par partie

‚ Formule sur la matrice termes / documents (parties)

fij(fréquence dans une partieid’un terme j)

T=ř

ijfij(taille totale du corpus)

di=ř

jfij(taille d’une partie i)

tj=ř

ifij (nombre total d’occurence du termej ñ P(fij=k) =

(tj

k

)˚(T´tj

di´k

) (T

di

)

§ Spécificités pour la partie au regard du corpus

‚ Probabilité faible (fréquence inattendue) par seuil(0,05)

‚ Spécificitéspositives : fréquence forte, sur-représentation

‚ Spécificitésnégatives: fréquence faible, sous-représentation ñ Permet de caractériser la sous-partie du corpus

§ On peut travailler sur plusieurs partitions du corpus

Damien Nouvel (Inalco) Prétraitements de corpus 20 / 21

(48)

Statistiques textuelles

Calcul des spécificités

§ Statistique sur les fréquences des termes par partie

‚ Formule sur la matrice termes / documents (parties)

fij(fréquence dans une partieid’un terme j)

T=ř

ijfij(taille totale du corpus)

di=ř

jfij(taille d’une partie i)

tj=ř

ifij (nombre total d’occurence du termej ñ P(fij=k) =

(tj

k

)˚(T´tj

di´k

) (T

di

)

§ Spécificités pour la partie au regard du corpus

‚ Probabilité faible (fréquence inattendue) par seuil(0,05)

‚ Spécificitéspositives : fréquence forte, sur-représentation

‚ Spécificitésnégatives: fréquence faible, sous-représentation ñ Permet de caractériser la sous-partie du corpus

§ On peut travailler sur plusieurs partitions du corpus

(49)

Statistiques textuelles

Calcul des spécificités

§ Statistique sur les fréquences des termes par partie

‚ Formule sur la matrice termes / documents (parties)

fij(fréquence dans une partieid’un terme j)

T=ř

ijfij(taille totale du corpus)

di=ř

jfij(taille d’une partie i)

tj=ř

ifij (nombre total d’occurence du termej ñ P(fij=k) =

(tj

k

)˚(T´tj

di´k

) (T

di

)

§ Spécificités pour la partie au regard du corpus

‚ Probabilité faible (fréquence inattendue) parseuil (0,05)

‚ Spécificitéspositives : fréquence forte, sur-représentation

‚ Spécificitésnégatives: fréquence faible, sous-représentation

ñ Permet de caractériser la sous-partie du corpus

§ On peut travailler sur plusieurs partitions du corpus

Damien Nouvel (Inalco) Prétraitements de corpus 20 / 21

(50)

Statistiques textuelles

Calcul des spécificités

§ Statistique sur les fréquences des termes par partie

‚ Formule sur la matrice termes / documents (parties)

fij(fréquence dans une partieid’un terme j)

T=ř

ijfij(taille totale du corpus)

di=ř

jfij(taille d’une partie i)

tj=ř

ifij (nombre total d’occurence du termej ñ P(fij=k) =

(tj

k

)˚(T´tj

di´k

) (T

di

)

§ Spécificités pour la partie au regard du corpus

‚ Probabilité faible (fréquence inattendue) parseuil (0,05)

‚ Spécificitéspositives : fréquence forte, sur-représentation

§ On peut travailler sur plusieurs partitions du corpus

(51)

Statistiques textuelles

Calcul des spécificités

§ Statistique sur les fréquences des termes par partie

‚ Formule sur la matrice termes / documents (parties)

fij(fréquence dans une partieid’un terme j)

T=ř

ijfij(taille totale du corpus)

di=ř

jfij(taille d’une partie i)

tj=ř

ifij (nombre total d’occurence du termej ñ P(fij=k) =

(tj

k

)˚(T´tj

di´k

) (T

di

)

§ Spécificités pour la partie au regard du corpus

‚ Probabilité faible (fréquence inattendue) parseuil (0,05)

‚ Spécificitéspositives : fréquence forte, sur-représentation

‚ Spécificitésnégatives: fréquence faible, sous-représentation ñ Permet de caractériser la sous-partie du corpus

§ On peut travailler sur plusieurs partitions du corpus

Damien Nouvel (Inalco) Prétraitements de corpus 20 / 21

(52)

Statistiques textuelles

Utilisation de la textométrie

§ Recherche des termes caractéristiques par sous-partie ñ Fréquence plus importante que celle attendue

ñ Probabilité de cette fréquence faible ñ Permet de caractériser la sous-partie

§ Contraste de parties d’un corpus

‚ Par date

‚ Par auteur

‚ Par thème

‚ …

(53)

Statistiques textuelles

Utilisation de la textométrie

§ Recherche des termes caractéristiques par sous-partie ñ Fréquence plus importante que celle attendue

ñ Probabilité de cette fréquence faible ñ Permet de caractériser la sous-partie

§ Contraste de parties d’un corpus

‚ Par date

‚ Par auteur

‚ Par thème

‚ …

Damien Nouvel (Inalco) Prétraitements de corpus 21 / 21

Références

Documents relatifs

Pour l’ensemble des mis en cause (majeurs et mineurs), et donc pour les cas où des pour- suites pourront être envisagées un suspect ayant été entendu, le point saillant est la

In general, these models use the ANN discriminative stage to analyse and classify local observations at frame level, whereas the HMM generative stage is devoted to the integration

Les métiers pour une personne qui aime le contact avec le public?... Chapitre 12

In general, these models use the ANN discriminative stage to analyse and classify local observations at frame level, whereas the HMM generative stage is devoted to the integration

Parle d’une voix claire pour que tout le monde t’entendea. 4 Souligne les deux phrases où le mot bouton a le

Consigne 1 : Retrouve le sens du verbe frapper dans les phrases en ajoutant à la fin des phrases : applaudir, impressionner, atteindre, cogner, tirer..  Le footballeur

Consigne 1 : Retrouve le sens du verbe frapper dans les phrases en les réécrivant avec : applaudir, impressionner, atteindre, cogner, tirer..  Le footballeur frappe

(action ou état) Il varie en fonction du temps et de la personne.. On peut mettre un