N.Brunel,P.dosSantos,E.Perinel MST2-Statistiques

(1)

MST2 - Statistiques

N. Brunel, P. dos Santos, E. Perinel¹

1. nicolas.brunel@ensiie.fr

(2)

Plan et bibliographie

(3)

Objectif du cours

Objet d'étude : Un tableau dep mesures sur n individus (i.e. un tableau de chires ou de fréquences de taille n×p).

Objectifs des statistiques :

1 Description : Construction de résumés numériques et graphiques (pertinents, interprétables, ables)

2 Modélisation

3 Estimation et évaluation de la précision

4 Décision entre plusieurs hypothèses

5 Prédiction

(4)

Domaine d'applications

Métiers de la banque, nance (économétrie : prediction, identication de facteurs, modélisation de risque de crédit,. . .),

Sciences humaines (sociologie : étude de réseaux sociaux, économie : évaluation des politiques économiques),

Ingéniérie (analyse et optimisation de process, abilité, contrôle qualité,. . .) ;

Sciences expérimentales (biologie, chimie, écologie,. . . : planication d'expériences, découvertes d'associations, de groupes d'individus) ; (e-)Marketing (datamining, webmining) ;

...

N. Brunel, P. dos Santos, E. Perinel MST2 - Statistiques 4 / 57

(5)

Informatique et Statistiques

Sans ordinateur, les statistiques ne sont rien...

Logiciels payants :

I SAS,

I SPAD,

I SPSS,

I Matlab(langage matriciel général pour les maths appliquées), Logiciels gratuits :

I R(langage matriciel - calcul scientique poussé pour les statistiques).

I Weka (data mining / machine learning),. . .

(6)

Bibliographie en statistique

G. Saporta, Probabilités, Analyse de données et statistique, Technip.

A. Monfort, Cours de Statistique Mathématique, Economica.

T. Hastie, Tibshirani, J. Friedman (Stanford Univ.), Elements of Statistical Learning, www-stat.stanford.edu/~hastie/Papers/ESLII.pdf.

S. Tuéry, Data Mining et statistique décisionnelle, Technip.

S. Weisberg, Applied Linear Regression, Wiley.

D. Fourdrinier, Statistique Inférentielle, Dunod.

Site de la Société Française de Statistique (SFdS, http ://www.sfds.asso.fr/)

(7)

Plan du cours

Chapitre 1 Statistique Descriptive et Introduction à l'inférence statistique Chapitre 2 Vraisemblance, estimation ponctuelle

Chapitre 3 Intervalles de conance Chapitre 4 Théorie des tests

(8)

Organisation du chapitre 1

1 Introduction à l'inférence statistique Les données et le cadre probabiliste Les outils probabilistes de la statistique Statistiques descriptives : graphiques

Statistiques descriptives : indicateurs numériques Liaison entre deux variables

Inférence Statistique

2 Modèles Statistiques Modèles et estimateurs Autres modèles classiques

(9)

Chap. 1 : Statistique Descriptive et Introduction à

l'Inférence Statistique

(10)

1.1. Les données et le cadre probabiliste

(11)

Des données réelles quantitatives

Les tailles (en cm), et poids (en kg), par exemple....

(12)

Des données réelles qualitatives

Etude de l'association entre croyance religieuse et éducation.

n=2726. La p-value est<0.0001,V²=0.0127

Croyances religieuses

Diplôme Fondament. Modéré Libéral Total

<Bac 178

(137.8)¹(4.5)²

138 (161.5) (-2.6)

108

(124.7) (-1.9) 424

Bac 570

(539.5) (2.6)

648 (632.1) (1.3)

442

(488) (-4.0) 1660

Licence≥ 138

(208.7) (-6.8)

252 (244.5) (0.7)

252

(188.9) (6.3) 642

Total 886 1038 802 2726

Table:Enquête - 1996 - USA, 1. Fréquences théoriques sous indépendance, 2.

Résidu de Pearson Standardisé :e_ij=ⁿ^ij⁻ⁿ

pˆ⁰_ij q

np^ˆ⁰_ij

(13)

Modélisation Probabiliste : Population vs Echantillon

Les donnéesx₁, . . . ,x_n sont les réalisations répétées d'une variable aléatoire X : (Ω,A,P)−→(R^p,B(R^p)). SoitPX la loi de probabilité (image) dénie sur (R^p,B(R^p)).

I Le modèle probabilisteP= (R^p,B(R^p),P_X)est la POPULATION idéalisée (de taille innie).

I L'échantillonSn= (x₁, . . . ,x_n)est une sous-population nie deP La grande question est Comment retrouverP_X à partir deSn?

1 A t on un a priori sur la forme deP_X (par ex. modèle paramétrique P_X =P_θ,θ∈R) ?

2 Quelles statistiquesT choisir pour décrireP_X de manière pertinente (quantiles, indicateurs de position, dispersion) ?

3 Comment estimer un paramètreθ=T(P_X)de manière optimale ?

4 Comment diérencier deux loisP_X etP_X⁰ à partir deSn?

(14)

1.2. Les outils probabilistes de la statistique

(15)

Dénitions

Dénition 1.1 : la Loi d'une variable aléatoire (v.a.) X : (Ω,A,P)−→(R,B(R))est la proba. P_X t.q

∀a,b/[a,b]⊂R,P_X([a,b]) =P(X∈[a,b]) Dénition 1.2 :

I Densité de la v.a. continueX (dénie surR^p, relativement à la mesure de Lebesgue) : fonctionf_X ≥0 t.q.

E_f(T(X)) = Z

R^p

T(x)f_X(x)dx

pour fonctionT continue bornée réelle.

I Densité variable discrèteY dénieY ={y₁,y₂. . .} : fonctionf_Y ≥0 t.q.

E_f(T(Y)) =

∑

y_k∈Y

f_Y(y_k)T(y_k)

pour fonctionT continue bornée réelle, (i.ef :Y −→R, t.q.

y7→f(y) =P(Y=y)).

(16)

Une loi incontournable : la loi normale

Loi Normale centrée et réduite X∼N(0,1) si f_X(x) =^√¹

2πexp −¹₂x² .

Loi Normale (Gaussienne) quelconque Y ∼N(m,σ²) si f_Y(y) =^√¹

2π σexp

−^(y−m)_2σ₂ ²

etY =m+σX. Vecteur Gaussien dans R^p :Y ∼N(m,Σ) si f_Y(y) = ¹

(2π)^p/²|Σ|⁻¹^/²exp −¹₂(y−m)^>Σ⁻¹(y−m)

; ou si ∀a∈R^p, a^>Y gaussien.

Loi du Khi-2 àn ddl χ_n² : Si X₁, . . . ,Xn i.i.d de loi N(0,1) alors S_n²=X₁²+· · ·+X_n²∼χ_n² et de densitéf_S(s) =^s^n/²⁻¹^exp^(−s/²⁾

2^n/²Γ(n/2) . Généralisation : Loi Gamma : densité p/r à Lebesgue surR : f(x;a,b) =_Γ(a)^b^a x^a−¹exp(−bx)1_R⁺(x).

(17)

Modèle d'échantillonnage

Dénition 1.3 : Un échantillon Sn= (X₁, . . . ,Xn) de taille n est un n-uplets de v.a X_i à valeurs dans(R^p,B(R^p))de lois indépendantes et identiquement distribuées (noté i.i.d) et de densité communef(x). L'échantillon Sn a une densité

f_X₁_,...,X_n(x₁, . . . ,x_n) =

n

∏

i=1

f(x_i)

relativement à la mesure produitdx^⊗n dénie sur (R^p,B(R^p))^⊗n. Dénition 1.4 : Une statistique est toute fonction (mesurable) de l'échantillon T(X₁, . . . ,X_n). Le plus souvent,T est intégrable E_f[|T(X₁, . . . ,Xn)|]<∞.

(18)

1.4. Statistiques Descriptives : graphiques

(19)

Description directe de la probabilité P

_X

Représentation graphique de l'estimation empirique

I Fonction de répartition empirique,

I diagramme en bâtons : hauteur des bâtons∝fréquencesf_k

I Histogramme,

I Boîte à moustaches.

(20)

Histogramme et densité

Notation : n_k = #{x_i∈C_k} eectif de la classeC_k,f_k =ⁿ_n^k fréquence de la classeC_k,F_k=^∑^i≤k_nⁿⁱ fréquence cumulée (ou ∑i≤kf_i).

L'histogramme est une sorte de dérivée de la fonction de répartition empirique qui approche la densitéfX =F_X⁰ :

SoitC₁,C₂, . . . ,C_K une partition (en intervalles) de [A,B], avec

A≤minx_i ≤maxx_i≤B, l'estimateur de l'histogramme est fˆn(x) =

K

∑

k=1

fk

h_k1{x∈C_k}

Qualité d'estimation de l'histogramme Pour toutx∈R, pourK xé, et si x∈Ck alors

E_Ph fˆ_n(x)i

= P(X∈C_k)

h_k et V( ˆf_n(x)) = P(X∈C_k) (1−P(X ∈C_k)) nh²_k

(21)

Les quantiles

SoitFX la fonction de répartition de la variable aléatoireX.

I Un quantileq_α est tel queF(q_α) =α avec 0≤α≤1, et q_α=F⁻¹(α) =inf{x|F(x)≥α}.

Quantile empirique = quantile de la f.d.r empirique de l'échantillon Sn= (x₁, . . . ,x_n)

I QuartilesQ₁,Q₂,Q₃dénis parF(Q₁) =0.25,F(Q₂) =0.5, F(Q₃) =0.75 et∆Q=Q₃−Q₁.

Boîte à Moustaches (ou Box-plot)

Représentation graphique des quantiles les plus importants,

Les moustaches = observations à une distance ±1.5∆Q des quartiles Q₁,Q₃,

=⇒ permet la détection de la masse centrale de la pop., sa dispersion et les atypiques.

(22)

1.5. Statistiques descriptives : indicateurs

numériques

(23)

Indicateurs de tendance centrale

Pour une variable aléatoire réelle des mesures de positions sont :

I E(X): espérance ou moyenne

I F_X⁻¹(¹₂): médiane (en tout généralité inf

x∈R|F_X(x)≥¹₂ )

I x₀t.q. f_X⁰(x₀) =0 : mode

Pour un échantillon observationsx₁, . . . ,x_n : Moyenne empirique x¯=¹_n∑ⁿ_i₌₁xi

Médiane empirique soit x₍₁₎≤x₍₂₎≤ · · · ≤x_(n) l'échantillon ordonné alors Me=x_(n+₁_/₂₎ ou Me∈

x_(n),x_(n+₁_/₂₎

(sin pair). En toute généralité, calculé à partir de la f.d.r empirique F_n.

(24)

Interprétation

Moyenne et Médiane sont des approximations de la variableX par une fonction déterministe (constante)

I E(X) =argminmE

(X−m)²

I Me(X) =argminmE(|X−m|) Versions empiriques :

I x¯=argminm∑ⁿ_i=1(x_i−m)²

I Me(x)∈argminm∑ⁿ_i=1|x_i−m|

Quelle est la qualité (représentativité) de ces résumés (de tendance centrale) ?

Nécessité d'évaluer la qualité de cette approximation, i.e. la dispersion autour de cette valeur.

(25)

Indicateurs de dispersion : variance et écart-type

Dénition de la variance

V_P(X) = E_P

(X−E(X))²

= E_P X²

−E_P(X)² et écart-type (homogène aux observations)

σ_X =σ(X) =p

V_P(X).

Propriétés

I E_P

(X−a)²

=V_P(X) + (E_P(X)−a)²(formule de Huygens).

I V_P(aX+b) =a²V(X)et∀a,b,σ(aX+b) =|a|σX

Estimateurs :

I Biaisé :s_x =_n¹∑ⁿ_i=1(x_i−x)¯ ²

I Non-biaisé :s˜_x=_n−¹₁∑ⁿ_i=1(x_i−x)¯ ²

(26)

Indicateurs d'asymétrie : Skewness

Le skewness est le moment centré d'ordre 3 normalisé. Il mesure l'asymétrie d'une distribution

γ₁= E

h

(X−E(X))³ i σ³ Référence pour une loi normale :γ₁=0.

Estimateur sans biais (sous hypothèse gaussianité) : G₁= n

(n−1)(n−2)

n

∑

i=1

x_i−x¯

˜ s_x

₃

(27)

Indicateurs d'applatissement : Kurtosis

Le kurtosis est le moment standardisé d'ordre 4. Il mesure l'applatissement de la distribution

γ₂= E

h

(X−E(X))⁴ i σ⁴ Référence pour une loi normaleγ₂=3.

Estimateur sans biais (sous hypothèse normale) : G₂= n(n+1)

(n−1)(n−2)(n−3)

n

∑

i=1

x_i−x¯

˜ s_x

₄

−3 (n−1)² (n−2)(n−3)

(28)

1.6. Liaisons entre deux variables

(29)

Covariance de variables aléatoires

Soient X,Y : (Ω,A,P)→Rdeux variables aléatoires de loiP_X_,Y, alorshX,Yi=EP(XY) déni un produit scalaire dansL²(P) (mesure de similarité) et _kX^hX_k2^,YkYⁱk² =cos(θ_X_,Y).

En statistique, la covariance indique si les uctuations autour de la moyenne deX et deY sont similaires :

covP(X,Y) =hX−E_P(X),Y−E_P(Y)i Propriétés :

I ∀a,bcovP(aX+b,Y) =a×covP(X,Y)

I V_P(X+Y) =V_P(X) +V_P(Y) +2covP(X,Y)

I |cov_P(X,Y)| ≤p

V_P(X)V_P(Y) Corrélation r(X,Y) =r_XY = cov^P^(X^,Y⁾

(VP(X)VP(Y))^1/2.

(30)

Estimation empirique et graphique

Estimation (version empirique) à partir d'un echantillon (x₁,y₁), . . . ,(xn,yn) :

cov\P(X,Y) = 1 n

n

∑

i=1

(x_i−x)(y¯ _i−y)¯

br_XY = ∑ⁿ_i=₁(x_i−x)(y¯ _i−y¯) p

∑i(xi−x)¯ ²∑i(yi−y)¯ ²

Soit X= (X₁, . . . ,Xp)^> v.a. à valeurs dansR^p, la matrice de covariance Σ_X=covP(X₁, . . . ,X_p) = (covP(X_i,X_j))_i,j=E

(X−E(X))(X−E(X))^>

.

I Matrice de similarité (Gram) entre variables aléatoires dansL²(R).

I Σ_Xest la matrice t.q

∀a= (a₁, . . . ,a_p),V_P(a₁X₁+· · ·+a_pX_p) =a^>Σ_Xa Estimateur empirique de la covariance

Σˆ_X,n = 1 n

n

∑

i=1

Xi−X

Xi−X>

(31)

Exemple : La loi normale multivariée

Soit µ∈R^p etΣmatrice symétrique dénie positive alors X ∼N(µ,Σ)si sa densité est

f_X(x) =det(Σ)⁻¹^/² (2π)^p/² exp

−1

2(x−µ)^>Σ⁻¹(x−µ)

E_P(X) =µ et covP(X₁, . . . ,X_p) = Σ. X est un vecteur gaussien.

(32)

Loi jointe de deux variables qualitatives

SoitX,Y deux variables aléatoires qualitatives (les modalités sont resp.x₁, . . . ,x_p et y₁, . . . ,y_q).

La loi jointe de(X,Y) est un tableau P∈R^p×q, avec Pkl =P(X=xk,Y =yl).

Les distributions deX et Y sontP_X etP_Y (appelées distribution marginales de PX,Y) et se représente par des vecteurs

(pX = (P(Xi=x_k))₁_≤k≤p = (p_k_.)₁_≤k≤p pY = (P(Y_i =y_l))₁_≤l≤q = (p_.l)₁_≤l≤q

(33)

Tableau de contingence et estimation de la loi

Pour un échantillon Sn= ((x₁,y₁). . .(xn,yn)), on note les eectifs : n_kl = #{X_i =x_k,Y_i=y_l},nk·= #{X_i=x_k},n·l= #{Y_i =y_l}. Représentation des données : Tableau de contingence

y₁ y₂ · · · y_j · · · y_q x₁ n₁₁ n₁₂ n₁_q n₁_.

...

x_i n_ij n_i_.

...

xp np1 npq

n.1 n.2 n.j n.q n n_i_.=∑^q_j₌₁n_ij,n_.j =∑^p_i=₁n_ij (marges du tableau),

∑^p_i=₁ni.=∑^q_j₌₁n.j =n.

Estimation empirique : pˆ_ij =ⁿ_n^ij ; distributions marginales pˆ_.j =ⁿ_n^.j et ˆ

p_i_.= ⁿ_nî. ; distributions conditionnellespˆ_i|j =_n.jⁿîj =_p^p^ˆ_ˆîj

.j.

(34)

1.3. Inférence statistique

(35)

Rappels sur les diérentes convergences stochastiques

Soit(Xn)_n≥₁ une suite de variables aléatoires (v.a.) de (Ω,A,P) dans R^p, etX v.a. dénie sur le même espace. On parle de :

Convergence en probabilités XnProba

−→ X, si pour tout ε>0, P(kX_n−Xk>ε)−→0 quandn−→∞

Convergence presque-sure X_n^P−ps−→ X, si P({limnkX_n−Xk=0})−→1 quand n−→∞

Convergence en loi X_n X, si pour toute fonction continue bornée f, EP[f(Xn)]−→EP[f(X)] quand n−→∞

(36)

Les grands théorèmes de probabilité

Loi Forte des Grands Nombres : SiX₁, . . . ,Xn échantillon i.i.d de loi communeP_X tel que E[|X_i|]<∞alors

X¯n= X₁+· · ·+Xn

n n−−−−→→∞E[Xi]P−ps

Théorème Limite Central : SiX₁, . . . ,Xn échantillon i.i.d de loi communeP_X tel que E[X_i] =m<∞et σ²=E

X_i²

−E[X_i]² alors X¯n−m

√σ n

N(0,1)

(37)

Fonction de Répartition

(CasX ∈R) : La probabilité PX peut être décrite par la fonction de répartitionF_X(x) =P(X ≤x) (f.d.r)

I F_X fonction croissante, positive tel queF(−∞) =0 etF(+∞) =1.

I E_P(T(X)) =^R

RT(x)dF_X(x) =^R

RT(x)f_X(x)dx siF_X admet une dérivéef_X.

Fonction de répartition empirique

Si s_n est un échantillon, on denit la f.d.r. empirique, pour toutx∈R, Fˆn(x) = 1

n

∑

i=1

1{x_i≤x}.

La mesure de probabilité associée Pn(·) =¹_n∑ⁿ_i=₁δxi(·)est appelée la mesure empirique.

(38)

Théorème fondamental de la Statistique

A partir d'un échantillon X₁, . . . ,X_n i.i.d de loi F_X, on peut retrouver la probabilité dénie sur tout Ω

1 Convergence ponctuelle : ∀x∈R, E_Ph

Fˆ_n(x)i

=F_X(x) et V( ˆF_n(x)) = F_X(x) (1−F_X(x)) n

d'où E

Fˆ_n(x)−F_X(x)₂

=^F^X^(x)(¹_n^−F^X^(x))→0 et Fˆ_n(x)^n→∞→ F_X(x) (en Proba et ps).

2 Convergence Uniforme : Théorème de Glivenko-Cantelli sup

x∈R

Fˆ_n(x)−F_X(x)

p.s.→ 0

(39)

2. Modèles Statistiques

(40)

2.1. Modèles et estimateurs

(41)

Modèle Statistique et Estimateurs

Dénition 1.3 : un modèle statistique M est une famille de famille de densités paramétrées par un espace des paramètresΘ⊂R^q. M ={f(x;θ),x∈X|θ∈Θ}.

En statistique paramétrique, la loi est connue au paramètre θ près (de dimension nie).

Dénition 1.4 : Un estimateur de θ est une statistique de l'échantillon

θ(Xˆ ₁,X₂, . . . ,Xn), qui ne dépend pas du paramètre inconnuθ, et qui

approche la valeur deθ.

Dénition 1.5 : Un Estimateur Sans Biais est E_θh

θ(Xˆ ₁, . . . ,X_n)i

=θ pour toutθ.B( ˆθ) =E_θh

θ(Xˆ ₁, . . . ,X_n)i

−θ est le biais de l'estimateur. Un estimateur est asymptotiquement sans biais si E_θ

hθ(Xˆ ₁, . . . ,Xn) i

−→θ sin−→∞.

Dénition 1.6 : Un Estimateur est convergent/consistent : si θ(Xˆ ₁, . . . ,Xn)−→θ enP_θ- probabilité sin−→∞.

(42)

Evaluation d'un estimateur : le risque quadratique

Dénition 1.7 : Le risque quadratique est dénie à partir de la fonction de coût quadratique pour un estimateur θˆ=d(X₁, . . . ,X_n)

R( ˆθ,θ) = E_θ

θˆ−θ ₂

= E_θ

E_θh θˆ

i−θ ₂

| {z }

Biais

+E_θ

θˆ−E_θh θˆ

i₂

| {z }

Variance

I Généralisation au cas multivarié : E_θ

θˆ−θ

2

=E_θ

θˆ−E_θh θˆ

i

2

+∑^p_i₌₁V_θ( ˆθ). Mesure utile pour comparer et choisir des estimateurs.

D'autres fonctions de coût sont envisageables, pour l'estimation de paramètres ou d'une variable.

(43)

Exemple de modèle : Modèle de Bernoulli et multinomial

Modèle de Bernoulli :B(1,p) déni sur {0,1}; mesure de référence µ(x) =δ₀(x) +δ₁(x) (somme de mesures de dirac) ; densité est f(x;p) =p1{0}(x) + (1−p)1{1}(x)

M =

p1{0}(x) + (1−p)1{1}(x)|p∈]0,1[

Modèle multinomial de paramètresK,n et (p₁, . . . ,pK):n tirages (indépendants) parmik catégories avec une probabilité p_k; le modèle est déni sur{0,1, . . . ,n}^⊗K et

P(N₁=n₁, . . . ,NK=nK) =_n ^n!

1!...n_K!p₁ⁿ¹. . .p_Kⁿ^K. On peut prendre comme mesure de référence (δ₀+· · ·+δ_K)^⊗K, et la densité s'écrit

f(n₁, . . . ,n_K;n,K,p_i) =

∑

(n₁,...,nK)

n!

n₁!. . .nK!p₁ⁿ¹. . .pⁿ_K^K1N₁=n₁,...,NK=nK

avec l'espace des paramètres le simplexe (ouvert) SK =n

(p₁, . . . ,p_K)∈]0,1[^K

∑^K_k=₁p_k =1o .

(44)

Modèle de Poisson

Modèle de Poisson dénieNavecP(X=k) =e^{−λ λ}_k!^k. La mesure de référence est la mesure de comptage µ=∑^∞_k₌₀δ_{k} et la densité s'écrit f(x;λ) =e^{−λ λ}_x!^x ;

M =

f(x;λ)

λ ∈R⁺ .

(45)

Modèle Gaussien

Loi Normale (Gaussienne) quelconque Y ∼N(m,σ²) : mesure de référence = mesure de Lebesgue, fY(y;m,σ) = ^√_{2π σ}¹ exp

−^(y−m)₂ ²

σ²

.

I σ=σ₁xé (moyenne inconnue) :M₁={f(x;m,σ₁)|m∈R}

I M₂=

f(x;m,σ)|m∈R,σ²∈R^∗⁺

(46)

2.2. Autres modèles classiques

(47)

Modèle position-échelle

DansR^p, soit m∈R^p vecteur déterministe, etε variable aléatoire, de fonction de répartition F₀ t.q. F₀(0) =¹₂ (par ex. Normale, ou

Cauchy), alors la variable

Y =m+σ ε

suit un modèle position-échelle (généralise la loi normale).

(48)

Modèles de régression

Régression linéaire : Y =b₀+b₁X₁+b₂X₂+ε, avecε∼N(0,σ²). Régression logistiqueY ∼B

1,p(x₁,x₂) = ₁₊^exp_exp^(b_(b⁰^+b¹^x¹^+b²^x²⁾

0+b₁x₁+b₂x₂)

. Objectif : estimation des paramètres b= (b₀,b₁,b₂) et prédiction de la variable Y à partir de(X₁,X₂) et d'une estimation préalable.

(49)

Modèle de mélange de lois gaussiennes

On peut tirer 2 populations P₀ ou P₁ au hasardX, avec P(X =0) =1−p etP(X =1) =p

Sachant la population, la loi de Y sachantX est gaussienne de paramètres(m₀,σ₀²) ou (m₁,σ₁²).

La densité de Y p/r à Lebesgue : fY(y) = (1−p)^√_{2π σ}¹

0exp

−^(y−m⁰⁾²

2σ₀²

+p^√_{2π σ}¹

1exp

−^(y−m¹⁾²

2σ₁²

. L'espace des paramètres estθ= (m₀,m₁,p) (on suppose que m₀<m₁) dans R×R×]0,1[.

Objectif : estimation du paramètre et prédiction de la classe d'appartenance X, sachantY, à partir du calcul de la probabilité a posterioriP(X|Y =y).