• Aucun résultat trouvé

Les p-boxes [F , F ] g´en´eralisent l’id´ee de l’intervalle d’une paire de points `a une paire de probabilit´es cumul´ees (voir Section 2.1.1). Elles sont une mani`ere tr`es naturelle de prolonger

Repr´esentations math´ematiques de la connaissance 51 la notion d’intervalle. Elles sont particuli`erement instructives quand les deux distributions cu- mulatives sont proches l’une de l’autre (i.e. F−1(0) << F−1(1)). Elles apparaissent comme un choix naturel pour les mod`eles param´etriques avec des param`etres impr´ecis. Par exemple, un mod`ele gaussien, o`u la moyenne et/ou l’´ecart type se situent dans un intervalle prescrit, peut naturellement engendrer une p-box ´etroite (mˆeme si cette derni`ere contient des distributions non gaussiennes). Le mod`ele de la p-box a ´et´e particuli`erement ´etudi´e par Ferson [48, 49]. Nous rappelons ses propositions pour repr´esenter des distributions de probabilit´e connaissant la moyenne et l’usage de la distance de Kolmogorov-Smirnov pour obtenir une p-box `a partir d’un faible ´echantillon de donn´ees.

3.2.1 Approximation d’une mesure de probabilit´e de moyenne et de sup-

port connu.

Supposons qu’un expert fournisse la moyenne µ et le support I = [b, c]. Notons Pmean I l’en-

semble des probabilit´es de support I et de moyenne µ. Ferson [49] propose de repr´esenter cette connaissance par une p-box [F , F ]. Pour l’obtenir, il r´esout s´epar´ement les deux probl`emes suivants pour chaque valeur de x :

F (x) = sup

F :E(X)=µ

F (x) et F (x) = inf

F :E(X)=µF (x)

o`u l’inconnue est la fonction de r´epartition F . Utilisant la propri´et´e caract´eristique de la moyenne :

Z µ b F (y)dy = Z c µ (1− F (y))dy on obtient le r´esultat suivant

F (x) =  x−µ x−b ∀x ∈ [µ, c] 0 ∀x ∈ [b, µ] et F (x) =  1 ∀x ∈ [µ, c] c−µ c−x ∀x ∈ [b, µ]

La p-box [F , F ] (voir Figure 3.2 pour l’exemple) d´efinit une famille de probabilit´es P(F < F )

1 2 3 4 5 6 7 8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 PSfrag replacements F F

Fig. 3.2 – P-box d´efinit `a partir de x [2, 7] et E(X) = 4. 1 2 3 4 5 6 7 8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 π

Fig. 3.3 – Distribution de possibilit´e π contenant la p-box [F , F ].

52 Repr´esentations math´ematiques de la connaissance qui contient PmeanI . On pourrait ˆetre tent´e d’utiliser la famille de probabilit´es induite par la distribution de possibilit´e π telle que

π(x) = c− µ

c− x pour x∈ [b, µ] et π(x) = 1− x− µ

x− b pour x∈ [µ, c] mais comme nous l’avons d´ej`a mentionn´e, l’inclusion Pmean

I ⊂ P(π) n’est pas vraie. La mesure

de probabilit´e P , d´efinie par P (X = 2) = 3/5 et P (X = 7) = 2/5, suffit pour montrer que nous n’avons pas l’inclusion. En effet, nous avons E(X) = 4 mais P (X = 2 ou X = 7) = 1 et Π(X = 2 ou X = 7) = 0.6, ce qui est contradictoire avec P ≤ Π. Comme nous l’avons d´ej`a fait remarquer (voir Section 2.3), la famille de probabilit´es P(π) telle que π+(x) = min(1, 2F (x)) et π−(y) = min(1, 2(1− F (y))) (voir Figure 3.3), contient Pmean

I et P(F < F ). Cependant,

il est clair que cette p-box de Fig.3.2 est d´ej`a tr`es peu informative, et que la possibilit´e la couvrant l’est encore moins. En fait, la valeur moyenne ne semble pas apporter beaucoup d’information sur la distribution, et le probl`eme de trouver une meilleure repr´esentation de ce genre d’information reste ouvert. D’ailleurs, alors qu’il est tr`es facile et souvent naturel de calculer la valeur moyenne des donn´ees statistiques, il n’est pas clair que cette valeur soit cognitivement plausible, i.e., nous pouvons douter qu’une valeur repr´esentative unique d’une quantit´e mal connue fournie par un expert se rapporte `a la moyenne. De plus, alors que certaines quantit´es comme le revenu moyen ont un sens, la taille moyenne des humains apparaˆıt comme une notion tr`es artificielle. En effet, on pourrait avoir 50% des individus de taille ´egale `a 1.60 m`etres, 50% des individus de taille ´egale `a 1.80 m`etres et il est absurde de d´ecr´eter que la taille moyenne d’un individu est de 1.70 m`etres.

3.2.2 Repr´esentation d’un ´echantillon de petite taille

Quand la connaissance disponible se r´esume `a un ´echantillon de petite taille (x1, ..., xn)

provenant d’une distribution de probabilit´e inconnue, Ferson et al. [48] d´efinissent une p-box [F , F ] en utilisant la loi de Kolmogorov-Smirnov (not´ee K.S.) [45, 78]. La loi de K.S. fournit des distributions cumul´ees limites de la distribution cumul´ee de l’´echantillon Fn o`u n est la

taille de l’´echantillon. Nous pouvons d´efinir Fn comme suit :

Fn(x) =                0 pour x < x(i) .. . i

n pour x(i) ≤ x < x(i+1)

.. .

1 pour x≥ x(n)

o`u x(i) sont les statistiques d’ordre de l’´echantillon.

(Fn)n et (Fn)n convergent vers la distribution cumul´ee empirique Fn quand la taille de

l’´echantillon devient grande, bien que la convergence soit plutˆot lente. La loi de Kolmogorov- Smirnov requiert que les donn´ees de l’´echantillon soient ind´ependantes et identiquement dis- tribu´ees. Cette hypoth`ese est standard, mais souvent difficile `a justifier (si les donn´ees pro- viennent de sources h´et´erog`enes, par exemple). Pour obtenir les probabilit´es cumul´ees limi- tantes F et F , on utilise la distance de Kolmogorov-Smirnov entre Fn et F d´efinie comme

suit : DKS = max i=1,...,n  |F (x(i))− i n|, |F (x(i))− i− 1 n | 

Repr´esentations math´ematiques de la connaissance 53 DKS est une variable al´eatoire dont la distribution n’est pas connue mais Kolmogorov a trouv´e

que √nDKS a une distribution limite donn´ee par :

∀ t ≥ 0 lim n→∞P ( √ nDKS ≤ t) = 1 − 2 +∞ X k=1 (−1)k+1e−2k2t2

Cette distribution limite a ´et´e tabul´ee et permet pour chaque niveau de confiance α de

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 PSfrag replacements F10 F F

Fig. 3.4 – Une P-box [F , F ] d´efinit `a partir d’un ´echantillon de taille 10.

trouver une valeur Dn(α) telle que P (DKS ≤ Dn(α)) = 1 − α. Pour conclure, la loi de

Kolmogorov-Smirnov permet de d´efinir une p-box [Fn, Fn],∀n,telle que

Fn= min(1, max(0, Fn(x)− Dn(α))) et Fn= min(1, max(0, Fn(x) + Dn(α)))

pour un niveau de confiance α fix´e. Par exemple, `a un niveau de confiance de 95%, pour un ´echantillon de taille 10, la valeur de Dn(α) est 0.40925 (voir Figure 3.4). Ces limites

sont souvent employ´ees pour exprimer la fiabilit´e des r´esultats d’une simulation ou pour examiner si le r´esultat d’une simulation suit un type de loi de probabilit´e. Cependant, il n’est pas habituel d’utiliser ces limites sur des param`etres d’entr´ee pour d´efinir une famille de probabilit´es respectant la connaissance disponible. Nous devons ˆetre conscient que ces limites ne sont pas des limites certaines mais des limites statistiques. Cela signifie par exemple que dans 95% du temps la vraie distribution se trouvera `a l’int´erieur des limites Fn et Fn.

3.2.3 Approximation d’un mod`ele probabiliste param´etrique

Nous pouvons imaginer qu’un expert puisse fournir un mod`ele probabiliste PΘ pour

repr´esenter sa connaissance sur les param`etres d’un mod`ele du risque. Cependant, celui-ci ´etant incapable d’estimer avec exactitude la valeur des param`etres θ ∈ Θ du mod`ele proba- biliste PΘ fournit un encadrement de chacun d’eux θ∈ [Θ, Θ]. Par exemple, l’expert d´ecide,

selon son exp´erience, qu’une certaine variable X suit une loi normale P(µ,σ) = N(µ, σ) et

estime que la moyenne µ∈ [µ, µ] et que l’´ecart type σ ∈ [σ, σ].

Soit FΘ la fonction de r´epartition associ´ee au mod`ele probabiliste PΘ. Nous pouvons alors

d´efinir une p-box [F , F ] `a partir de cette information en r´esolvant les deux probl`emes suivants : F (x) = inf

θ∈[Θ,Θ]

FΘ(x) et F (x) = sup θ∈[Θ,Θ]

54 Repr´esentations math´ematiques de la connaissance