Statistique et Informatique (LI323)
Nicolas Baskiotis - Hugues Richard
Universit ´e Pierre et Marie Curie (UPMC) Laboratoire d’Informatique de Paris 6 (LIP6)
(Supports de cours : N. Usunier)
Cours 1 :
Probabilit ´es sur des ensembles discrets et d ´enombrements
1 LI323 : description et informations pratiques
2 Applications des probabilit ´es et des statistiques en informatique
3 Probabilit ´es sur les ensembles discrets
4 D ´enombrements
Plan
1 LI323 : description et informations pratiques
2 Applications des probabilit ´es et des statistiques en informatique
3 Probabilit ´es sur les ensembles discrets
4 D ´enombrements
Description de l’UE
Objectifs du cours
Pr ´esenter les outils de base de:
I la th ´eorie des probabilit ´es,
I la statistique,
donner des exemples de leur application en informatique, manipuler quelques algorithmes issus de ces domaines
−→mini-projets.
Organisation
Calcul des probabilit ´es (Nicolas Baskiotis−cours1 `a6) :
I expos ´e simple sur la th ´eorie des probabilit ´es,
I quelques applications en informatique.
L’inf ´erence statistique (Hugues Richard−cours7 `a11) :
I recueil et analyse des donn ´ees,
I estimation, tests et validation.
Description de l’UE (2)
Informations pratiques
Site Web :http://www-connex.lip6.fr/˜baskiotisn/
Organisation enmini-projets:
I TD/TME 3-5 : projet apprentissage,
I TD/TME 6-8 : projet bioinformatique,
I TD/TME 9-11 : projet r ´eseaux.
Evaluation
Les trois mini-projets des TMEs 3 `a 11 sont not ´es,
les mini-projets comptent dans la note finaledans tous les cas, un examen `a la fin (pas de partiel).
Evaluation
Calcul de la note finale
Note de Contr ˆole Continu : sur40, note d’Ecrit : sur60,
note finale (sur20):max Ecrit3 ,CC+Ecrit5 . Calcul de la note de CC:
moyenne (rapport ´ee sur40) des notes de mini-projets Calcul de la note d’Ecrit:
0.5*(moyenne des projets+examen), rapport ´ee sur60.
Exemple
un ´etudiant a eu12,13, et14aux mini-projets, et11`a l’examen. Alors:
note de CC :1/3∗(12+13+14) =13(donc26/40), note Ecrit :1/2∗(13+11) =12(donc36/60), note finale :max(363,36+265 ) =12,4.
D ´efinitions
Probabilit ´es
La th ´eorie des probabilit ´es : domaine des math ´ematiques qui ´etudie les ph ´enom `enesal ´eatoires,
fournit des outils pour ´etudier lesexp ´eriences al ´eatoires:
des exp ´eriences qui, r ´ep ´et ´ees dans les m ˆemes conditions, ne donnent pas n ´ecessairement le m ˆeme r ´esultat.
Statistique
La statistique : domaine des math ´ematiques dans lequel on ´etudie la collecte, l’analyse, l’interpr ´etation de donn ´ees,
en particulier, des donn ´ees stock ´ees dans les bases de donn ´ees, sur le Web, ...
Plan
1 LI323 : description et informations pratiques
2 Applications des probabilit ´es et des statistiques en informatique
3 Probabilit ´es sur les ensembles discrets
4 D ´enombrements
Algorithmique et structures de donn ´ees
public static void sort(double[] a): algorithmetri rapide
−→meilleure performance “en moyenne” que les autres tris ;
“en moyenne”≈les valeurs dans le tableau initial sont al ´eatoires.
Hashtable<String, V>: utiliseint String.hashCode()
−→propri ´et ´e souhait ´ee dehashCode: donner des valeurs diff ´erentes aux diff ´erentesStringstock ´ees dans la table de hachage.
−→n ´ecessite un mod `ele (probabiliste) des chaˆınes de caract `eres qui seront stock ´ees.
Algorithmique et structures de donn ´ees
public static void sort(double[] a): algorithmetri rapide
−→meilleure performance “en moyenne” que les autres tris ;
“en moyenne”≈les valeurs dans le tableau initial sont al ´eatoires.
Hashtable<String, V>: utiliseint String.hashCode()
−→propri ´et ´e souhait ´ee dehashCode: donner des valeurs diff ´erentes aux diff ´erentesStringstock ´ees dans la table de hachage.
−→n ´ecessite un mod `ele (probabiliste) des chaˆınes de caract `eres qui seront stock ´ees.
Algorithmique et structures de donn ´ees
public static void sort(double[] a): algorithmetri rapide
−→meilleure performance “en moyenne” que les autres tris ;
“en moyenne”≈les valeurs dans le tableau initial sont al ´eatoires.
Hashtable<String, V>: utiliseint String.hashCode()
−→propri ´et ´e souhait ´ee dehashCode: donner des valeurs diff ´erentes aux diff ´erentesStringstock ´ees dans la table de hachage.
−→n ´ecessite un mod `ele (probabiliste) des chaˆınes de caract `eres qui seront stock ´ees.
Fouille de donn ´ees
Syst `emes de recommandation : Les clients qui ont achet ´e ...
ont aussi achet ´e ...
Fond ´es sur des analyses statistiques des achats/recherches des diff ´erents produits
Google Trends : analyse des requ ˆetes effectu ´ees par les utilisateurs de Google.
Applications possibles : suivi des int ´er ˆets dans une population, d ´etection des
´epid ´emies, ...
Analyse pr ´edictive/apprentissage automatique
Exemple : d ´etection de visages (http://www.idiap.ch/onlinefacedetector/)
−→
Autres exemples :
traduction automatique,
reconnaissance de la parole, ...
Cryptographie et cryptanalyse
La s ´ecurit ´e des communications sur Internet est g ´er ´ee par des algorithmes de cryptographie.
Les algorithmes de cryptographie utilisent des g ´en ´erateurs de nombres al ´eatoires.
R ´eciproquement : les cryptanalystes cherchent lesr ´egularit ´es(d ´eviations par rapport `a l’al ´eatoire) dans les textes crypt ´es.
Enigma : machine de cryptage allemande pendant la Seconde Guerre mondiale.
Le d ´ecryptage des messages par les alli ´es a ´et ´e facilit ´e par un mauvais algorithme de g ´en ´eration depermutationsal ´eatoires.
Et bien d’autres...
D ´ecision dans l’incertain ; Mod ´elisation des r ´eseaux ;
Communication `a travers des canaux bruit ´es ; Analyse des r ´eseaux sociaux ;
Bases de donn ´ees probabilistes ; ...
Plan
1 LI323 : description et informations pratiques
2 Applications des probabilit ´es et des statistiques en informatique
3 Probabilit ´es sur les ensembles discrets
4 D ´enombrements
Les probabilit ´es ... intuitives ?
Roue de la fortune : un ticket pour ...
laquelle choisir ?
Probabilit ´es sur les ensembles discrets
Traduction math ´ematique
une case de la roue≡un´ev ´enement ´el ´ementaire, not ´eω;
un ensemble de cases de la roue≡un´evenement, not ´eE;
(par exemple les cases gagnantes)
l’ensemble des cases de la roue≡l’univers, not ´eΩ.
Que veut-on ? la solution en 3 axiomes
une mesure de la “chance” qu’un ´ev ´enement se r ´ealise
⇒notion de probabilit ´e: une fonctionPdans[0,1]
pas de chance n ´egative :axiome de positivit ´e au moins une case sort `a chaque tirage
⇒P(Ω) =1:axiome de certitude
la probabilit ´e d’un ´ev ´enement est proportionnelle `a l’aire qu’il occupe siA∩B=∅,P(A) +P(B) =P(A∪B)⇒axiome d’additivit ´e
Probabilit ´es sur les ensembles discrets
Ev ´enements´
SoitΩ, un ensemble d ´enombrable, appel ´e univers,
I Ωrepr ´esente l’ensemble des r ´esultats possibles d’une exp ´erience al ´eatoire un ´el ´ementω∈Ωestun ´ev ´enement ´el ´ementaire,
un sous-ensembleEdeΩest un ´ev ´enement.
Exemple : lancer simultan ´e de deux d ´es L’universΩest :
Ω ={(1,1),(1,2),(1,3), ...(5,6),(6,6)},
E={(1,6),(2,6),(3,6),(4,6),(5,6),(6,6)}repr ´esente l’ ´ev ´enement ?
Probabilit ´es sur des ensembles discrets (2)
Mesure de probabilit ´e
SoitP(Ω)l’ensemble des sous-ensembles deΩ. Une mesure de probabilit ´e surΩest une fonctionP:P(Ω)→[0,1]v ´erifiant:
1 P(Ω) =1(Ωest l’ ´ev ´enement certain),
2 pour tout ´ev ´enementE,P(E)≥0,
3 Pour toute suite(Ei)i∈Nd’ ´ev ´enements deux `a deux disjoints (incompatibles) :P(S
iEi) =P
iP(Ei).
Interpr ´etation
Si on r ´ep `ete (ind ´efiniment) l’exp ´erience al ´eatoire:
le r ´esultat de l’exp ´erience seraωavec une fr ´equence deP({ω}), un ´ev ´enementEse produit avec une fr ´equenceP(E)
→le r ´esultat appartient `a l’ensemble E avec une fr ´equenceP(E).
Probabilit ´es sur des ensembles discrets (3)
Propri ´et ´es
P(∅) =0, (∅est l’ ´ev ´enement impossible)
P(¯E) =1−P(E)(E¯ : compl ´ementaire deEdansΩ), E⊂F⇒P(F) =P(F\E) +P(E)⇒P(E)≤P(F)
(F\E: ensemble des ´el ´ements deFqui ne sont pas dansE), P(E∪F) =P(E) +P(F)−P(E∩F)
P(S
iEi)≤P
iP(Ei)
Fonction de masse
On notepla fonction de masse de probabilit ´e associ ´ee `aP:
∀ω∈Ω,p(ω) =P({ω})
Alors, pour tout ´ev ´enementE:
P(E) =X
ω∈E
p(ω)
Mesures de Probabilit ´es uniformes
Probabilit ´e uniforme
Consid ´erons un ensemblefiniΩ. La probabilit ´e uniforme surΩest d ´efinie par la fonction de masse :
p(ω) = 1 card(Ω).
De fac¸on ´equivalente, la loi uniforme est d ´efinie de la fac¸on suivante : pour tout ´ev ´enementE,P(E) = card(E)
card(Ω).
Exemple : lancer simultan ´e de deux d ´es SoitEl’ ´ev ´enement
La somme des deux chiffres est inf´erieure ou ´egale `a 5, alors
P(E) = 10 36.
En effet :E={(1,1),(1,2),(1,3),(1,4),(2,1),(2,2),(2,3),(3,1),(3,2),(4,1)}.
Probl `eme du Prince de Toscane
Exemple
Pourquoi en lanc¸ant trois d ´es, obtient-on plus souvent un total de10points qu’un total de9points, alors qu’il y a6fac¸ons d’obtenir ces deux totaux?
9 pts 10 pts 6+2+1 6+3+1 5+2+2 6+2+2 5+3+1 5+4+1 4+3+2 5+3+2 4+4+1 4+4+2 3+3+3 4+3+3
Probl `eme du Prince de Toscane
Exemple
Pourquoi en lanc¸ant trois d ´es, obtient-on plus souvent un total de10points qu’un total de9points, alors qu’il y a6fac¸ons d’obtenir ces deux totaux?
9 pts 10 pts 6+2+1 6+3+1 5+2+2 6+2+2 5+3+1 5+4+1 4+3+2 5+3+2 4+4+1 4+4+2 3+3+3 4+3+3
L’univers estΩ ={(i,j,k)|i∈ {1, ..,6},j∈ {1, ..,6},k∈ {1, ..,6}}, On acard(Ω) =63=216et,∀(i,j,k)∈Ω,P((i,j,k)) = 1
216.
Probl `eme du Prince de Toscane
Exemple
Pourquoi en lanc¸ant trois d ´es, obtient-on plus souvent un total de10points qu’un total de9points, alors qu’il y a6fac¸ons d’obtenir ces deux totaux?
9 pts 10 pts 6+2+1 6+3+1 5+2+2 6+2+2 5+3+1 5+4+1 4+3+2 5+3+2 4+4+1 4+4+2 3+3+3 4+3+3
On consid `ere les ´ev ´enements suivants, qui prennent en compte uniquement les chiffres affich ´es sur les d ´es:
pouri≥j≥k,Ωi,j,k={(i,j,k),(j,i,k),(j,k,i),(k,j,i),(k,i,j),(i,k,j)}
Il y a6 ´ev ´enementsΩi,j,kqui donnent une somme `a10, et6qui donnent une somme `a 9.
Probl `eme du Prince de Toscane
Exemple
Pourquoi en lanc¸ant trois d ´es, obtient-on plus souvent un total de10points qu’un total de9points, alors qu’il y a6fac¸ons d’obtenir ces deux totaux?
9 pts 10 pts 6+2+1 6+3+1 5+2+2 6+2+2 5+3+1 5+4+1 4+3+2 5+3+2 4+4+1 4+4+2 3+3+3 4+3+3 Les ´ev ´enementsΩi,j,kne sont pas ´equiprobables:
sii6=j6=k6=i, alorsP(Ωi,j,k) =2166 ,
sii=j6=k, alorsP(Ωi,j,k) =2163 (idem pouri=k6=jetk=j6=i), sii=j=k, alorsP(Ωi,j,k) =2161
On a alorsP({i+j+k=9}) =21625 etP({i+j+k=10}) =21627
Plan
1 LI323 : description et informations pratiques
2 Applications des probabilit ´es et des statistiques en informatique
3 Probabilit ´es sur les ensembles discrets
4 D ´enombrements
Mise en jambe
Combien y’a-t-il de mots de 2 lettres ?
Combien y’a-t-il de mots de 2 lettres form ´es d’une voyelle et d’une consonne ?
Un num ´ero de t ´el ´ephone est compos ´e de 5 chiffres, dont le premier est0, le deuxi `eme compris entre 1 et 5, et les 3 derniers libres. Combien de num ´ero diff ´erents peut-on former ? Combien de num ´ero avec des chiffres tous diff ´erents ?
On tire 5 cartes dans un jeu de 32 cartes. Combien de r ´esultats possibles ?
D ´enombrements
D ´enombrement den-uplets
SoitEun ensemble fini de taillen, etkun entier.
nombre dek-uplets d’ ´el ´ements deE:nk, nombre dek-uplets d’ ´el ´ements distincts:
Akn=n×(n−1)×...×(n−k+1).
Aknest appel ´e le nombre d’arrangements dekparmin, ou le nombre de k-arrangements deE.
Cas particulier : nombre de permutations (casn=k):
n! =n×(n−1)×...×1
(une permutation est une fac¸on d’ordonnern ´el ´ements distincts).
Nombre de sous-ensembles
Nombre de sous-ensembles
soitEun ensemble fini de cardinaln, Le nombre de sous-ensembles distincts de cardinalkcontenus dansE:
Ckn= k!(n−k)!n!
Ckns’appelle aussi lenombre de combinaisons dekparmin ´el ´ements Remarque : Formule du bin ˆome de Newton
(x+y)n=
n
X
k=0
Cknxn−kyk⇒card(P(Ω)) =2n .
Remarque 2 :Cnk=A
k n
k!. nbk-arrangements =
nb combinaisons dekparmin
×
nb permutations dek ´el ´ements .
Rappel : une permutation est une fac¸on d’ordonner les ´el ´ements.
D ´enombrements : exemples (1)
Exemple
Tirer deux cartes, sans remise, dans un jeu de52cartes. L’ensemble de tous les ´ev ´enements ´el ´ementaires:
Ω ={{a,b} |aetbsont deux cartes diff ´erentes du jeu}
Tous les sous-ensembles sont de cardinal2et sont ´equiprobables : P({a,b}) = 1
1326,∀{a,b} ∈Ω
SoitEl’ ´ev ´enementau moins une des deux cartes est une dame P(E) =1− C482
1326 =0.149
D ´enombrements : exemples (2)
Exemple : PMU
Un joueur parie toujours sur le m ˆeme r ´esultat :
pour le quart ´e : les chevaux1,2,3et4vont terminer la course en premier (dans cet ordre).
pour le2sur4: les chevaux1et2seront dans les4premiers arriv ´es.
On suppose qu’il y a toujours15chevaux dans une course, et que l’ordre d’arriv ´ee des chevaux suit une probabilit ´e uniforme.
Quelle est la probabilit ´e que le joueur gagne au quart ´e et au2sur4?