• Aucun résultat trouvé

Statistique et Informatique (LI323)

N/A
N/A
Protected

Academic year: 2022

Partager "Statistique et Informatique (LI323)"

Copied!
32
0
0

Texte intégral

(1)

Statistique et Informatique (LI323)

Nicolas Baskiotis - Hugues Richard

Universit ´e Pierre et Marie Curie (UPMC) Laboratoire d’Informatique de Paris 6 (LIP6)

(Supports de cours : N. Usunier)

(2)

Cours 1 :

Probabilit ´es sur des ensembles discrets et d ´enombrements

1 LI323 : description et informations pratiques

2 Applications des probabilit ´es et des statistiques en informatique

3 Probabilit ´es sur les ensembles discrets

4 D ´enombrements

(3)

Plan

1 LI323 : description et informations pratiques

2 Applications des probabilit ´es et des statistiques en informatique

3 Probabilit ´es sur les ensembles discrets

4 D ´enombrements

(4)

Description de l’UE

Objectifs du cours

Pr ´esenter les outils de base de:

I la th ´eorie des probabilit ´es,

I la statistique,

donner des exemples de leur application en informatique, manipuler quelques algorithmes issus de ces domaines

−→mini-projets.

Organisation

Calcul des probabilit ´es (Nicolas Baskiotis−cours1 `a6) :

I expos ´e simple sur la th ´eorie des probabilit ´es,

I quelques applications en informatique.

L’inf ´erence statistique (Hugues Richard−cours7 `a11) :

I recueil et analyse des donn ´ees,

I estimation, tests et validation.

(5)

Description de l’UE (2)

Informations pratiques

Site Web :http://www-connex.lip6.fr/˜baskiotisn/

Organisation enmini-projets:

I TD/TME 3-5 : projet apprentissage,

I TD/TME 6-8 : projet bioinformatique,

I TD/TME 9-11 : projet r ´eseaux.

Evaluation

Les trois mini-projets des TMEs 3 `a 11 sont not ´es,

les mini-projets comptent dans la note finaledans tous les cas, un examen `a la fin (pas de partiel).

(6)

Evaluation

Calcul de la note finale

Note de Contr ˆole Continu : sur40, note d’Ecrit : sur60,

note finale (sur20):max Ecrit3 ,CC+Ecrit5 . Calcul de la note de CC:

moyenne (rapport ´ee sur40) des notes de mini-projets Calcul de la note d’Ecrit:

0.5*(moyenne des projets+examen), rapport ´ee sur60.

Exemple

un ´etudiant a eu12,13, et14aux mini-projets, et11`a l’examen. Alors:

note de CC :1/3∗(12+13+14) =13(donc26/40), note Ecrit :1/2∗(13+11) =12(donc36/60), note finale :max(363,36+265 ) =12,4.

(7)

D ´efinitions

Probabilit ´es

La th ´eorie des probabilit ´es : domaine des math ´ematiques qui ´etudie les ph ´enom `enesal ´eatoires,

fournit des outils pour ´etudier lesexp ´eriences al ´eatoires:

des exp ´eriences qui, r ´ep ´et ´ees dans les m ˆemes conditions, ne donnent pas n ´ecessairement le m ˆeme r ´esultat.

Statistique

La statistique : domaine des math ´ematiques dans lequel on ´etudie la collecte, l’analyse, l’interpr ´etation de donn ´ees,

en particulier, des donn ´ees stock ´ees dans les bases de donn ´ees, sur le Web, ...

(8)

Plan

1 LI323 : description et informations pratiques

2 Applications des probabilit ´es et des statistiques en informatique

3 Probabilit ´es sur les ensembles discrets

4 D ´enombrements

(9)

Algorithmique et structures de donn ´ees

public static void sort(double[] a): algorithmetri rapide

−→meilleure performance “en moyenne” que les autres tris ;

“en moyenne”≈les valeurs dans le tableau initial sont al ´eatoires.

Hashtable<String, V>: utiliseint String.hashCode()

−→propri ´et ´e souhait ´ee dehashCode: donner des valeurs diff ´erentes aux diff ´erentesStringstock ´ees dans la table de hachage.

−→n ´ecessite un mod `ele (probabiliste) des chaˆınes de caract `eres qui seront stock ´ees.

(10)

Algorithmique et structures de donn ´ees

public static void sort(double[] a): algorithmetri rapide

−→meilleure performance “en moyenne” que les autres tris ;

“en moyenne”≈les valeurs dans le tableau initial sont al ´eatoires.

Hashtable<String, V>: utiliseint String.hashCode()

−→propri ´et ´e souhait ´ee dehashCode: donner des valeurs diff ´erentes aux diff ´erentesStringstock ´ees dans la table de hachage.

−→n ´ecessite un mod `ele (probabiliste) des chaˆınes de caract `eres qui seront stock ´ees.

(11)

Algorithmique et structures de donn ´ees

public static void sort(double[] a): algorithmetri rapide

−→meilleure performance “en moyenne” que les autres tris ;

“en moyenne”≈les valeurs dans le tableau initial sont al ´eatoires.

Hashtable<String, V>: utiliseint String.hashCode()

−→propri ´et ´e souhait ´ee dehashCode: donner des valeurs diff ´erentes aux diff ´erentesStringstock ´ees dans la table de hachage.

−→n ´ecessite un mod `ele (probabiliste) des chaˆınes de caract `eres qui seront stock ´ees.

(12)

Fouille de donn ´ees

Syst `emes de recommandation : Les clients qui ont achet ´e ...

ont aussi achet ´e ...

Fond ´es sur des analyses statistiques des achats/recherches des diff ´erents produits

Google Trends : analyse des requ ˆetes effectu ´ees par les utilisateurs de Google.

Applications possibles : suivi des int ´er ˆets dans une population, d ´etection des

´epid ´emies, ...

(13)

Analyse pr ´edictive/apprentissage automatique

Exemple : d ´etection de visages (http://www.idiap.ch/onlinefacedetector/)

−→

Autres exemples :

traduction automatique,

reconnaissance de la parole, ...

(14)

Cryptographie et cryptanalyse

La s ´ecurit ´e des communications sur Internet est g ´er ´ee par des algorithmes de cryptographie.

Les algorithmes de cryptographie utilisent des g ´en ´erateurs de nombres al ´eatoires.

R ´eciproquement : les cryptanalystes cherchent lesr ´egularit ´es(d ´eviations par rapport `a l’al ´eatoire) dans les textes crypt ´es.

Enigma : machine de cryptage allemande pendant la Seconde Guerre mondiale.

Le d ´ecryptage des messages par les alli ´es a ´et ´e facilit ´e par un mauvais algorithme de g ´en ´eration depermutationsal ´eatoires.

(15)

Et bien d’autres...

D ´ecision dans l’incertain ; Mod ´elisation des r ´eseaux ;

Communication `a travers des canaux bruit ´es ; Analyse des r ´eseaux sociaux ;

Bases de donn ´ees probabilistes ; ...

(16)

Plan

1 LI323 : description et informations pratiques

2 Applications des probabilit ´es et des statistiques en informatique

3 Probabilit ´es sur les ensembles discrets

4 D ´enombrements

(17)

Les probabilit ´es ... intuitives ?

Roue de la fortune : un ticket pour ...

laquelle choisir ?

(18)

Probabilit ´es sur les ensembles discrets

Traduction math ´ematique

une case de la roue≡un´ev ´enement ´el ´ementaire, not ´eω;

un ensemble de cases de la roue≡un´evenement, not ´eE;

(par exemple les cases gagnantes)

l’ensemble des cases de la roue≡l’univers, not ´eΩ.

Que veut-on ? la solution en 3 axiomes

une mesure de la “chance” qu’un ´ev ´enement se r ´ealise

notion de probabilit ´e: une fonctionPdans[0,1]

pas de chance n ´egative :axiome de positivit ´e au moins une case sort `a chaque tirage

⇒P(Ω) =1:axiome de certitude

la probabilit ´e d’un ´ev ´enement est proportionnelle `a l’aire qu’il occupe siA∩B=∅,P(A) +P(B) =P(A∪B)⇒axiome d’additivit ´e

(19)

Probabilit ´es sur les ensembles discrets

Ev ´enements´

SoitΩ, un ensemble d ´enombrable, appel ´e univers,

I Ωrepr ´esente l’ensemble des r ´esultats possibles d’une exp ´erience al ´eatoire un ´el ´ementω∈Ωestun ´ev ´enement ´el ´ementaire,

un sous-ensembleEdeΩest un ´ev ´enement.

Exemple : lancer simultan ´e de deux d ´es L’universΩest :

Ω ={(1,1),(1,2),(1,3), ...(5,6),(6,6)},

E={(1,6),(2,6),(3,6),(4,6),(5,6),(6,6)}repr ´esente l’ ´ev ´enement ?

(20)

Probabilit ´es sur des ensembles discrets (2)

Mesure de probabilit ´e

SoitP(Ω)l’ensemble des sous-ensembles deΩ. Une mesure de probabilit ´e surΩest une fonctionP:P(Ω)→[0,1]v ´erifiant:

1 P(Ω) =1(Ωest l’ ´ev ´enement certain),

2 pour tout ´ev ´enementE,P(E)≥0,

3 Pour toute suite(Ei)i∈Nd’ ´ev ´enements deux `a deux disjoints (incompatibles) :P(S

iEi) =P

iP(Ei).

Interpr ´etation

Si on r ´ep `ete (ind ´efiniment) l’exp ´erience al ´eatoire:

le r ´esultat de l’exp ´erience seraωavec une fr ´equence deP({ω}), un ´ev ´enementEse produit avec une fr ´equenceP(E)

→le r ´esultat appartient `a l’ensemble E avec une fr ´equenceP(E).

(21)

Probabilit ´es sur des ensembles discrets (3)

Propri ´et ´es

P(∅) =0, (∅est l’ ´ev ´enement impossible)

P(¯E) =1−P(E)(E¯ : compl ´ementaire deEdansΩ), E⊂F⇒P(F) =P(F\E) +P(E)⇒P(E)≤P(F)

(F\E: ensemble des ´el ´ements deFqui ne sont pas dansE), P(E∪F) =P(E) +P(F)−P(E∩F)

P(S

iEi)≤P

iP(Ei)

Fonction de masse

On notepla fonction de masse de probabilit ´e associ ´ee `aP:

∀ω∈Ω,p(ω) =P({ω})

Alors, pour tout ´ev ´enementE:

P(E) =X

ω∈E

p(ω)

(22)

Mesures de Probabilit ´es uniformes

Probabilit ´e uniforme

Consid ´erons un ensemblefiniΩ. La probabilit ´e uniforme surΩest d ´efinie par la fonction de masse :

p(ω) = 1 card(Ω).

De fac¸on ´equivalente, la loi uniforme est d ´efinie de la fac¸on suivante : pour tout ´ev ´enementE,P(E) = card(E)

card(Ω).

Exemple : lancer simultan ´e de deux d ´es SoitEl’ ´ev ´enement

La somme des deux chiffres est inf´erieure ou ´egale `a 5, alors

P(E) = 10 36.

En effet :E={(1,1),(1,2),(1,3),(1,4),(2,1),(2,2),(2,3),(3,1),(3,2),(4,1)}.

(23)

Probl `eme du Prince de Toscane

Exemple

Pourquoi en lanc¸ant trois d ´es, obtient-on plus souvent un total de10points qu’un total de9points, alors qu’il y a6fac¸ons d’obtenir ces deux totaux?

9 pts 10 pts 6+2+1 6+3+1 5+2+2 6+2+2 5+3+1 5+4+1 4+3+2 5+3+2 4+4+1 4+4+2 3+3+3 4+3+3

(24)

Probl `eme du Prince de Toscane

Exemple

Pourquoi en lanc¸ant trois d ´es, obtient-on plus souvent un total de10points qu’un total de9points, alors qu’il y a6fac¸ons d’obtenir ces deux totaux?

9 pts 10 pts 6+2+1 6+3+1 5+2+2 6+2+2 5+3+1 5+4+1 4+3+2 5+3+2 4+4+1 4+4+2 3+3+3 4+3+3

L’univers estΩ ={(i,j,k)|i∈ {1, ..,6},j∈ {1, ..,6},k∈ {1, ..,6}}, On acard(Ω) =63=216et,∀(i,j,k)∈Ω,P((i,j,k)) = 1

216.

(25)

Probl `eme du Prince de Toscane

Exemple

Pourquoi en lanc¸ant trois d ´es, obtient-on plus souvent un total de10points qu’un total de9points, alors qu’il y a6fac¸ons d’obtenir ces deux totaux?

9 pts 10 pts 6+2+1 6+3+1 5+2+2 6+2+2 5+3+1 5+4+1 4+3+2 5+3+2 4+4+1 4+4+2 3+3+3 4+3+3

On consid `ere les ´ev ´enements suivants, qui prennent en compte uniquement les chiffres affich ´es sur les d ´es:

pouri≥j≥k,Ωi,j,k={(i,j,k),(j,i,k),(j,k,i),(k,j,i),(k,i,j),(i,k,j)}

Il y a6 ´ev ´enementsΩi,j,kqui donnent une somme `a10, et6qui donnent une somme `a 9.

(26)

Probl `eme du Prince de Toscane

Exemple

Pourquoi en lanc¸ant trois d ´es, obtient-on plus souvent un total de10points qu’un total de9points, alors qu’il y a6fac¸ons d’obtenir ces deux totaux?

9 pts 10 pts 6+2+1 6+3+1 5+2+2 6+2+2 5+3+1 5+4+1 4+3+2 5+3+2 4+4+1 4+4+2 3+3+3 4+3+3 Les ´ev ´enementsΩi,j,kne sont pas ´equiprobables:

sii6=j6=k6=i, alorsP(Ωi,j,k) =2166 ,

sii=j6=k, alorsP(Ωi,j,k) =2163 (idem pouri=k6=jetk=j6=i), sii=j=k, alorsP(Ωi,j,k) =2161

On a alorsP({i+j+k=9}) =21625 etP({i+j+k=10}) =21627

(27)

Plan

1 LI323 : description et informations pratiques

2 Applications des probabilit ´es et des statistiques en informatique

3 Probabilit ´es sur les ensembles discrets

4 D ´enombrements

(28)

Mise en jambe

Combien y’a-t-il de mots de 2 lettres ?

Combien y’a-t-il de mots de 2 lettres form ´es d’une voyelle et d’une consonne ?

Un num ´ero de t ´el ´ephone est compos ´e de 5 chiffres, dont le premier est0, le deuxi `eme compris entre 1 et 5, et les 3 derniers libres. Combien de num ´ero diff ´erents peut-on former ? Combien de num ´ero avec des chiffres tous diff ´erents ?

On tire 5 cartes dans un jeu de 32 cartes. Combien de r ´esultats possibles ?

(29)

D ´enombrements

D ´enombrement den-uplets

SoitEun ensemble fini de taillen, etkun entier.

nombre dek-uplets d’ ´el ´ements deE:nk, nombre dek-uplets d’ ´el ´ements distincts:

Akn=n×(n−1)×...×(n−k+1).

Aknest appel ´e le nombre d’arrangements dekparmin, ou le nombre de k-arrangements deE.

Cas particulier : nombre de permutations (casn=k):

n! =n×(n−1)×...×1

(une permutation est une fac¸on d’ordonnern ´el ´ements distincts).

(30)

Nombre de sous-ensembles

Nombre de sous-ensembles

soitEun ensemble fini de cardinaln, Le nombre de sous-ensembles distincts de cardinalkcontenus dansE:

Ckn= k!(n−k)!n!

Ckns’appelle aussi lenombre de combinaisons dekparmin ´el ´ements Remarque : Formule du bin ˆome de Newton

(x+y)n=

n

X

k=0

Cknxn−kyk⇒card(P(Ω)) =2n .

Remarque 2 :Cnk=A

k n

k!. nbk-arrangements =

nb combinaisons dekparmin

×

nb permutations dek ´el ´ements .

Rappel : une permutation est une fac¸on d’ordonner les ´el ´ements.

(31)

D ´enombrements : exemples (1)

Exemple

Tirer deux cartes, sans remise, dans un jeu de52cartes. L’ensemble de tous les ´ev ´enements ´el ´ementaires:

Ω ={{a,b} |aetbsont deux cartes diff ´erentes du jeu}

Tous les sous-ensembles sont de cardinal2et sont ´equiprobables : P({a,b}) = 1

1326,∀{a,b} ∈Ω

SoitEl’ ´ev ´enementau moins une des deux cartes est une dame P(E) =1− C482

1326 =0.149

(32)

D ´enombrements : exemples (2)

Exemple : PMU

Un joueur parie toujours sur le m ˆeme r ´esultat :

pour le quart ´e : les chevaux1,2,3et4vont terminer la course en premier (dans cet ordre).

pour le2sur4: les chevaux1et2seront dans les4premiers arriv ´es.

On suppose qu’il y a toujours15chevaux dans une course, et que l’ordre d’arriv ´ee des chevaux suit une probabilit ´e uniforme.

Quelle est la probabilit ´e que le joueur gagne au quart ´e et au2sur4?

Références

Documents relatifs

Pour terminer il suffit de noter que si uv 6= C alors une telle arˆ ete f

Notons B l’ensemble des valeurs de n &gt; 1 pour lesquelles l’in´egalit´e de Cauchy

Plus r´ ecemment, la saisie sur dispositif mobile offre de nombreux d´ efis en termes de recherche et des solutions vari´ ees sont propos´ ees pour am´ eliorer les performances en

Justifier que les fonctions suivantes sont diff´ erentiables sur leur domaine de d´ efinition et calculer leur diff´ erentielle

Comme on peut r´ ealiser tous les scores suivants en ajoutant un certain nombre de p´ enalit´ es ` a partir des diff´ erentes r´ ealisations de 12, 13 ou 14, on en d´ eduit que

D´ eterminer les meilleures zones d’´ echantillonnage pour estimer les diff´ erents

Calculer sa transform´ ee de Laplace. Calculer sa moyenne et sa variance par deux m´ ethodes.. 2) Soit X une variable al´ eatoire r´ eelle de loi N

Le principe de calcul est tr` es simple et assez naturel : on fait la diff´ erence entre la somme des carr´ es relative aux erreurs dans le mod` ele additif (sans interactions)