• Aucun résultat trouvé

Comme il a été mentionné dans les chapitres 4 et 5, les procédures algorithmique et probabiliste ne se basent pas vraiment sur des concepts très avancés des mathématiques et de la statistique. À l’opposé, pour bien saisir le fonctionnement de l’approche markovienne, il est nécessaire de bien maîtriser le concept de chaîne de Markov. Ainsi, afin de comprendre l’ensemble de la théorie sur laquelle repose cette troisième approche de classification sous contrainte, introduisons dans ce chapitre quelques notions liées aux chaînes de Markov. Avant de fournir une définition mathématique de cet outil probabiliste, il faut d’abord comprendre ce qu’est un processus aléatoire à temps discret et à espace d’états discret.

Définition 6.1 : Un processus aléatoire { ( ) } est une suite de variables aléatoires. Ainsi, pour tout indice , ( ) est une variable aléatoire. L’indice se définit souvent comme étant un temps et la valeur ( ) se définit comme étant l’état du processus aléatoire au temps . (ROSS, 2010).

Définition 6.2 : Un processus aléatoire à temps discret est un processus aléatoire dont l’ensemble est dénombrable (ROSS, 2010).

Définition 6.3 : Un processus aléatoire à espace d’états discret est un processus aléatoire dont les valeurs prises par la variable aléatoire ( ) sont discrètes (SIGMAN, 2009).

Une chaîne de Markov à temps discret et à espace d’états discret est un exemple d’un processus aléatoire possédant les deux caractéristiques décrites aux définitions 6.2 et 6.3. Pour bien saisir ce qui caractérise les chaînes de Markov à temps discret et à espace d’états discret des autres processus aléatoires de ce type, définissons le concept de chaîne de Markov.

Définition 6.4 : Fixons , un ensemble fini ou infini dénombrable. Une chaîne de Markov sur , à temps discret et homogène dans le temps, est un processus aléatoire, disons ( ), à valeurs dans satisfaisant les deux conditions suivantes.

a) Pour tout entier et pour tout choix et dans pour lesquels [( ) ( )] , on a, pour tout ,

[ ( ) ( )] [ ]; (Propriété de Markov)

b) Pour tout et dans ainsi que pour tous les entiers tels que [ ] , la probabilité conditionnelle [ ] ne dépend pas de .

32

Les chaînes de Markov sont caractérisées par deux principaux attributs, soit leur loi initiale et leur matrice de probabilités de transition. Pour comprendre la définition de ces deux caractéristiques d’une chaîne de Markov, il est nécessaire d’introduire ce qu’est un espace d’états, ce qu’est une probabilité de transition, ce qu'est une matrice sur et ce qu’est une matrice stochastique.

Définition 6.5 : L’espace d’états d’une chaîne de Markov est l’ensemble des valeurs que peut prendre la variable aléatoire . Chaque élément de cet ensemble est nommé un état. L’espace d’états correspond à l’ensemble de la définition 6.4 (BÉLISLE, 2011a).

Définition 6.6 : Une probabilité de transition entre l’état et l’état est définie comme étant la probabilité conditionnelle [ ] (BÉLISLE, 2011a).

Définition 6.7 : Une matrice sur est une fonction définie sur et à valeurs dans . Si ( ) est une matrice sur , alors la ie ligne de est le vecteur ligne ( ) et la je

colonne de est le vecteur colonne ( ) (BÉLISLE, 2011a).

Définition 6.8 : Une matrice stochastique sur est une matrice sur , disons ( ), telle

que et telle que ∑ (BÉLISLE, 2011a).

Définition 6.9 : Soit ( ), une chaîne de Markov sur . La loi initiale de la chaîne de Markov est la distribution de probabilité ( ) définie par ( ) (BÉLISLE, 2011a).

Définition 6.10 : Soit ( ), une chaîne de Markov sur . La matrice de probabilités de transition de la chaîne de Markov est la matrice stochastique ( ) définie par

[ ] (BÉLISLE, 2011a).

Si l'on considère une chaîne de Markov ( ) sur dont la loi initiale est le vecteur et dont la matrice de probabilités de transition est la matrice stochastique , on peut calculer la loi marginale de

, dénoté ( ).

Théorème 6.1 : Si ( ) est une chaîne de Markov sur avec loi initiale et avec matrice de probabilités de transition , alors ( ) (BÉLISLE, 2011a).

Pour se convaincre que la loi marginale de est bel et bien une fonction de masse, on peut utiliser les résultats présentés dans les théorèmes 6.2 et 6.3.

Théorème 6.2 : Si et sont des matrices stochastiques sur , alors est une matrice stochastique sur (BÉLISLE, 2011a).

Théorème 6.3 : Si est une distribution de probabilité sur et si est une matrice stochastique sur , alors est une distribution de probabilité sur (BÉLISLE, 2011a).

La définition 6.6 a permis d'établir ce qu'est une probabilité de transition. Puisque cette définition décrit la probabilité pour une chaîne de Markov d'être à l'état au temps sachant que la chaîne se trouve à l'état au temps , on peut qualifier cette définition comme étant celle d'une probabilité de transition d'ordre un. On peut aussi s'intéresser à la probabilité de transition d'ordre , c'est-à-dire la probabilité conditionnelle [ ] (BÉLISLE, 2011a). Le prochain théorème donne une expression explicite pour le calcul des probabilités de transition d'ordre .

Théorème 6.4 : Si est une chaîne de Markov avec matrice de probabilités de transition , alors les probabilités de transition d'ordre sont homogènes dans le temps et sont données par la e puissance de la

matrice . Bref, pour tout choix de et de tels que [ ] , on a [ ]

pour tout entier non négatif et pour tout (BÉLISLE, 2011a).

Une chaîne de Markov peut être classifiée selon trois principaux critères, soit sa possible irréductibilité, sa périodicité et sa possible récurrence. Pour être capable de saisir le concept d’irréductibilité, il faut d’abord définir les notions d’accessibilité et de communication entre les états.

Définition 6.11 : On dit que l’état est accessible à partir de l’état , et on écrit alors , s’il existe un entier tel que . On a donc il existe un entier tel que . Autrement dit, on a ∑ (BÉLISLE, 2011b).

Avant d’énoncer le théorème 6.5 qui se rapporte à l’accessibilité d’un état à partir d’un autre état, il faut introduire la variable aléatoire .

Définition 6.12 : Soit ( ), une chaîne de Markov avec matrice de probabilités de transition . La variable aléatoire est définie comme étant le nombre total de visites à l’état . En fait, on pose ∑ ( ) où ( ) { . On peut prouver que [ ], l’espérance conditionnelle de

34

Théorème 6.5 : Soit ( ), une chaîne de Markov avec matrice de probabilités de transition . Fixons et , des états. Les trois conditions suivantes sont équivalentes.

a)

b) ∑

c) [ ] (BÉLISLE, 2011b).

Définition 6.13 : Si on a et , on dit que les états et communiquent et on écrit . On dit aussi que et appartiennent à une même classe de communication (BÉLISLE, 2011b).

Définition 6.14 : La matrice de probabilités de transition est dite irréductible s’il existe une seule classe de communication, c’est-à-dire si on a pour tout et pour tout (BÉLISLE, 2011b).

Théorème 6.6 : Soit ( ), une chaîne de Markov avec matrice de probabilités de transition . Alors les trois conditions suivantes sont équivalentes.

a) est une chaîne de Markov irréductible;

b) ∑ , pour tout choix de et de dans ;

c) [ ] , pour tout choix de et de dans (BÉLISLE, 2011b).

Le concept d’irréductibilité d’une chaîne de Markov ayant été présenté, on peut énoncer quelques définitions et certains théorèmes en lien avec la périodicité d’un tel type de processus aléatoire.

Définition 6.15 : Soit , un ensemble non vide d’entiers positifs. Le plus grand commun diviseur de , dénoté ( ), est le plus grand entier tel que est un entier pour tout (BÉLISLE, 2011b).

Définition 6.16 : Soit , un espace d’états. Soit , une matrice de probabilités de transition sur . Pour , la période de l’état , dénotée ( ), est définie par l’équation suivante : ( ) { ({ }) { }

{ }

(BÉLISLE, 2011b).

Théorème 6.7 : Si , alors ( ) ( ). Autrement dit, la périodicité est une notion de classe, c’est-à- dire que tous les états d’une même classe de communication ont la même période (BÉLISLE, 2011b).

Définition 6.17 : Un état ou une classe de communication apériodique est un état ou une classe de communication dont la période est égale à un (BÉLISLE, 2011b).

Théorème 6.8 : Si est fini et si est irréductible et apériodique, alors il existe un entier et un réel tels que (BÉLISLE, 2011b).

Comme il a été mentionné précédemment, trois critères permettent de qualifier une chaîne de Markov à temps discret et à espace d’états discret. L’irréductibilité et la périodicité ayant maintenant été définies, il ne reste plus qu’à comprendre le concept de récurrence d’une chaîne de Markov.

Définition 6.18 : Soit ( ), une chaîne de Markov à valeurs dans l’espace des états et avec matrice de probabilités de transition . Pour , on pose [⋃ ( ) ], la probabilité conditionnelle de retour à l’état sachant que la chaîne est démarrée à l’état . Si , on dit que est un état récurrent. Si , on dit que est un état transitoire (BÉLISLE, 2011b).

Théorème 6.9 : Posons ∑ ( ) où ( ) { , le nombre total de visites à l’état . Alors, [ ]

(BÉLISLE, 2011b).

Théorème 6.10 : Soit ( ), une chaîne de Markov à valeurs dans l’espace d’états et avec matrice de probabilités de transition . Fixons un état de l’ensemble . Alors, les trois conditions suivantes sont équivalentes. (BÉLISLE, 2011b).

a) L’état est récurrent; b) ∑ ;

c) [ ] (BÉLISLE, 2011b).

Théorème 6.11 : Posons { { { } { } } Alors, l’état est récurrent si et seulement si on a [ ] (BÉLISLE, 2011b).

Théorème 6.12 : Supposons que . Alors, est récurrent si et seulement si est récurrent. Ainsi, la récurrence est une propriété de classe de communication (BÉLISLE, 2011b).

Théorème 6.13 : Si l’espace des états est un ensemble fini et si la matrice de probabilités de transition est irréductible et apériodique, alors tous les états sont récurrents (BÉLISLE, 2011b).

Selon la définition 6.18, certaines chaînes de Markov sont transitoires tandis que d’autres chaînes de Markov sont récurrentes. Parmi ces chaînes récurrentes, il y a des chaînes qui sont « récurrentes positives » d'autres qui sont « récurrentes nulles ». La définition 6.19 permet de différencier ces deux types de chaînes de Markov récurrentes.

Définition 6.19 : Posons [ ]. Soit , un état récurrent. Si , alors on dit que l’état est récurrent positif. Si , alors on dit que l’état est récurrent nul (BÉLISLE, 2011b).

36

Théorème 6.14 : Si , alors l’état est récurrent positif si et seulement si l’état est récurrent positif. De même, si , alors l’état est récurrent nul si et seulement si l’état est récurrent nul. Ainsi, la récurrence positive et la récurrence nulle sont des propriétés de classe de communication (BÉLISLE, 2011b).

Théorème 6.15 : Si l’espace des états est un ensemble fini et si la matrice de probabilités de transition est irréductible et apériodique, alors tous les états sont récurrents positifs (BÉLISLE, 2011b).

Deux derniers concepts peuvent également être présentés pour terminer cette introduction aux chaînes de Markov. Il s’agit de la loi stationnaire d’une chaîne de Markov et de l’ergodicité d’une chaîne de Markov.

Définition 6.20 : Soit , une distribution de probabilité sur . Soit , une matrice de probabilités de transition sur . On dit que est une distribution stationnaire pour si on a (BÉLISLE, 2011c).

Théorème 6.16 : Soit , une chaîne de Markov sur , avec une loi initiale et avec une matrice de probabilités de transition . Si l’équation est satisfaite, alors ( ) pour tout (BÉLISLE, 2011c).

Définition 6.21 : Une chaîne de Markov ergodique est une chaîne de Markov irréductible, apériodique et récurrente positive (BÉLISLE, 2011c).

Théorème 6.17 : Soit ( ), une chaîne de Markov ergodique sur . Alors, on a les résultats suivants.

a) La chaîne possède une et une seule loi stationnaire, disons ( ); b) Pour tout , on a ;

c) Pour tout et dans , on a ;

d) Si ( ) dénote le nombre de visites à l’état du temps au temps , alors on a ( ) . Plus précisément, pour tout , [ ( ) | ] ;

e) Pour toute fonction , on a

∑ ( ) ∑ ( ) . Plus précisément,

[ ∑ ( ) ∑ ( ) | ] (BÉLISLE, 2011c).

Les définitions et les théorèmes présentés dans le présent chapitre ont permis de se familiariser avec la notion de chaîne de Markov à temps discret et à espace d’états discret. Ce rappel étant maintenant fait, il est désormais envisageable d’introduire l’approche de partitionnement markovienne.

Documents relatifs