• Aucun résultat trouvé

u

Rt i Dimp,Dinh

= 1 si, pour un individu i, son comportement inhérent sur sa présence spontanée ui= u, et au temps t, i a exactement : dq1 impulseurs d’étiquette 1 présents , dq2 impulseurs d’étiquette 2 présents,...,dr1 inhibiteurs d’étiquette 1 présents, dr2 inhibiteurs d’étiquette 2 présents... ( q1 Nit= dq1, q2 Nit= dq2,..., r1 Nit= dr1, r2 Nit= dr2). score(i) = T P t=1 (1 − xt i) · P Dimp,Dinh tq: dq1+...+dqmax+dr1,...,drmax<n umax P u=u1 u Rt i Dimp,Dinh · Lapp(Xit+1) + xt i · P Dimp,Dinh tq: dq1+...+dqmax+dr1,...,drmax<n umax P u=u1 u Rt i Dimp,Dinh · Lsur(Xit+1) (4.3) Ce score s’écrit donc comme une somme sur tous les pas de temps de toutes les probabilités des combinaisons d’ensembles possibles de nombre de voisins présents de chaque étiquette. Une seule de ces combinaisons étant vraie à un pas de temps t, ces probabilités sont multipliées par une quantité

s,u

Rt i Dimp,Dinh

valant 1 uniquement si le nombre de parents présents de chaque étiquette correspondent à Dimp et Dinh. Seuls les ensembles Dimp et Dinh tels que dq1+ ... + dqmax + dr1, ..., drmax < n sont pris en compte, car tout individu ne peut avoir plus de n autres individus pour parents. Si l’on connaît ou que l’on impose le nombre maximal k de parents par individu, l’expression de la vraisemblance peut être simplifiée en ne prenant pas en compte les ensembles Dimpet Dinhdont la somme des éléments dépassent ce nombre k.

4.2 Apprentissage dans un RBDE

Apprendre un réseau bayésien dynamique étiqueté consiste à apprendre à la fois sa structure G et ses paramètres θ à partir de données D correspondant à un ensemble de trajectoires,

D = {(Xt

i)}∀i = 1, . . . , n; t = 1, . . . , T et à partir des valeurs des covariables at

iet des comportements ui inhérents à chaque phénomène i. Il est à noter que la structure Gest, dans ce cadre, étiquetée, c’est à dire que les arcs de ce graphe comportent une étiquette renseignant sur leur nature (inhibition ou impulsion) et leur force. Contrairement à des méthodes d’apprentissage de réseaux bayésiens classiques, le score local d’un individu n’est pas compliqué à calculer en connaissant la structure du graphe associé, mais lorsque cette structure n’est pas intégralement connue, tout ajout d’arc demande de recalculer entièrement ce score. En effet, l’ajout d’un arc dans un réseau bayésien étiqueté modifie la valeur d’un exposant dans une probabilité. Les algorithmes d’apprentissage de réseaux bayésiens classiques n’ont pas cette difficulté. Nous présentons ici une procédure dite de Restauration-Estimation permettant d’apprendre à la fois les paramètres et la structure du modèle, afin de trouver un modèle maximisant sa vraisemblance.

Le problème d’apprentissage revient à trouver ˆGet ˆθqui maximisent conjointement log (PG(D)).

4.2.1 Algorithme d’apprentissage de RBDE

Considérons une procédure itérative générale définie par l’algorithme 5 pour obtenir un maximum local de log (PG(D)).

s ← 0;

Choisir un graphe G(0) arbitraire ; répéter

Étape E (Estimation) : θ(s)

← arg supθ→logPG(s)

→,θ→(D); Étape R (Restauration) : G(s+1)← arg maxG→logPG

→,θ→(s)(D); s ← s + 1 ;

jusqu’à Convergence;

Algorithme 5 : Procédure d’apprentissage par restauration-estimation de la structure d’un graphe par fonction de score

Cet algorithme est très général. Les deux étapes doivent être spécifiées pour un problème d’apprentissage de RBD étiqueté donné pour pouvoir implémenter cet algorithme. Toutefois, pour n’importe quelle implémentation de cet algorithme, la proposition suivante est vérifiée :

Proposition 1. La procédure d’apprentissage d’un RBD étiqueté converge vers un maximum local de log (PG→,θ→(D)).

Preuve :

— Les étapes E et R augmentent conjointement la log-vraisemblance : — L’étape E se construit de telle manière à ce que les paramètres θ(s)

maximisent logPG(s)

→,θ(D) pour un réseau G(s). Il n’existe pas de jeu de paramètres θ(x)6= θ(s)

tel que logPG

→,θ→(s)(D)> logPG

→,θ(s)(D).

— L’étape R se construit de telle manière qu’un graphe G(s+1)

ait une vraisemblance G(s+1)≥ logPG →,θ(s)(D) — Ainsi, logPG(s+1) ,θ→(s+1)(D)≥ logPG(s) →,θ→(s)(D), ∀s

— Si il existe un k tel que G(s+1) = G(s)

, alors θ(s+1) = θ(s)

. Dans ce cas, l’algorithme a convergé. — Si G(s+1)

6= G(s) , G(s)

ne peut pas à nouveau être une solution d’une itération suivant s0> s. Puisque l’espace des graphes possibles est fini, il existe forcément un s tel que on a G(s+1)

= G(s) .

4.2.2 Étape d’estimation

L’étape E consiste à estimer la valeur des paramètres à partir d’une structure de graphe connue. Contrairement au cas classique, le nombre de paramètres à estimer est connu à l’avance. Soit, pour un réseau bayésien dynamique étiqueté, amaxle nombre d’états possibles de la covariable, umax le nombre de comportements inhérents possibles, qmax le nombre d’étiquettes d’impulseurs et rmax le nombre d’étiquettes d’inhibiteurs, ce réseau bayésien étiqueté a au plus amax+ umax+ qmax+ rmax paramètres inconnus, ou 2 ∗ (amax+ umax+ qmax+ rmax) s’il s’agit d’un réseau bayésien dynamique étiqueté (chacun ayant un effet différent sur la survie et sur l’apparition). De ce fait, l’étape d’estimation se fait en recherchant les valeurs des paramètres maximisant la vraisemblance du réseau. Les méthodes classiques de maximum de vraisemblance peuvent s’utiliser facilement, car il y a un nombre restreint de paramètres. Dans le reste de ce manuscrit, nous utilisons la méthode des points intérieurs dans le cadre de la programmation non linéaire [Byrd et al., 1999] pour cette étape.

4.2.3 Étape de restauration

L’étape R consiste à trouver la meilleure structure de réseau à partir d’un ensemble de paramètres connus. La vraisemblance ne possédant pas de composante limitant le nombre de paramètres, cela limite les possibilités d’algorithmes (l’algorithme Branch and Bound, par exemple, exploite une composante de pénalité). Une difficulté lors de l’apprentissage d’un réseau bayésien étiqueté par un algorithme basé sur un score vient du fait que l’espace des graphes à explorer est plus vaste : en plus des arêtes, il faut apprendre leur étiquette. On devra donc apprendre, pour chaque nœud, un ensemble de parents ainsi que leurs étiquettes. Dans le cadre des réseaux bayésiens dynamiques étiquetés tels qu’ils ont été décrits, tout arc est dirigé d’un pas de temps t vers un pas de temps t + 1. Il n’y a donc pas d’arc synchrone, ce qui permet d’ignorer les étapes de recherche de boucles, comme décrit dans l’algorithme de [Dojer, 2006]. Cependant, cet algorithme ne peut pas être utilisé en tant que tel car toutes les conditions de cet algorithme ne sont pas respectées dans le cadre des réseaux bayésiens dynamiques étiquetés. En effet, si la vraisemblance peut être considérée comme additive (décomposable en scores locaux pour chaque nœud), il n’y a pas de paramètres de pénalisation permettant la décomposabilité de ce score. La vraisemblance, présentée en section 4.1, peut prendre la forme d’une somme de variables binaires, exprimée à partir d’autres variables binaires. Une telle configuration est idéale pour utiliser des méthodes de programmation linéaire en nombre entiers, car toute variable binaire peut être exprimée dans ce cadre par des contraintes linéaires en fonction d’autres variables binaires [Williams et al., 2009]. Il est possible de décomposer cette vraisemblance en n problèmes indépendants, chacun cherchant à maximiser le score d’un phénomène i présenté dans l’équation 4.3. Les variables R de cette équation sont des variables binaires définies par des nombres de parents présents à un pas de temps t, c’est à dire par une série de présence ou d’absence d’arcs dans la structure graphique G. Elles peuvent donc être exprimées par des contraintes linéaires sur ces variables. Un algorithme d’apprentissage utilisant la programmation linéaire en nombres entiers est faisable dans le cadre des réseaux bayésiens dynamiques étiquetés. Voyons de quelle manière il est possible d’exprimer ce problème.

4.3 Expression de l’étape de restauration comme un programme