• Aucun résultat trouvé

Champs conditionnels al´eatoires

Les champs conditionnels al´eatoires ou CRFs sont un cadre pour d´efinir des mod`eles probabilistes non g´en´eratifs, c’est-`a-dire qui repr´esentent une distribution de probabilit´e conditionnelle. Je vais d’abord introduire les CRFs `a travers l’exemple de l’annotation de s´equences.

Si on d´esire extraire les noms latins d’oiseaux de la liste en figure 4.1, on annotera chaque mot avec une information bool´eenne, not´ee ici 0 ou 1. Dans ce probl`eme, on consid`ere le texte comme une donn´ee observ´ee.

La d´efinition d’un CRF repose sur l’expression de fonctions qui traduisent la connais-sance du domaine. Ces fonctions sont appel´ees par la suite des features. Les features sont des fonctions `a valeurs r´eelles qui vont par exemple traduire le fait qu’un mot latin termine souvent par a ou par i, ou ne comporte jamais d’accent. Pour ´evaluer cette feature, il suffit de consulter le texte, l’observation. Par exemple, on pourrait traduire nos connaissances du latin par :

4.2. Champs conditionnels al´eatoires 49

50 Chapitre 4. Arbres et Champs al´eatoires Y1 Y2 Y3 · · · Yn

Fig. 4.2 – Graphe de d´ependances dans le cas des s´equences.

– f1(yi, xi) = 1 si yi = 1 et xi se termine par a ou par i ; – f2(yi, xi) = 1 si yi = 0 et xi contient ´e.

On pourrait bˆatir un mod`ele `a l’aide d’un ensemble de telles features et d’un jeu de param`etres `a valeurs r´eelles qui pond`erent leur poids. Par exemple attribuer un poids assez ´elev´e `a la feature f2est sans doute int´eressant puisque les mots latins ne contiennent jamais de ´e.

Mais la connaissance apport´ee simplement par la lecture de l’observation peut se r´ev´eler insuffisante dans bien des cas. Il existe des noms fran¸cais d’oiseau se terminant par i comme la bourscarle de Cetti. Pour contourner cette difficult´e, on peut ajouter une feature qui indique qu’un mot est sans doute un nom latin si son voisin l’est aussi. Cette feature exprime une d´ependance entre deux annotations voisines. L’annotation d’un mot n’est plus simplement conditionn´ee par l’observation mais d´epend aussi de l’annotation d’autres mots. Les features vont alors s’´ecrire selon la forme :

– f3(yi−1, yi, xi) = 1 si yi = 1 et yi−1 = 1 et xi se termine par a ou par i ;

La d´ependance entre les annotations est traduite par la forme et la d´efinition s´eman-tique des features qui traduisent ces connaissances du domaine. On notera que l’expres-sion de ces d´ependances dans les features est sym´etrique et non dirig´ee : yi d´epend de yi+1 et vice versa. Le mod`ele sera alors plus expressif mais on notera aussi que le calcul de l’annotation la plus probable sera aussi plus complexe. Dans notre exemple, il faudra consid´erer l’annotation de couples en couples de mots sur la longueur du texte. Limiter les d´ependances est essentiel pour pr´eserver un crit`ere praticable pour les algorithmes qui manipuleront le mod`ele.

D’un point de vue formel, on va consid´erer un champ al´eatoire X pour les obser-vations et un champ Y pour leur annotation. Un CRF va repr´esenter la distribution conditionnelle P (Y |X).

Les relations de d´ependances et d’ind´ependance entre les variables dans le champ Y sont exprim´ees par un graphe dont les noeuds sont associ´es aux Yi. On n’exprime pas de d´ependance avec les variables observ´ees car elles sont donn´ees. C’est l`a une diff´erence essentielle avec les mod`eles g´en´eratifs car on calculera une probabilit´e ´etant donn´ee une observation. Une cons´equence importante est que chaque feature pourra poser des conditions sur toute l’observation X et non seulement sur la variable Xi `a la position courante du champ de variables. Chaque arc dans le graphe est non dirig´e et exprime une d´ependance. L’absence d’arc signale une ind´ependance. Le graphe d´efinit un voisinage pour chaque variable dont la valeur ne d´ependra que de la valeur de ses voisines. Dans le cas des s´equences, on fixe souvent le graphe selon cette forme, exploitant l’ordre de succession des lettres : chaque Yi est connect´e `a son successeur et son pr´ed´ecesseur. Cela donne le graphe de la figure 4.2. Choisir ce graphe a priori limite la forme des features et donc des connaissances que l’on injecte dans le mod`ele.

´

Etant donn´e ce graphe, on ne pourra formuler des features que de la forme f (yi, x, i) ou f (yi−1, yi, x, i). L’expression f (yi−1, yi, x, i) d´esigne une feature qui re¸coit : la valeur du champ Y aux points i − 1 et i, soient deux valuations yi−1 et yi; ainsi que toutes les

4.2. Champs conditionnels al´eatoires 51 observations de x n´ecessaires pour effectuer son calcul au point i, not´e par commodit´e x, i. Pour plus de simplicit´e, par la suite on rassemble toutes les features (de tout type) sous une forme unique indic´ee par k : fk(yi−1, yi, x, i).

Le mod`ele de probabilit´es ainsi d´efini par son graphe G tombe dans la classe des mod`eles graphiques non dirig´es. Grˆace `a un r´esultat fondamental des ann´ees 70, le th´eo-r`eme d’Hammersley-Clifford, on sait que la distribution peut s’exprimer par un produit de fonctions locales `a chaque clique1 du graphe :

P(Y = y|X = x) = 1 Z(x)

Y

c∈CG

Φc(yc, x) .

Ici, on note CG l’ensemble des cliques de G et yc le champ y restreint `a une clique c. Les Φc sont des fonctions r´eelles et Z(x) est un coefficient de normalisation.

La d´efinition des CRFs va faire en sorte que la param´etrisation de cette distribution sera log-lin´eaire en les features donc que chaque Φc soit en fait l’exponentielle de la somme pond´er´ee des features qui s’appliquent dans la clique c :

Φc(yc, x) = exp X

k

λkfk(yc, x, c) .

On obtient la classe des distributions repr´esent´ees par un CRF sur les s´equences, pour le graphe de d´ependances de la figure 4.2 :

P(Y = y|X = x) = 1 Z(x)exp  n X i=1 X k λkfk(yi−1, yi, x, i)  . (4.1)

Le choix d’une telle param´etrisation est motiv´e par les propri´et´es analytiques de ces fonctions. On retrouvera de bonnes dispositions pour ajuster les param`etres selon le principe de maximum de vraisemblance : ´etant donn´e un ´echantillon ´etiquet´e, trouver le jeu de param`etres qui maximise la probabilit´e d’avoir g´en´er´e cet ´echantillon.

Il reste `a pr´eciser que la d´efinition a ´et´e donn´ee pour un champ al´eatoire de taille fix´ee et un graphe de d´ependances fix´e. Dans la r´ealit´e, on appliquera ce mod`ele `a toute s´equence. On consid`ere alors que chaque d´efinition de feature fk s’applique indiff´erem-ment en tout point de la s´equence et que son param`etre associ´e λk est identique en chacun de ces points. C’est ce qui est d´ej`a annonc´e par l’´equation (4.1) o`u le k n’est pas indic´e par i.

Trois probl`emes algorithmiques principaux se posent dans ce chapitre 1. Le calcul de la probabilit´e d’une annotation.

2. Le calcul de la meilleure annotation d’une observation : l’inf´erence.

3. L’ajustement des param`etres d’un CRF en fonction d’un ´echantillon : l’entraˆıne-ment.

Tous donnent un algorithme non praticable s’ils sont pens´es un peu na¨ıvement, puis-qu’il est n´ecessaire de consid´erer toutes les annotations possibles d’une s´equence x au moins dans le calcul du coefficient de normalisation Z(x). Dans le cas des s´equences, avec le mod`ele de d´ependances de la figure 4.2, on utilise des algorithmes de programmation

52 Chapitre 4. Arbres et Champs al´eatoires TR

@id TD TD TD

Yn

Yid Y1 Y2 Y3

Fig. 4.3 – Mod`ele de d´ependances dans les arbres XML.

dynamique tr`es proches de Viterbi, bien connus dans les HMMs. Le troisi`eme probl`eme est plus complexe. Pour l’ajustement des param`etres, bas´e sur la maximisation de la vraisemblance, on exploite la forme de la fonction (4.1). La forme log-lin´eaire garantit que la fonction admet un maximum global unique. Il suffit donc de calculer le point o`u s’annule la d´eriv´ee. Mais on ne peut obtenir analytiquement une solution g´en´erale `a ce probl`eme. On utilise donc des algorithmes de descente de gradient pour approcher ce point.

Documents relatifs