Champs conditionnels al´eatoires - Structures arborescentes et apprentissage automatique

Les champs conditionnels aléatoires ou CRFs sont un cadre pour définir des modèles probabilistes non génératifs, c’est-à-dire qui représentent une distribution de probabilité conditionnelle. Je vais d’abord introduire les CRFs à travers l’exemple de l’annotation de séquences.

Si on désire extraire les noms latins d’oiseaux de la liste en figure 4.1, on annotera chaque mot avec une information booléenne, notée ici 0 ou 1. Dans ce problème, on considère le texte comme une donnée observée.

La définition d’un CRF repose sur l’expression de fonctions qui traduisent la connais-sance du domaine. Ces fonctions sont appelées par la suite des features. Les features sont des fonctions à valeurs réelles qui vont par exemple traduire le fait qu’un mot latin termine souvent par a ou par i, ou ne comporte jamais d’accent. Pour évaluer cette feature, il suffit de consulter le texte, l’observation. Par exemple, on pourrait traduire nos connaissances du latin par :

4.2. Champs conditionnels al´eatoires 49

50 Chapitre 4. Arbres et Champs al´eatoires Y₁ Y₂ Y₃ · · · Y_n

Fig. 4.2 – Graphe de d´ependances dans le cas des s´equences.

– f₁(yi, x_i) = 1 si yi = 1 et xi se termine par a ou par i ; – f2(yi, x_i) = 1 si yi = 0 et xi contient ´e.

On pourrait bâtir un modèle à l’aide d’un ensemble de telles features et d’un jeu de paramètres à valeurs réelles qui pondèrent leur poids. Par exemple attribuer un poids assez élevé à la feature f2est sans doute intéressant puisque les mots latins ne contiennent jamais de é.

Mais la connaissance apportée simplement par la lecture de l’observation peut se révéler insuffisante dans bien des cas. Il existe des noms fran¸cais d’oiseau se terminant par i comme la bourscarle de Cetti. Pour contourner cette difficulté, on peut ajouter une feature qui indique qu’un mot est sans doute un nom latin si son voisin l’est aussi. Cette feature exprime une dépendance entre deux annotations voisines. L’annotation d’un mot n’est plus simplement conditionnée par l’observation mais dépend aussi de l’annotation d’autres mots. Les features vont alors s’écrire selon la forme :

– f3(yi−1, y_i, x_i) = 1 si yi = 1 et yi−1 = 1 et xi se termine par a ou par i ;

La dépendance entre les annotations est traduite par la forme et la définition séman-tique des features qui traduisent ces connaissances du domaine. On notera que l’expres-sion de ces dépendances dans les features est symétrique et non dirigée : yi dépend de y_i+1 et vice versa. Le modèle sera alors plus expressif mais on notera aussi que le calcul de l’annotation la plus probable sera aussi plus complexe. Dans notre exemple, il faudra considérer l’annotation de couples en couples de mots sur la longueur du texte. Limiter les dépendances est essentiel pour préserver un critère praticable pour les algorithmes qui manipuleront le modèle.

D’un point de vue formel, on va considérer un champ aléatoire X pour les obser-vations et un champ Y pour leur annotation. Un CRF va représenter la distribution conditionnelle P (Y |X).

Les relations de dépendances et d’indépendance entre les variables dans le champ Y sont exprimées par un graphe dont les noeuds sont associés aux Yi. On n’exprime pas de dépendance avec les variables observées car elles sont données. C’est là une différence essentielle avec les modèles génératifs car on calculera une probabilité étant donnée une observation. Une conséquence importante est que chaque feature pourra poser des conditions sur toute l’observation X et non seulement sur la variable Xi à la position courante du champ de variables. Chaque arc dans le graphe est non dirigé et exprime une dépendance. L’absence d’arc signale une indépendance. Le graphe définit un voisinage pour chaque variable dont la valeur ne dépendra que de la valeur de ses voisines. Dans le cas des séquences, on fixe souvent le graphe selon cette forme, exploitant l’ordre de succession des lettres : chaque Yi est connecté à son successeur et son prédécesseur. Cela donne le graphe de la figure 4.2. Choisir ce graphe a priori limite la forme des features et donc des connaissances que l’on injecte dans le modèle.

Etant donn´e ce graphe, on ne pourra formuler des features que de la forme f (yi, x, i) ou f (yi−1, y_i, x, i). L’expression f (yi−1, y_i, x, i) d´esigne une feature qui re¸coit : la valeur du champ Y aux points i − 1 et i, soient deux valuations yi−1 et yi; ainsi que toutes les

4.2. Champs conditionnels aléatoires 51 observations de x nécessaires pour effectuer son calcul au point i, noté par commodité x, i. Pour plus de simplicité, par la suite on rassemble toutes les features (de tout type) sous une forme unique indicée par k : fk(yi−1, yi, x, i).

Le modèle de probabilités ainsi défini par son graphe G tombe dans la classe des modèles graphiques non dirigés. Grâce à un résultat fondamental des années 70, le théo-rème d’Hammersley-Clifford, on sait que la distribution peut s’exprimer par un produit de fonctions locales à chaque clique1 du graphe :

P(Y = y|X = x) = ¹ Z(x)

c∈CG

Φc(yc, x) .

Ici, on note CG l’ensemble des cliques de G et yc le champ y restreint `a une clique c. Les Φc sont des fonctions r´eelles et Z(x) est un coefficient de normalisation.

La définition des CRFs va faire en sorte que la paramétrisation de cette distribution sera log-linéaire en les features donc que chaque Φc soit en fait l’exponentielle de la somme pondérée des features qui s’appliquent dans la clique c :

Φc(yc, x) = exp ^X

λ_kf_k(yc, x, c) .

On obtient la classe des distributions représentées par un CRF sur les séquences, pour le graphe de dépendances de la figure 4.2 :

P(Y = y|X = x) = ¹ Z(x)^exp n X i=1 X k λ_kf_k(y_i−1, y_i, x, i) . (4.1)

Le choix d’une telle paramétrisation est motivé par les propriétés analytiques de ces fonctions. On retrouvera de bonnes dispositions pour ajuster les paramètres selon le principe de maximum de vraisemblance : étant donné un échantillon étiqueté, trouver le jeu de paramètres qui maximise la probabilité d’avoir généré cet échantillon.

Il reste à préciser que la définition a été donnée pour un champ aléatoire de taille fixée et un graphe de dépendances fixé. Dans la réalité, on appliquera ce modèle à toute séquence. On considère alors que chaque définition de feature fk s’applique indifférem-ment en tout point de la séquence et que son paramètre associé λk est identique en chacun de ces points. C’est ce qui est déjà annoncé par l’équation (4.1) où le k n’est pas indicé par i.

Trois probl`emes algorithmiques principaux se posent dans ce chapitre 1. Le calcul de la probabilit´e d’une annotation.

2. Le calcul de la meilleure annotation d’une observation : l’inf´erence.

3. L’ajustement des param`etres d’un CRF en fonction d’un ´echantillon : l’entraˆıne-ment.

Tous donnent un algorithme non praticable s’ils sont pensés un peu na¨ıvement, puis-qu’il est nécessaire de considérer toutes les annotations possibles d’une séquence x au moins dans le calcul du coefficient de normalisation Z(x). Dans le cas des séquences, avec le modèle de dépendances de la figure 4.2, on utilise des algorithmes de programmation

52 Chapitre 4. Arbres et Champs al´eatoires TR

@id TD TD TD

Y_n

Y_id Y₁ Y₂ Y₃

Fig. 4.3 – Mod`ele de d´ependances dans les arbres XML.

dynamique très proches de Viterbi, bien connus dans les HMMs. Le troisième problème est plus complexe. Pour l’ajustement des paramètres, basé sur la maximisation de la vraisemblance, on exploite la forme de la fonction (4.1). La forme log-linéaire garantit que la fonction admet un maximum global unique. Il suffit donc de calculer le point où s’annule la dérivée. Mais on ne peut obtenir analytiquement une solution générale à ce problème. On utilise donc des algorithmes de descente de gradient pour approcher ce point.

Dans le document Structures arborescentes et apprentissage automatique (Page 59-63)