• Aucun résultat trouvé

Machine d’´edition ` a plusieurs ´etats avec ajout de connaissances

2.3 M´ethodes probabilistes

2.3.4 Machine d’´edition ` a plusieurs ´etats avec ajout de connaissances

Dans [MBP05], les auteurs proposent d’utiliser les CRFs (Conditionnal Random

Fields [LMP01]) dans le cadre de l’apprentissage de la distance d’´edition entre chaˆınes.

Le principal int´erˆet de ce mod`ele discriminatif est l’incorporation de connaissance du do-maine durant l’apprentissage. Cette adaptation des CRFs se pr´esente sous la forme d’une machine `a ´etats finis permettant le calcul d’une probabilit´e conditionnelle d’une paire de chaˆınes. Elle est compos´ee de deux ensembles disjoints d’´etats : un pour les chaˆınes similaires (sim) et un pour les chaˆınes dissimilaires (sim). Il existe un unique ´etat initial qui m`ene dans l’un ou l’autre des ensembles. De plus, notons qu’il n’existe aucune

tran-sition entre les deux ensembles (voir Fig.2.4). L’int´egration de connaissance est possible

par l’utilisation de features (e.g. “un des caract`eres courant est num´erique”, “les ca-ract`eres forment un acronyme”, “ne pas tenir compte des mots entre parenth`eses”, etc.). Les transitions du mod`ele sont ´etiquet´ees soit par des features soit par des op´erations d’´edition.

Dans ce mod`ele, les param`etres sont estim´es par l’algorithme EM. Il est `a noter que les auteurs ont besoin ici d’exemples positifs et n´egatifs. En effet, le mod`ele est construit autour des deux ensembles d’´etats. Nous avons donc les exemples positifs pour le groupe d’´etats concernant les chaˆınes similaires et les exemples n´egatifs (i.e. dissimi-laires) qui sont donc positifs pour le groupe des ´etats concernant ce type de chaˆınes. Les exp´erimentations ont ´et´e men´ees dans le cadre de la d´esambigu¨ısation de noms (adresse de restaurants, citations d’article) et ont montr´e de meilleurs r´esultats par rapport `a la

2.4 Conclusion

Dans ce chapitre, nous avons pr´esent´e l’´etat de l’art des mod`eles permettant l’ap-prentissage de param`etres de similarit´es d’´edition. Ces travaux ont principalement port´e sur des similarit´es entre chaˆınes et poss`edent des caract´eristiques diff´erentes. Nous avons,

en effet, pu voir que les mod`eles `a un ´etat [RY98,OS06], dits memoryless, sont simples,

efficaces mais ne permettent pas une prise en compte du contexte pour d´efinir les valeurs

des coˆuts des op´erations d’´edition. Ceci peut, par contre, ˆetre r´ealis´e par des machines

`

a ´etats [DEKM98, BJS06], qui, quoi que plus complexes `a apprendre, permettent ainsi

d’appr´ehender des situations o`u les coˆuts d’une mˆeme op´eration peuvent ´evoluer durant

l’´edition. Enfin, nous avons vu que l’adaptation des CRF `a l’apprentissage de distance

d’´edition [MBP05], permet de tenir compte de features des donn´ees d’apprentissage et

donc d’une certaine mani`ere de connaissance a priori. Cependant, ce mod`ele n´ecessite de disposer d’exemples positifs et n´egatifs et ne permet pas d’interpr´etation a posteriori du mod`ele.

Un premier constat peut ˆetre fait `a l’issue de ce chapitre. Tr`es peu de travaux ont

port´e sur les arbres et les graphes, principalement pour des raisons algorithmiques. Si l’apprentissage de similarit´es d’´edition entre graphes contraint alors de travailler sur de petites structures, et en limitant l’ensemble des op´erations possibles, nous pensons que l’apprentissage sur des donn´ees arborescentes peut ˆetre r´esolu de mani`ere efficace. Compte tenu ´egalement du fait que les structures arborescentes sont de plus en plus exploit´ees dans de nombreuses applications (notamment li´ees au Web), une premi`ere contribution de cette th`ese a ´et´e de proposer des algorithmes d’apprentissage de similarit´e d’´edition entre arbres. C’est le sujet du chapitre suivant.

D’autre part, afin de contourner les limites des mod`eles actuels sur les s´equences, nous avons travaill´e ensuite sur un nouveau type de machine d’´edition, appel´ees CSMs (Constrained State Machines). Ce mod`ele que nous pr´esenterons en tant que deuxi`eme contribution dans le Chapitre 4 a les caract´eristiques suivantes :

– Utilisation d’un ensemble fini d’´etats pour la mod´elisation de contextes.

– D´efinition d’une matrice de probabilit´e d’op´erations d’´edition par ´etat dans le but de pouvoir exploiter le mod`ele a posteriori.

– Ajout de connaissance a priori par l’ajout de contraintes sur les transitions du mod`ele propos´e.

arbres

R´esum´e

Dans ce chapitre, nous pr´esentons une m´ethode probabiliste pour apprendre des mod`eles joints et conditionnels de similarit´es d’´edition stochastiques entre arbres. Nous

mon-trons sur plusieurs s´eries d’exp´erimentations qu’il est alors possible d’apprendre les coˆuts

des op´erations d’´edition permettant d’am´eliorer les distances d’´edition classiques entre arbres. Nous pr´esentons ´egalement SEDiL, plateforme logicielle, qui est disponible pour la communaut´e Machine Learning pour effectuer des exp´erimentations avec les distances d’´edition entre chaˆınes, et arbres.

Les articles suivants ont ´et´e tir´es du travail pr´esent´e dans ce chapitre :

– Laurent Boyer, Amaury Habrard, et Marc Sebban. Learning metrics between tree structured data: Application to image recognition. Dans European Conference on Machine Learning (ECML), volume LNCS 4701, pages 54–66. Springer, 2007. – Marc Bernard, Laurent Boyer, Amaury Habrard, et Marc Sebban. Learning

pro-babilistic models of tree edit distance. Pattern Recognition, 41(8) : 2611–2629, 2008.

– Laurent Boyer, Yann Esposito, Amaury Habrard, Jos´e Oncina, et Marc Sebban.

SEDiL: Software for edit distance learning. Dans European Conference on Machine

Learning and Knowledge Discovery in Databases (ECML/PKDD), volume LNCS 5212, pages 672–677. Springer, 2008.

3.1 Introduction

Ces derni`eres ann´ees ont vu apparaˆıtre un int´erˆet grandissant pour les donn´ees struc-tur´ees sous forme d’arbres dans les domaines de l’apprentissage automatique et de la reconnaissance de formes. L’utilisation de structures d’arbre dans les mod`eles permet, en effet, d’appr´ehender des tˆaches complexes telles que l’extraction de donn´ees sur le Web, la pr´ediction de structure biologique (ARN), la reconnaissance de la musique, ou encore la transformation de donn´ees semi-structur´ees (e.g., les documents XML). Nous pouvons

no-ter que dans ces applications, l’appel `a des similarit´es entre arbres est souvent n´ecessaire.

tra-vaux de recherches ces derni`eres ann´ees. Comme nous l’avons ´evoqu´e pr´ec´edemment, dans

son utilisation classique, la DE requiert l’utilisation de coˆuts d’´edition souvent arbitraires

et fix´es a priori. Dans ce chapitre, nous nous concentrons sur l’apprentissage automatique d’une distance d’´edition stochastique entre arbres, ou dit autrement, sur l’apprentissage des probabilit´es de chacune des op´erations d’´edition. Nous nous int´eressons `a deux types d’approches probabilistes. La premi`ere construit un mod`ele g´en´eratif de la DE `a par-tir d’une distribution jointe des op´erations d’´edition, tandis que la seconde g´en`ere une distribution conditionnelle pour d´efinir un mod`ele discriminatif. L’apprentissage de ces

distributions se fait `a l’aide de l’adaptation de l’algorithme Expectation-Maximisation

d´ecrit en Section2.3.1.

La suite de ce chapitre est organis´ee comme suit : nous pr´esenterons en Section 3.2

quelques d´efinitions g´en´eriques sur les arbres. Dans la Section3.3, nous d´ecrirons notre

premi`ere contribution visant `a apprendre les param`etres d’´edition dans le cadre de

la distance de Selkow [Sel77], qui est une des deux distances d’´edition standard sur

les arbres. Nous montrerons en Section 3.4 l’int´erˆet de notre approche `a travers deux

exp´erimentations : la premi`ere sur des donn´ees artificielles pour comparer les approches jointe et conditionnelle et ensuite sur une tˆache de reconnaissance de formes pour mon-trer l’apport de l’apprentissage d’une telle similarit´e dans un processus de reconnaissance

d’´ecriture manuscrite. Dans la Section3.5, nous pr´esenterons notre seconde contribution

sur les arbres, portant sur l’apprentissage des param`etres de la distance d’´edition d´efinie

selon la distance de Zhang & Shasha [ZS89]. La diff´erence avec la distance pr´ec´edente

vient, comme nous le verrons, du type des op´erations d’´edition autoris´ees. Enfin nous

pr´esenterons, en Section3.6une plateforme d’exp´erimentation, baptis´ee SEDiL, qui est

propos´ee en libre acc`es `a la communaut´e en apprentissage.

Documents relatifs