2.3 M´ethodes probabilistes
2.3.4 Machine d’´edition ` a plusieurs ´etats avec ajout de connaissances
Dans [MBP05], les auteurs proposent d’utiliser les CRFs (Conditionnal Random
Fields [LMP01]) dans le cadre de l’apprentissage de la distance d’´edition entre chaˆınes.
Le principal int´erˆet de ce mod`ele discriminatif est l’incorporation de connaissance du do-maine durant l’apprentissage. Cette adaptation des CRFs se pr´esente sous la forme d’une machine `a ´etats finis permettant le calcul d’une probabilit´e conditionnelle d’une paire de chaˆınes. Elle est compos´ee de deux ensembles disjoints d’´etats : un pour les chaˆınes similaires (sim) et un pour les chaˆınes dissimilaires (sim). Il existe un unique ´etat initial qui m`ene dans l’un ou l’autre des ensembles. De plus, notons qu’il n’existe aucune
tran-sition entre les deux ensembles (voir Fig.2.4). L’int´egration de connaissance est possible
par l’utilisation de features (e.g. “un des caract`eres courant est num´erique”, “les ca-ract`eres forment un acronyme”, “ne pas tenir compte des mots entre parenth`eses”, etc.). Les transitions du mod`ele sont ´etiquet´ees soit par des features soit par des op´erations d’´edition.
Dans ce mod`ele, les param`etres sont estim´es par l’algorithme EM. Il est `a noter que les auteurs ont besoin ici d’exemples positifs et n´egatifs. En effet, le mod`ele est construit autour des deux ensembles d’´etats. Nous avons donc les exemples positifs pour le groupe d’´etats concernant les chaˆınes similaires et les exemples n´egatifs (i.e. dissimi-laires) qui sont donc positifs pour le groupe des ´etats concernant ce type de chaˆınes. Les exp´erimentations ont ´et´e men´ees dans le cadre de la d´esambigu¨ısation de noms (adresse de restaurants, citations d’article) et ont montr´e de meilleurs r´esultats par rapport `a la
2.4 Conclusion
Dans ce chapitre, nous avons pr´esent´e l’´etat de l’art des mod`eles permettant l’ap-prentissage de param`etres de similarit´es d’´edition. Ces travaux ont principalement port´e sur des similarit´es entre chaˆınes et poss`edent des caract´eristiques diff´erentes. Nous avons,
en effet, pu voir que les mod`eles `a un ´etat [RY98,OS06], dits memoryless, sont simples,
efficaces mais ne permettent pas une prise en compte du contexte pour d´efinir les valeurs
des coˆuts des op´erations d’´edition. Ceci peut, par contre, ˆetre r´ealis´e par des machines
`
a ´etats [DEKM98, BJS06], qui, quoi que plus complexes `a apprendre, permettent ainsi
d’appr´ehender des situations o`u les coˆuts d’une mˆeme op´eration peuvent ´evoluer durant
l’´edition. Enfin, nous avons vu que l’adaptation des CRF `a l’apprentissage de distance
d’´edition [MBP05], permet de tenir compte de features des donn´ees d’apprentissage et
donc d’une certaine mani`ere de connaissance a priori. Cependant, ce mod`ele n´ecessite de disposer d’exemples positifs et n´egatifs et ne permet pas d’interpr´etation a posteriori du mod`ele.
Un premier constat peut ˆetre fait `a l’issue de ce chapitre. Tr`es peu de travaux ont
port´e sur les arbres et les graphes, principalement pour des raisons algorithmiques. Si l’apprentissage de similarit´es d’´edition entre graphes contraint alors de travailler sur de petites structures, et en limitant l’ensemble des op´erations possibles, nous pensons que l’apprentissage sur des donn´ees arborescentes peut ˆetre r´esolu de mani`ere efficace. Compte tenu ´egalement du fait que les structures arborescentes sont de plus en plus exploit´ees dans de nombreuses applications (notamment li´ees au Web), une premi`ere contribution de cette th`ese a ´et´e de proposer des algorithmes d’apprentissage de similarit´e d’´edition entre arbres. C’est le sujet du chapitre suivant.
D’autre part, afin de contourner les limites des mod`eles actuels sur les s´equences, nous avons travaill´e ensuite sur un nouveau type de machine d’´edition, appel´ees CSMs (Constrained State Machines). Ce mod`ele que nous pr´esenterons en tant que deuxi`eme contribution dans le Chapitre 4 a les caract´eristiques suivantes :
– Utilisation d’un ensemble fini d’´etats pour la mod´elisation de contextes.
– D´efinition d’une matrice de probabilit´e d’op´erations d’´edition par ´etat dans le but de pouvoir exploiter le mod`ele a posteriori.
– Ajout de connaissance a priori par l’ajout de contraintes sur les transitions du mod`ele propos´e.
arbres
R´esum´e
Dans ce chapitre, nous pr´esentons une m´ethode probabiliste pour apprendre des mod`eles joints et conditionnels de similarit´es d’´edition stochastiques entre arbres. Nous
mon-trons sur plusieurs s´eries d’exp´erimentations qu’il est alors possible d’apprendre les coˆuts
des op´erations d’´edition permettant d’am´eliorer les distances d’´edition classiques entre arbres. Nous pr´esentons ´egalement SEDiL, plateforme logicielle, qui est disponible pour la communaut´e Machine Learning pour effectuer des exp´erimentations avec les distances d’´edition entre chaˆınes, et arbres.
Les articles suivants ont ´et´e tir´es du travail pr´esent´e dans ce chapitre :
– Laurent Boyer, Amaury Habrard, et Marc Sebban. Learning metrics between tree structured data: Application to image recognition. Dans European Conference on Machine Learning (ECML), volume LNCS 4701, pages 54–66. Springer, 2007. – Marc Bernard, Laurent Boyer, Amaury Habrard, et Marc Sebban. Learning
pro-babilistic models of tree edit distance. Pattern Recognition, 41(8) : 2611–2629, 2008.
– Laurent Boyer, Yann Esposito, Amaury Habrard, Jos´e Oncina, et Marc Sebban.
SEDiL: Software for edit distance learning. Dans European Conference on Machine
Learning and Knowledge Discovery in Databases (ECML/PKDD), volume LNCS 5212, pages 672–677. Springer, 2008.
3.1 Introduction
Ces derni`eres ann´ees ont vu apparaˆıtre un int´erˆet grandissant pour les donn´ees struc-tur´ees sous forme d’arbres dans les domaines de l’apprentissage automatique et de la reconnaissance de formes. L’utilisation de structures d’arbre dans les mod`eles permet, en effet, d’appr´ehender des tˆaches complexes telles que l’extraction de donn´ees sur le Web, la pr´ediction de structure biologique (ARN), la reconnaissance de la musique, ou encore la transformation de donn´ees semi-structur´ees (e.g., les documents XML). Nous pouvons
no-ter que dans ces applications, l’appel `a des similarit´es entre arbres est souvent n´ecessaire.
tra-vaux de recherches ces derni`eres ann´ees. Comme nous l’avons ´evoqu´e pr´ec´edemment, dans
son utilisation classique, la DE requiert l’utilisation de coˆuts d’´edition souvent arbitraires
et fix´es a priori. Dans ce chapitre, nous nous concentrons sur l’apprentissage automatique d’une distance d’´edition stochastique entre arbres, ou dit autrement, sur l’apprentissage des probabilit´es de chacune des op´erations d’´edition. Nous nous int´eressons `a deux types d’approches probabilistes. La premi`ere construit un mod`ele g´en´eratif de la DE `a par-tir d’une distribution jointe des op´erations d’´edition, tandis que la seconde g´en`ere une distribution conditionnelle pour d´efinir un mod`ele discriminatif. L’apprentissage de ces
distributions se fait `a l’aide de l’adaptation de l’algorithme Expectation-Maximisation
d´ecrit en Section2.3.1.
La suite de ce chapitre est organis´ee comme suit : nous pr´esenterons en Section 3.2
quelques d´efinitions g´en´eriques sur les arbres. Dans la Section3.3, nous d´ecrirons notre
premi`ere contribution visant `a apprendre les param`etres d’´edition dans le cadre de
la distance de Selkow [Sel77], qui est une des deux distances d’´edition standard sur
les arbres. Nous montrerons en Section 3.4 l’int´erˆet de notre approche `a travers deux
exp´erimentations : la premi`ere sur des donn´ees artificielles pour comparer les approches jointe et conditionnelle et ensuite sur une tˆache de reconnaissance de formes pour mon-trer l’apport de l’apprentissage d’une telle similarit´e dans un processus de reconnaissance
d’´ecriture manuscrite. Dans la Section3.5, nous pr´esenterons notre seconde contribution
sur les arbres, portant sur l’apprentissage des param`etres de la distance d’´edition d´efinie
selon la distance de Zhang & Shasha [ZS89]. La diff´erence avec la distance pr´ec´edente
vient, comme nous le verrons, du type des op´erations d’´edition autoris´ees. Enfin nous
pr´esenterons, en Section3.6une plateforme d’exp´erimentation, baptis´ee SEDiL, qui est
propos´ee en libre acc`es `a la communaut´e en apprentissage.