• Aucun résultat trouvé

4.4.1 Le cadre g´en´eral

Nous avons vu dans la section 2.3.6 que les noyaux nous permettent de d´efinir des produits scalaires dans un espace de Hilbert sans avoir `a d´efinir explicitement la fonction de transfor-mation de l’espace d’entr´ee vers l’espace d’attributs. En outre, aucune contrainte n’est impos´ee sur le type des donn´ees d’entr´ee. On peut ainsi d´efinir une fonction de similarit´e pour des docu-ments semi-structur´es. Il suffira de montrer que cette fonction d´efinit un produit scalaire dans l’espace de Hilbert en montrant qu’elle est semi-d´efinie positive. Pour cela, le th´eor`eme 2.3.14 se r´ev`ele ˆetre un outil puissant.

Lorsque les donn´ees d’entr´ee ne sont pas des vecteurs mais des donn´ees complexes telles que des documents semi-structur´es, d´efinir un noyau peut s’av´erer ˆetre une tˆache difficile. Pour faire face `a ce probl`eme, un noyau g´en´eral a ´et´e propos´e dans [Hau99]. Ce noyau appel´e noyau de convolution a ´et´e ´etudi´e au chapitre pr´ec´edent, `a la section 3.3.1. L’id´ee est de d´ecomposer la structure d’entr´ee en primitives et d’utiliser des noyaux diff´erents sur ces primitives selon le type de donn´ee. Plus formellement, nous rappelons qu’´etant donn´e X1, . . . ,Xn, n espaces diff´erents tels que ∀x ∈ X l’espace d’entr´ee, x peut ˆetre d´ecompos´e en x = x1, . . . , xn avec xi ∈ Xi. SoitR une relation telle queR(x, x) est vrai si et seulement six sont des composants de x, nous pouvons d´efinir une relation inverse R1(x) = {x : R(x, x)}. ´Etant donn´e x et y∈ X, le noyau convolution est :

k(x, y) = X x∈R−1(x)

X

y∈R−1(y)

kcomposite(x,y) (4.1)

Bien que le noyau composite soit d´efini dans [Hau99] comme ´etant :

kcomposite(x,y) =

n

Y

i=1

ki(xi, yi) (4.2)

avec ki le noyau d´efini pour le type de donn´eei sur X2

i , nous pr´ef´erons donner une d´efinition plus g´en´erale :

kcomposite(x,y) =F(K1(x1, y1), . . . , kn(xn, yn)) (4.3) avec F une fonction de m´elange.

Il est ais´e de montrer que le noyau de convolution est un noyau valide si le noyau composite est un noyau valide. En effet, la somme de noyaux valides est un noyau valide [STC04].

4.4.2 Le noyau bas´e sur l’UMLS

´

Etant donn´e la structure arborescente pr´esent´ee dans la figure 4.2, nous d´efinissonsDcomme ´etant l’espace des arbres ayant le noeud doc comme racine et P1, . . . ,Pn comme ´etant les sous-espaces de D o`u Pi est l’espace des arbres ayant pour racine le noeud parti. Le noyau bas´e sur l’UMLS est alors d´efini par la formule 4.1 o`u X = D et Xi = Pi. L’expression du noyau composite (formule 4.3) reste valide. Toutefois, nous traitons les diff´erentes parties d’un document d’une mani`ere identique. Nous pouvons, ainsi, simplifier l’´equation 4.3 en fixant ki(xi, yi) =kp(xi, yi). En outre, nous d´efinissons une fonction de m´elange polynomial pond´er´ee :

F(a1, . . . , an) = ( Pn i=1wiai Pn i=1wi )l (4.4)

avec ai, wi∈R+ etl∈N. La fonction composite est alors :

kcomposite(x,y) = (Pn1 i=1wi n X i=1 wi.kp(xi, yi))l (4.5)

En fixantl= 1 et en ayant un poids uniforme,kcompositedevient l’esp´erance de la similarit´e entre les parties du mˆeme espace et pour l > 1, kcomposite utilise un espace d’attributs plus riche, c’est `a dire un espace d’attributs de dimension sup´erieur. Nous pouvons montrer que si kpest un noyau valide alorskcomposite est aussi un noyau valide pourl∈Netwi∈R+[STC04]. En utilisant le cadre g´en´eral du noyau de convolution, nous d´efinissons les noyaux suivants :

kp(xi, yi) = X u1∈Γ(xi) X u2∈Γ(yi) σ(u1)σ(u2)kl(u1, u2) kl(u1, u2) = X n1∈Γ(u1) X n2∈Γ(u2) kn(n1, n2) kn(n1, n2) =          δn1,n2 si Γ(ni) =∅ou|Γ(ni)|> τ,i= 1,2 P c1∈Γ(n1) P c2∈Γ(n2)kc(c1, c2) sinon (4.6)

o`uσ(u) est la fr´equence de l’unit´e lexicale u dans le document, δn1,n2 est la fonction delta de Kronecker, Γ(t) est l’ensemble des enfants du noeudt,τ est un entier naturel d´efinissant un seuil etkc est un noyau, d´efini `a la section 4.4.3, calculant la similarit´e entre deux concepts. kp calcule la similarit´e entre deux parties de documents en comparant chaque paire d’unit´es lexicales. De la mˆeme mani`ere, kl compare chaque paire de groupes de mots normalis´es et kn

compare chaque paire de concepts. Cependant, pourkn, si un groupe de mots normalis´es d’une unit´e lexicale contient beaucoup de concepts (au del`a d’un seuilτ fix´e) alors le groupe de mots est consid´er´e trop ambigu et utiliser la similarit´e entre concepts ne fera qu’ajouter du bruit. En outre, la similarit´e entre concepts ne peut ˆetre calcul´ee si un groupe de mots ne poss`ede pas de concepts. Dans ces deux cas, kn utilisera une fonction d’identit´e pour comparer deux groupes de mots.

Il est ais´e de montrer que si kn est un noyau valide alors kl etkp sont des noyaux valides.

Proposition 4.4.1. Soit kc un noyau valide, kn est, alors, un noyau valide. D´emonstration. kn peut ˆetre r´e´ecrit sous la forme suivante :

kn(n1, n2) = knc(n1, n2) +knid(n1, n2) knc(n1, n2) = X c1∈Γ(n1) X c2∈Γ(n2) kc(c1, c2) knid(n1, n2) = (1−g(n1)g(n2))kid(n1, n2) kid(n1, n2) = 1 sin1=n2 sinon 0 g(n) = 1 si 0<|Γ(n)| ≤τ sinon 0

knc est un noyau de convolution, par cons´equent, si kc est un noyau valide, alors knc est aussi un noyau valide. Pourknid, la matrice de Gram associ´e, ¯Knid, est, pour tout sous-ensemble fini, une matrice diagonale o`u chaque cellule de la diagonale est ´egal `a 0 ou 1. Les valeurs propres de ¯Knid ´etant positives, la matrice est semi-d´efinie positive. Et, selon le th´eor`eme 2.3.14, knid

est un noyau valide.

De plus, tous les noyauxkp,kletkn sont normalis´es pour accorder le mˆeme poids `a chaque noeud. Ainsi, les noeuds de tailles diff´erentes (en terme de nombre d’enfants) peuvent ˆetre

compar´es sur une mˆeme ´echelle. La normalisation est effectu´ee selon la formule suivante : ˆ k(x, y) = p k(x, y) k(x, x)p k(y, y) (4.7) 4.4.3 Le noyau de concepts

Le noyau de concepts,kcest utilis´e pour calculer la similarit´e entre deux concepts. Il utilise, pour cela, une taxonomie de relations “est-un” (relation p`ere -fils) entre les concepts. Une taxonomie peut ˆetre repr´esent´ee par un graphe orient´e acyclique dans lequel chaque fils peut avoir un ou plusieurs parents. A partir duMetathesaurusde l’UMLS, nous pouvons construire une telle taxonomie :

1. en fusionnant toutes les ontologies install´ees sans tenir compte du champs “source” de ces derni`eres,

2. en ´eliminant de l’ontologie “unifi´ee” toutes les relations qui ne sont pas des relations “est-un”,

3. en ´eliminant les relations r´esiduelles qui introduisent des cycles. Il est `a noter que ces relations proviennent essentiellement de la fusion na¨ıve des ontologies.

´

Etant donn´e une taxonomie de concepts, le noyau kc se repose sur deux mesures de similarit´e s´emantique entre les concepts. Ces mesures de similarit´e sont :

– La similarit´e conceptuelle : Cette similarit´e est bas´ee sur la distance conceptuelle. L’id´ee est que plus deux concepts sont similaires et plus ils seront proches dans la taxo-nomie. La distance m´etrique entre deux concepts c1 et c2 peut ˆetre exprim´ee comme ´etant le nombre minimum de concepts (p) s´eparant c1 de c2. Autrement dit, cette dis-tance est donn´ee par le nombre de concepts contenus dans le plus court chemin s´eparant c1 de c2 dans la taxonomie. La similarit´e est, alors, donn´ee par l’inverse de la distance. Leacock et Chodorow [LC98, PPPC06] ont propos´e de normaliser cette similarit´e par la longueur maximum d’un chemin dans la taxonomie. Cette longueur est ´egale `a deux fois la profondeur de la taxonomie. Un logarithme est ensuite utilis´e sur le r´esultat. Nous avons utilis´e la mesure de Leacock et Chodorow, apr`es normalisation, comme une distance conceptuelle :

simlch(c1, c2) =− log (

p

2.depth)

log (2.depth) (4.8) Cette mesure de similarit´e est insuffisante pour exprimer correctement le lien entre deux concepts. Premi`erement, elle donne un poids ´egal `a chaque concept de la taxonomie alors que les concepts sp´ecifiques fournissent bien plus d’information que les concepts g´en´e-raux. Deuxi`emement, elle ne prend pas en compte le degr´e d’importance d’un lien entre un concept p`ere et un concept fils. En effet, un concept p`ere, qui est au passage un concept g´en´eral, peut avoir plusieurs concepts fils sp´ecialis´es. Toutefois, le p`ere peut ˆetre

plus associ´e `a certains fils qu’`a d’autres.

– La similarit´e entropique : Nous utilisons la mesure de Lin [Lin98], qui, ´etant donn´e deux concepts c1 et c2, donne une valeur de similarit´e plus ´elev´ee lorsque d’une part, l’ancˆetre commun le plus proche (le moins g´en´eral) de c1 et c2 (nca(c1, c2)) est le plus sp´ecifique, `a savoir situ´e le plus bas possible dans la taxonomie et d’autre part, c1 etc2 `a proximit´e de l’ancˆetre nca(c1, c2). La mesure de Lin utilise la quantit´e d’information contenue (Information Content, IC) [Res95] comme une mesure de sp´ecificit´e. En effet, les concepts sp´ecifiques ont une quantit´e d’information (IC) plus importantes que les concepts g´en´eraux.

simlin = 2.IC(nca(c1, c2))

IC(c1) +IC(c2) (4.9) IC(c) = −log( f req(c) f req(root)) (4.10) f req(c) = f req(c,C) + X s∈G(c) f req(s)

o`u G(c) est l’ensemble des concepts qui ont c pour parent et f req(c,C) est le nombre d’unit´es lexicales, dans un corpus de r´ef´erence C, pouvant ˆetre associ´ees au concept c. Dans le cadre de nos travaux, nous utilisons le corpus d’apprentissage avec le corpus de test comme corpus de r´ef´erence. Cette utilisation rend notre m´ethode d’apprentissage, semi-supervis´ee. En effet, dans le cas de l’apprentissage semi-supervis´ee, les documents non ´etiquet´es, ici les documents de test, sont utilis´es d’une fa¸con ou d’une autre pour influencer l’apprentissage supervis´e.

´

Etant donn´e les mesures de similarit´e d´efinies ci-dessus, le noyau de concept peut ˆetre d´efini ainsi :

kc(c1, c2) =simlch(c1, c2)×simlin(c1, c2) (4.11)

Theor`eme 4.4.2. kc est un noyau valide.

D´emonstration. Pour tout sous-ensemble fini de l’espace des concepts, la matrice de Gram ¯

Kc associ´ee `a kc est une matrice sym´etrique avec des valeurs positives puisque les mesures de similarit´e sont des fonctions sym´etriques positives. ¯Kc peut ˆetre diagonalis´ee et toutes ses valeurs propres sont positives. Par cons´equent, ¯kc est semi-definie positive. Nous pouvons en conclure que d’apr`es le th´eor`eme 2.3.14,kc est un noyau valide.