Le Noyau S´ emantique - Apprentissage à base de Noyaux Sémantiques pour le Traitement de Donnée

4.4.1 Le cadre g´en´eral

Nous avons vu dans la section 2.3.6 que les noyaux nous permettent de définir des produits scalaires dans un espace de Hilbert sans avoir à définir explicitement la fonction de transfor-mation de l’espace d’entrée vers l’espace d’attributs. En outre, aucune contrainte n’est imposée sur le type des données d’entrée. On peut ainsi définir une fonction de similarité pour des docu-ments semi-structurés. Il suffira de montrer que cette fonction définit un produit scalaire dans l’espace de Hilbert en montrant qu’elle est semi-définie positive. Pour cela, le théorème 2.3.14 se révèle être un outil puissant.

Lorsque les données d’entrée ne sont pas des vecteurs mais des données complexes telles que des documents semi-structurés, définir un noyau peut s’avérer être une tâche difficile. Pour faire face à ce problème, un noyau général a été proposé dans [Hau99]. Ce noyau appelé noyau de convolution a été étudié au chapitre précédent, à la section 3.3.1. L’idée est de décomposer la structure d’entrée en primitives et d’utiliser des noyaux différents sur ces primitives selon le type de donnée. Plus formellement, nous rappelons qu’étant donné X1, . . . ,Xn, n espaces différents tels que ∀x ∈ X l’espace d’entrée, x peut être décomposé en x = x₁, . . . , xn avec xi ∈ Xi. SoitR une relation telle queR(x, x) est vrai si et seulement six sont des composants de x, nous pouvons définir une relation inverse R⁻¹(x) = {x : R(x, x)}. Étant donné x et y∈ X, le noyau convolution est :

k(x, y) = ^X x∈R−1(x)

y∈R−1(y)

kcomposite(x,y) (4.1)

Bien que le noyau composite soit d´efini dans [Hau99] comme ´etant :

k_composite(x,y) =

i=1

k_i(x_i, y_i) (4.2)

avec ki le noyau d´efini pour le type de donn´eei sur X2

i , nous préférons donner une définition plus générale :

kcomposite(x,y) =F(K1(x1, y1), . . . , kn(xn, yn)) (4.3) avec F une fonction de m´elange.

Il est ais´e de montrer que le noyau de convolution est un noyau valide si le noyau composite est un noyau valide. En effet, la somme de noyaux valides est un noyau valide [STC04].

4.4.2 Le noyau bas´e sur l’UMLS

Etant donné la structure arborescente présentée dans la figure 4.2, nous définissonsDcomme étant l’espace des arbres ayant le noeud doc comme racine et P1, . . . ,Pn comme étant les sous-espaces de D où Pi est l’espace des arbres ayant pour racine le noeud parti. Le noyau basé sur l’UMLS est alors défini par la formule 4.1 où X = D et Xi = Pi. L’expression du noyau composite (formule 4.3) reste valide. Toutefois, nous traitons les différentes parties d’un document d’une manière identique. Nous pouvons, ainsi, simplifier l’équation 4.3 en fixant ki(xi, yi) =kp(xi, yi). En outre, nous définissons une fonction de mélange polynomial pondérée :

F(a₁, . . . , an) = ( Pn i=1wiai Pn i=1wi )^l (4.4)

avec ai, wi∈R⁺ etl∈N. La fonction composite est alors :

kcomposite(x,y) = (Pn¹ i=1wi n X i=1 wi.kp(xi, yi))^l (4.5)

En fixantl= 1 et en ayant un poids uniforme,kcompositedevient l’espérance de la similarité entre les parties du même espace et pour l > 1, k_composite utilise un espace d’attributs plus riche, c’est à dire un espace d’attributs de dimension supérieur. Nous pouvons montrer que si kpest un noyau valide alorskcomposite est aussi un noyau valide pourl∈Netwi∈R⁺[STC04]. En utilisant le cadre général du noyau de convolution, nous définissons les noyaux suivants :

k_p(x_i, y_i) = ^X u1∈Γ(xi) X u2∈Γ(yi) σ(u₁)σ(u₂)k_l(u₁, u₂) kl(u₁, u₂) = ^X n₁∈Γ(u₁) X n₂∈Γ(u₂) kn(n₁, n₂) k_n(n₁, n₂) =          δn₁,n₂ si Γ(ni) =∅ou|Γ(ni)|> τ,i= 1,2 P c₁∈Γ(n₁) P c₂∈Γ(n₂)kc(c1, c2) sinon (4.6)

oùσ(u) est la fréquence de l’unité lexicale u dans le document, δ_n₁_,n₂ est la fonction delta de Kronecker, Γ(t) est l’ensemble des enfants du noeudt,τ est un entier naturel définissant un seuil etkc est un noyau, défini à la section 4.4.3, calculant la similarité entre deux concepts. kp calcule la similarité entre deux parties de documents en comparant chaque paire d’unités lexicales. De la même manière, kl compare chaque paire de groupes de mots normalisés et kn

compare chaque paire de concepts. Cependant, pourkn, si un groupe de mots normalisés d’une unité lexicale contient beaucoup de concepts (au delà d’un seuilτ fixé) alors le groupe de mots est considéré trop ambigu et utiliser la similarité entre concepts ne fera qu’ajouter du bruit. En outre, la similarité entre concepts ne peut être calculée si un groupe de mots ne possède pas de concepts. Dans ces deux cas, k_n utilisera une fonction d’identité pour comparer deux groupes de mots.

Il est ais´e de montrer que si kn est un noyau valide alors k_l etkp sont des noyaux valides.

Proposition 4.4.1. Soit kc un noyau valide, kn est, alors, un noyau valide. Démonstration. k_n peut être réécrit sous la forme suivante :

k_n(n₁, n₂) = k_nc(n₁, n₂) +k_nid(n₁, n₂) knc(n1, n2) = ^X c₁∈Γ(n₁) X c₂∈Γ(n₂) kc(c1, c2) k_nid(n₁, n₂) = (1−g(n₁)g(n₂))k_id(n₁, n₂) k_id(n₁, n₂) = 1 sin₁=n₂ sinon 0 g(n) = 1 si 0<|Γ(n)| ≤τ sinon 0

knc est un noyau de convolution, par conséquent, si kc est un noyau valide, alors knc est aussi un noyau valide. Pourk_nid, la matrice de Gram associé, ¯K_nid, est, pour tout sous-ensemble fini, une matrice diagonale où chaque cellule de la diagonale est égal à 0 ou 1. Les valeurs propres de ¯Knid étant positives, la matrice est semi-définie positive. Et, selon le théorème 2.3.14, knid

est un noyau valide.

De plus, tous les noyauxkp,kletkn sont normalisés pour accorder le même poids à chaque noeud. Ainsi, les noeuds de tailles différentes (en terme de nombre d’enfants) peuvent être

comparés sur une même échelle. La normalisation est effectuée selon la formule suivante : ˆ k(x, y) = _p ^k⁽^{x, y}⁾ k(x, x)p k(y, y) ^(4.7) 4.4.3 Le noyau de concepts

Le noyau de concepts,kcest utilisé pour calculer la similarité entre deux concepts. Il utilise, pour cela, une taxonomie de relations “est-un” (relation père -fils) entre les concepts. Une taxonomie peut être représentée par un graphe orienté acyclique dans lequel chaque fils peut avoir un ou plusieurs parents. A partir duMetathesaurusde l’UMLS, nous pouvons construire une telle taxonomie :

1. en fusionnant toutes les ontologies install´ees sans tenir compte du champs “source” de ces derni`eres,

2. en ´eliminant de l’ontologie “unifi´ee” toutes les relations qui ne sont pas des relations “est-un”,

3. en éliminant les relations résiduelles qui introduisent des cycles. Il est à noter que ces relations proviennent essentiellement de la fusion na¨ıve des ontologies.

Etant donné une taxonomie de concepts, le noyau kc se repose sur deux mesures de similarité sémantique entre les concepts. Ces mesures de similarité sont :

– La similarité conceptuelle : Cette similarité est basée sur la distance conceptuelle. L’idée est que plus deux concepts sont similaires et plus ils seront proches dans la taxo-nomie. La distance métrique entre deux concepts c₁ et c₂ peut être exprimée comme étant le nombre minimum de concepts (p) séparant c₁ de c₂. Autrement dit, cette dis-tance est donnée par le nombre de concepts contenus dans le plus court chemin séparant c₁ de c₂ dans la taxonomie. La similarité est, alors, donnée par l’inverse de la distance. Leacock et Chodorow [LC98, PPPC06] ont proposé de normaliser cette similarité par la longueur maximum d’un chemin dans la taxonomie. Cette longueur est égale à deux fois la profondeur de la taxonomie. Un logarithme est ensuite utilisé sur le résultat. Nous avons utilisé la mesure de Leacock et Chodorow, après normalisation, comme une distance conceptuelle :

sim_lch(c₁, c₂) =− ^{log (}

2.depth)

log (2.depth) ^(4.8) Cette mesure de similarité est insuffisante pour exprimer correctement le lien entre deux concepts. Premièrement, elle donne un poids égal à chaque concept de la taxonomie alors que les concepts spécifiques fournissent bien plus d’information que les concepts géné-raux. Deuxièmement, elle ne prend pas en compte le degré d’importance d’un lien entre un concept père et un concept fils. En effet, un concept père, qui est au passage un concept général, peut avoir plusieurs concepts fils spécialisés. Toutefois, le père peut être

plus associé à certains fils qu’à d’autres.

– La similarité entropique : Nous utilisons la mesure de Lin [Lin98], qui, étant donné deux concepts c₁ et c₂, donne une valeur de similarité plus élevée lorsque d’une part, l’ancêtre commun le plus proche (le moins général) de c1 et c2 (nca(c1, c2)) est le plus spécifique, à savoir situé le plus bas possible dans la taxonomie et d’autre part, c₁ etc₂ à proximité de l’ancêtre nca(c₁, c₂). La mesure de Lin utilise la quantité d’information contenue (Information Content, IC) [Res95] comme une mesure de spécificité. En effet, les concepts spécifiques ont une quantité d’information (IC) plus importantes que les concepts généraux.

simlin = ²^.IC⁽^nca⁽^c¹^{, c}²⁾⁾

IC(c₁) +IC(c₂) ^(4.9) IC(c) = −log( ^{f req}⁽^c⁾ f req(root)⁾ ^(4.10) f req(c) = f req(c,C) + ^X s∈G(c) f req(s)

où G(c) est l’ensemble des concepts qui ont c pour parent et f req(c,C) est le nombre d’unités lexicales, dans un corpus de référence C, pouvant être associées au concept c. Dans le cadre de nos travaux, nous utilisons le corpus d’apprentissage avec le corpus de test comme corpus de référence. Cette utilisation rend notre méthode d’apprentissage, semi-supervisée. En effet, dans le cas de l’apprentissage semi-supervisée, les documents non étiquetés, ici les documents de test, sont utilisés d’une fa¸con ou d’une autre pour influencer l’apprentissage supervisé.

Etant donné les mesures de similarité définies ci-dessus, le noyau de concept peut être défini ainsi :

kc(c₁, c₂) =simlch(c₁, c₂)×simlin(c₁, c₂) (4.11)

Theor`eme 4.4.2. k_c est un noyau valide.

D´emonstration. Pour tout sous-ensemble fini de l’espace des concepts, la matrice de Gram ¯

Kc associée à kc est une matrice symétrique avec des valeurs positives puisque les mesures de similarité sont des fonctions symétriques positives. ¯Kc peut être diagonalisée et toutes ses valeurs propres sont positives. Par conséquent, ¯k_c est semi-definie positive. Nous pouvons en conclure que d’après le théorème 2.3.14,kc est un noyau valide.

Dans le document Apprentissage à base de Noyaux Sémantiques pour le Traitement de Données Textuelles (Page 113-117)