• Aucun résultat trouvé

Sémantique d'Informations Sur le Web basé Agents.

IV.4 Processus d’annotation sémantique

IV.4.2 Segmentation sémantique

La représentation classique d’un texte ne fournit aucune notion sur la sémantique des phrases, ni sur les thèmes, ni sur les mots qui la composent. La complexité se situe à différents niveaux et s’exprime par des concepts tels que la synonymie, la polysémie, d’ailleurs le fait d’isoler les mots d’une phrase n’est pas évident, sujet à plusieurs ambiguïtés.

La segmentation d’un texte en fragments thématiques est le processus de division du texte en portions sémantiquement différents, ces portions peuvent être des phrases, des paragraphes, et des fragments. Le problème n’est pas trivial, car dépendant de la langue et des marqueurs explicites qui délimitent ces unités recherchées.

La segmentation dans le cadre de notre approche consiste à repérer dans des le texte à annoter les limites des segments thématiques, dans la littérature, nous trouvons plusieurs approches qui accomplissent ce processus comme les méthodes basées similarités ou statistiques, les méthodes dites graphiques, des méthodes de chaînes lexicales et aussi des méthodes basée sur l’apprentissage. [Lab,2007]

____________________________________________________________________________ Chapitre IV : Un modèle de raisonnements pour un système

De recherche sémantique d’informations sur le Web basée agents

____________________________________________________________________________

93

Nous utiliserons dans le cadre de ce travail une nouvelle méthode basée sur le calcul de similarités entre les termes des paragraphes, cette méthode a fait l’objet d’une présentation à une conférence internationale ICMCS en 2012, [Nes 2012a]. Ce choix est inspiré essentiellement par l’efficacité de ces méthodes à détecter les frontières des fragments thématiques du texte. Aussi, l’idée de base qui guide notre démarche d’annotation sémantique est de créer pour chaque segment un graphe conceptuel qui exprime les connaissances d’annotation du segment, de ce fait la taille d’un bloc thématique ne nécessite pas l’usage de vecteurs de grades dimensions ce qui facilitent énormément les traitements.

L’hiérarchie WordNet est utilisée lors de cette phase pour calculer les similarités entre les termes repérés dans des phrases (paragraphes) adjacents pour ensuite évaluer leurs similarités sémantiques.

Durant la première étape d’extraction de termes, un paragraphe est représentée par l’ensemble des poids des termes qui le composent, c’est donc un vecteur définit par :

S :{Ph} Rp ; où {Ph}: l’ensemble de paragraphes.

S(Phi)=VPhi =(x1,x2,…,xp) , xi: poids du terme i.

L’idée, repose sur un calcul de similarité entre les vecteur Ph1, Ph2, et un vecteur Vsim. Les vecteurs poids Ph1 et Ph2 représentent respectivement les paragraphes Ph1 et Ph2. Le vecteur Vsim que l’on devra construire, repose sur la notion mathématique de somme de vecteurs, c'est-à-dire nous considérons Vsim comme la résultante de Ph1 et Ph2.

→ → →

Vsim=Ph1+Ph2 (IV.1)

Nous entendons ainsi exprimer l’éloignement ou le rapprochement des sens des deux paragraphes (unité de traitement sémantique), pour cela nous calculons les composantes du vecteur Vsim par la démarche suivante :

Les différents termes extraits des deux segments sont classés par une relation d’ordre.

Soit Ph1=(x1,x2,…,xi,…,xp) et Ph2=(y1,y2,…,yj,…yq). Les phrases sont représentées par les vecteurs poids des termes qui les composent.

Pour tout terme xi de la phrase Ph1, qui n’existe pas dans Ph2, on calcul sa similarité avec l’ensemble de termes compostant la phrase Ph2, ensuite on retiendra la similarité maximale que l’on multiplie par le poids du terme xi, le résultat est considéré être la composante « i » du vecteur Vsim.

Le processus est répété pour tous les termes xi de la phrase Ph1 ; ensuite le même procédé est appliques aux termes yj de la phrase Ph2.

Chapitre IV : Un modèle de raisonnements pour un système De recherche sémantique d’informations sur le Web basée agents

____________________________________________________________________________

94

Cette démarche avantage la segmentation en segments de tailles réduites, c'est-à-dire des segments aussi courts possibles pour simplifier la construction d’arbre syntaxique associés au segment défini comme il montré sur la Figure IV.3. Les similarités entre concepts sont calculées selon une mesure que nous avons développée et qui sera exposé par la suite [Nes 2013].

La formulation mathématique de calcul des composantes du vecteur « Vsim » est : Si xi #0 alors

Vsimi=Max(Sim(Txi ;Tyk) yk#0 ,k=1..q)*xi

Si xi =0 alors /* yi #0

Vsimi=Max(Sim(Tyi ;Txk) xk#0 ,k=1..p)*yi

L’algorithme de construction du vecteur Vsim que nous avons proposé [Nes 2012a] et [Nes2012b] est le suivant:

Debut

Etablir une relation d’ordre sur les termes xi et yj / i=1 ..p et j=1..q Pour i= 1 à P faire

Si xi #0 alors

Pour k=1 à q faire

Calculer (Sim(Txi ;Tyk)) Fin Vsim(i)=Max(Sim(Txi ;Tyk))*xi Sinon /*xi =0 et yi #0

Pour k=1 à P faire

Calculer (Sim(Tyi ;Txk)) Fin Vsim(i)=Min(Sim(Tyi ;Txk))*yi Fin

Fin Fin

Figure IV.3 : Délimitation de segments sémantiques

Plusieurs mesures de similarités entre vecteurs existent, dans le contexte de ce travail nous utilisons la mesure du cosinus qui est la mieux adaptée aux traitements documentaires. La

____________________________________________________________________________ Chapitre IV : Un modèle de raisonnements pour un système

De recherche sémantique d’informations sur le Web basée agents

____________________________________________________________________________

95

détection des frontières des segments thématiques se fera en calculant les cosinus des angles que forment les vecteurs X,Y associés aux phrases éventuellement aux segments Ph1 et Ph2 , et le vecteur Vsim construit comme indiqué ci-dessus.

Soit α l’angle que forment les vecteurs X et Vsim Soit β l’angle entre les vecteurs Y et Vsim.

En appliquant la formule du cosinus nous obtenons, Figure IV.4 Sim(X,Vsim)=Cos(α)= Vsim X Vsim X * . (IV.2) Sim(Y,Vsim)=Cos(β)= Vsim Y Vsim Y * . (IV.3)

Figure IV.4 : Les vecteurs X, Y et Vsim

La comparaison de ces mesures de similarité nous permettra de déduire le rapprochement ou l’éloignement des vecteurs X et Y par rapport à leur résultante Vsim.

•Cos(α) > Cos(β) : dans ce cas α < β, le vecteur X est plus proche du vecteur Vsim que le vecteur Y, la sémantique de la résultante est emportée par la sémantique du vecteur X. Dans ce cas nous avons une continuation de la sémantique de X à travers le vecteur Y, les paragraphes Ph1 et Ph2 seront fusionnées dans un seul segment sémantique [Nes 2012a] [Nes 2012b].

• Cos(α) <= Cos(β) : c'est-à-dire α>=β, le vecteur Y est plus proche du vecteur Vsim que le vecteur X, la sémantique de la résultante est plus proche de la phrase représentée par Y, dans ce cas nous avons un délimiteur de segment sémantique et nous devons donc séparer les vecteurs X et Y, parce que Y s’éloigne (sémantiquement) et suffisamment de X.

Une fois le texte analysé et les segments sémantiques délimités, l’étape suivante du processus consistera à construire pour chaque segment un arbre de décomposition syntaxique.

V

sim(x)

Y

X

β

α

V

sim(y)

Chapitre IV : Un modèle de raisonnements pour un système De recherche sémantique d’informations sur le Web basée agents

____________________________________________________________________________

96