• Aucun résultat trouvé

Agrégation d‘individus : affectation des vues aux classes

Chapitre IV – Document multistructuré : de l’intégration à la restitution

II. Démarche d‘intégration de documents multistructurés

II.1. Dématérialisation des documents et instanciation du niveau spécifique du modèle132

II.2.4. Agrégation d‘individus : affectation des vues aux classes

L‘objectif de cette première étape est d‘agréger l‘individu intégré dans la classe la plus proche. La Figure IV.11 présente la démarche globale d‘agrégation d‘un individu. Afin de réduire le nombre de comparaisons, nous sélectionnons parmi l‘ensemble des vues génériques, un sous-ensemble de vues. Dans un second temps, nous effectuons des comparaisons entre le représentant générique de la vue spécifique et les vues génériques sélectionnées. A l‘issue de cette phase, nous retenons la vue générique la plus proche. Si son degré de similarité est supérieur à un seuil d‘agrégation , la vue spécifique sera rattachée à la vue générique sélectionnée.

Figure IV.11. Démarche d’agrégation d’un individu. VSi?= VGxy (sélectionnée)

Max Sim > SAgrég Max Sim < SAgrég

Base de Stockage VSi?

Filtrage

Gestion des synonymes Calcul de taux de correspondance entre nœuds

T={VG??} Choix du représentant Tq Non Fin {T’} Comparaison de vues VSi? T’={VG??} Max similarité

Insertion de VGi? et génération d’une SG?

VSi? ≈ VGxy (sélectionnée)

Rattachement de VSi? à VGxy Adaptation de VGxy

T={VG??} est l’ensemble des vues génériques existantes T’={VG??} est un sous-ensemble des vues génériques

sélectionné à partir de T VSi? est la vue spécifique du document Di

VGxyest la vue générique la plus proche de VSi? VGi?est la nouvelle vue générique qui représente VSi? SGy est une nouvelle structure générique

II.2.4.1. Filtrage

Le filtrage consiste à sélectionner l‘ensemble des vues génériques de la base auxquelles la vue spécifique du document à intégrer est susceptible d‘être rattachée. Cette sélection est basée sur le calcul du taux de correspondance entre la vue du document à intégrer et chacune des vues génériques de la base. Les vues génériques pour lesquelles le taux de correspondance est supérieur à un seuil (déterminé par expérimentation) sont sélectionnées pour les étapes suivantes de la classification.

Le calcul du taux de correspondance entre nœuds s‘appuie sur une fonction d‘alignement qui associe à chacun des nœuds d‘une vue un nœud d‘une seconde vue possédant la même étiquette ou une étiquette jugée « équivalente ». Nous proposons d‘unifier les étiquettes des nœuds via la gestion des synonymes.

A. Gestion des synonymes

Dans certains cas, des documents ont la même vue spécifique, mais la dénomination de certains nœuds diffère. Par exemple, nous avons deux transcriptions de deux documents audio qui admettent deux vues spécifiques quasiment identiques à un nœud près : dans la première nous trouvons un nœud « Thème » et dans la seconde un nœud « Sujet ». Ces deux nœuds admettent des noms d‘étiquettes dits synonymes. La gestion des synonymes permet de lever cette ambigüité et par conséquent d‘optimiser notre démarche de classification.

Ainsi, nous définissons la fonction qui recherche tous les synonymes possibles d‘un nœud, en utilisant soit des dictionnaires de synonymie (Miller 1995), soit des ontologies de domaines (Hernandez 2005).

Deux étiquettes de deux nœuds et sont considérées équivalentes s‘elles vérifient la contrainte suivante :

Dans le cas ou les deux étiquettes sont considérées comme synonymes, l‘étiquettes de la vue générique représentative du document à intégrer est remplacée par celle de la vue générique.

B. Calcul du taux de correspondances entre nœuds

Définition

Le calcul du taux de correspondance permet d‘évaluer le pourcentage de nœuds communs entre les deux vues comparées. Ainsi, il serait possible de déterminer l‘ensemble des vues génériques les plus approchantes de la vue spécifique du document.

Technique utilisée et formalisation

Pour réaliser cette étape, nous définissons une « fonction d‘alignement ». Cette fonction associe à chacun des nœuds d‘une vue un nœud d‘une seconde vue possédant la même étiquette lorsque ce nœud existe, ou le nœud vide dans le cas contraire.

Au sein d‘une vue, chaque nœud possède une étiquette unique et deux nœuds différents ne peuvent posséder la même étiquette. Cette unicité est garantie par l‘analyse lexicale de la phase d‘extraction. Cette contrainte implique qu‘un nœud d‘une vue ne peut être aligné qu‘à un seul nœud d‘une autre vue ou au nœud vide.

Soient,

un graphe ordonné, orienté et étiqueté, représentant une vue générique, avec : l‘ensemble des nœuds de et l‘ensemble des arcs de ,

et,

un graphe ordonné, orienté et étiqueté, représentant une vue générique, avec : l‘ensemble des nœuds de et l‘ensemble des arcs de .

Soit la fonction d‘alignement permettant d‘associer un nœud d‘une arborescence à un autre nœud d‘une deuxième arborescence ayant la même étiquette.

Soient l‘ensemble des nœuds de qui ont une image non nulle dans et l‘ensemble des nœuds de qui sont mis en relation avec le nœud vide

(selon le même principe, nous définissons et ).

; ;

Ces ensembles vérifient les égalités suivantes :

La sélection des vues génériques de la base, à comparer à la vue spécifique du document à intégré, est déterminée grâce à un taux de correspondance :

Ce taux évalue le pourcentage de nœuds communs entre les deux vues comparées. En effet, ce taux est composé de deux quotients : le premier quotient calcule le pourcentage de nœuds communs par rapport à la première vue générique (extraite de la vue spécifique du document) et le second détermine le pourcentage de nœuds communs par rapport à la deuxième vue générique (une des vues génériques stockées).

II.2.4.2. Choix du représentant

Définition

Cette étape consiste à reprendre les vues génériques sélectionnées dans l‘étape précédente afin d‘en choisir éventuellement une : la plus approchante de la vue extraite du document.

Principe

En se basant sur les degrés de similarité calculés (selon la méthode présentée dans la section II.2.2), le système retient la vue générique qui admet le degré de similarité le plus élevé, puis compare ce degré de similarité à un seuil d‘agrégation (fixé par expérimentations) en dessous duquel les vues seront jugées trop différentes. Selon cette comparaison, la décision d‘adapter une vue générique existante ou d‘intégrer la nouvelle vue générique (représentative de la vue spécifique du document) est prise. Si le degré de similarité est strictement inférieur à , la nouvelle vue générique sera intégrée dans la base. Dans le cas contraire et si inférieur à 1, la fusion des deux vues est exigée. Dans ce cas, la vue générique issue de la base doit être adaptée afin de pouvoir représenter la nouvelle vue spécifique (celle du nouveau document).

Exemple

La Figure IV.12 présente une illustration du choix d‘une vue générique. Après le calcul de distances entre chaque vue générique de la base et la vue spécifique du document à intégrer, le système élimine les vues génériques jugées trop différentes (cas de la vue générique « G »). Ensuite, il sélectionne la vue générique la plus représentative ; dans cet exemple, la vue générique « A » sera choisie.

Figure IV.12. Exemple de sélection d’une vue générique.