• Aucun résultat trouvé

Processus simultané de maintenance de RTO et d’indexation

4.1 Définition d’un cycle de maintenance supervisée de RTO

4.1.2 Maintenance de RTO par indexation sémantique

4.1.2.2 Processus simultané de maintenance de RTO et d’indexation

Après avoir mis en place un ensemble de critères potentiels évaluant la qualité de la RTO en fonction des résultats d’indexation sémantique sur chaque document, voyons maintenant comment utiliser ces critères en interaction avec l’utilisateur pour maintenir la RTO. Plaçons nous dans une situation qui mène potentiellement à une révision de la ressource, à savoir l’ajout de plusieurs nouveaux documents à la base de recherche. Le système possède donc comme entrées (boîtes colorées sur la figure 4.3) la RTO dans son état courant et la base de recherche, composée de documents indexés et de documents non indexés.

Figure 4.3 —Méthode de maintenance de RTO en RI sémantique

Projection de la RTO sur la base de recherche La première étape consiste à procéder à

l’indexation sémantique des documents rajoutés. Pour cela, nous nous fondons à la fois sur la structure du méta-modèle en OWL-DL proposé au chapitre 3 et sur des mécanismes de RI classique. En effet, pour tester progressivement l’utilité de notre méta-modèle, nous avons préféré dans un premier temps limiter son emploi à un processus d’indexation sémantique simple, i.e. destiné uniquement à repérer des manifestations linguistiques de concepts (et non de relations sémantiques ou d’entités nommées). Dans ce cadre, l’indexation séman- tique peut facilement se ramener à des techniques de RI classique : pour connaître l’en- semble des concepts mis à contribution dans un document, il suffit (au sens logique) d’y rechercher tout terme dénotant un concept de la RTO. Cette tâche revient alors à indexer

de façon classique les documents de la base de recherche (voir en 2.1.3) puis à rechercher systématiquement dans tous ces textes le label de chaque terme de la RTO.

De façon plus détaillée pour le processus d’indexation classique, nous avons fait le choix de ne pas conduire d’analyse syntaxique de façon à limiter les étapes dépendant de la langue utilisée dans le corpus8. Les seules tâches dépendantes de la langue dans notre méthode correspondent à l’emploi d’un anti-dictionnaire qui supprime les mots vides de l’index ainsi que d’un algorithme de radicalisation adapté pour le français de celui pro- posé par [Porter, 1980]. L’étape suivante consiste à rechercher les occurrences de termes de la RTO dans l’index. Pour cela, nous nous sommes fondé sur un modèle de recherche booléen [van Rijsbergen, 1979]. En effet, nous cherchions à favoriser une bonne précision et qu’un bon rappel est garanti par le protocole même (tous les termes de la RTO sont testés sur chaque document de la base de recherche). Nous avons adapté le modèle booléen simple en rajoutant la contrainte selon laquelle une occurrence de terme n’est considérée comme pré- sente dans un document que si les mots pleins la composant sont tous repérés dans une fenêtre d’un certain nombre de mots (dépendant de la longueur moyenne des textes de la base de recherche). En outre, si deux termes différents T1 et T2 possèdent des occurrences "en conflit" (i.e. une occurrence de T1 correspond à une zone du document incluse dans une zone plus large détectée comme une occurrence de T2), nous choisissons, à la manière de [Baziz, 2005], de ne garder que l’occurrence de terme qui est la plus longue.

A l’issue de cette phase de projection de la terminologie sur les documents, nous devons alors déterminer quels concepts sont mis en jeu dans chaque document en fonction des termes qui l’indexent. Comme un terme peut potentiellement désigner plusieurs concepts (phénomène de polysémie), il est a priori nécessaire d’envisager une phase de désambiguï- sation. Concrètement, ce phénomène est relativement rare dans un domaine spécifique, ce qui nous a amené à diriger nos efforts sur d’autres questions plus problématiques. Pour plus de précisions quant à cette phase, nous conseillons au lecteur de se référer à [Baziz, 2005], qui développe une méthode permettant de désambiguïser le sens d’un terme en fonction des autres termes retrouvés dans le même document. Une fois levée toute ambiguïté, nous de- vons, en accord avec notre méta-modèle de RTO (cf fig. 3.5), déterminer l’instance à laquelle rattacher chaque occurrence de terme. En effet, une occurrence de terme peut éventuelle- ment dénoter une instance de concept déjà citée auparavant dans le document9(phénomène d’anaphore), tout comme elle peut faire référence à une instance de concept n’existant pas encore dans la base de faits (auquel cas, il convient de la créer). Pour plus de simplicité et comme les textes de notre corpus d’application s’avéraient très concis, nous avons fait l’hy- pothèse que, pour chaque document, il n’existe au plus qu’une seule instance d’un concept donné. Nous avons donc choisi de créer une nouvelle instance d’un concept uniquement si aucune autre instance de ce même concept n’avait déjà été associée à ce document ; dans le cas contraire, nous associons l’occurrence de terme trouvée à l’instance existante du concept adéquat.

Au niveau de la base d’instances, nous obtenons donc un ensemble d’instances de termes 8De cette façon, l’adaptation de notre méthode globale à une autre langue devrait en théorie s’avérer plus

simple.

9Comme nous n’abordons pas l’indexation sémantique dans son aspect "reconnaissance d’entités nommées",

(i.e. leurs occurrences) ainsi que les instances de concepts qui leur correspondent. A la fin de cette étape, les instances de concepts ne sont pas encore mises en relation (e.g. deux instances reliées par une relation sémantique). Cette tâche s’apparente plus à la vérification de contraintes de nature ontologique et sera donc menée pendant la phase suivante.

Application des critères d’adéquation entre RTO et documents La seconde étape du pro-

cessus simultané de maintenance de RTO et d’indexation sémantique consiste à vérifier au- tomatiquement que les résultats d’indexation respectent, pour chaque document, les cri- tères choisis au préalable par l’ontographe (parmi un nombre minimal d’annotations, une couverture minimale du texte et un ensemble de concepts à retrouver dans chaque docu- ment). Lorsqu’aucun critère n’est violé pour un texte, celui-ci est automatiquement consi- déré comme indexé, tandis que l’algorithme passe à la vérification des critères pour le do- cument suivant.

Lorsqu’un ou plusieurs critères ne sont pas satisfaits, le système peut réagir de deux manières :

– soit il dispose d’assez d’informations pour modifier automatiquement les annotations sémantiques. Par exemple, il se peut qu’une contrainte spécifie que toute instance d’un concept donné doit être associée à une instance d’un second concept via une rela- tion sémantique spécifique. Si deux instances adéquates existent, alors le système peut spontanément créer le lien entre celles-ci. Une autre illustration consiste en la spéciali- sation du type d’une instance : plaçons nous dans la situation où la phase d’indexation a repéré une instance de concept appartenant au domaine de définition d’une relation

relsim à cardinalité minimale non nulle ; si une instance de concept est retrouvée dans son voisinage, et que le concept mis en jeu est un hypéronyme du codomaine de dé- finition de relsim, le système peut de lui-même spécialiser le type de l’instance vers le codomaine de la relation, ce qui permet par la suite la création automatique du lien entre les deux instances.

– soit le système ne peut arriver seul à corriger les annotations, auquel cas il doit faire appel à l’ontographe durant une phase de dialogue. Le système lui fournit le texte in- dexé ainsi que les critères qu’il n’a pu satisfaire. L’ontographe choisit alors d’enrichir ou de modifier la RTO afin que le document puisse être indexé de façon plus satis- faisante au cours du cycle d’indexation suivant. Eventuellement, comme le seuil de certains critères est évalué empiriquement, l’ontographe peut décider de considérer comme correctement indexé un document violant certaines contraintes.

Suite aux modifications apportées à la RTO par le système ou l’ontographe, les documents à l’origine de cette évolution doivent être réindexés et les valeurs de critères associées ré- évaluées. Toutefois, comme nous l’avons déjà mentionné en 2.2.3, certains documents au- paravant considérés comme indexés peuvent aussi, selon les annotations qu’ils contiennent, nécessiter de subir le même traitement. Nous décrivons plus en détail en 4.1.2.3 l’algorithme heuristique que nous avons élaboré pour déterminer quels documents doivent être réintro- duits dans le cycle de maintenance en fonction des évolutions de la RTO.

Une fois obtenue la liste de documents potentiellement affectés par la modification de la RTO, le processus consiste à les soumettre à une nouvelle itération du cycle simultané de maintenance de RTO et d’indexation des documents, ceci jusqu’à ce que tous les documents

soient considérés comme correctement indexés par la ressource, qui aura alors atteint un état stable. D’un point de vue théorique, il paraît clair qu’il est impossible de prouver la convergence vers cet état au bout d’un nombre (fini ou pas) d’itérations du cycle. En effet, ce phénomène n’est garanti concrètement que par une homogénéité suffisante des notions abordées dans l’ensemble des documents à indexer. Comme nous l’avons déjà signalé aupa- ravant, nous avons fondé notre démarche sur l’hypothèse préalable que les documents de la base de recherche traitent de problématiques appartenant au même domaine10et ont un contenu très stable. Nous considérons de ce fait que la convergence théorique de l’état de la base d’annotations et de celui de la RTO sont assurés. Nous pourrons en voir une illustration pratique ultérieurement.

Bilan de l’approche Pour conclure sur la méthode que nous proposons, nous en donnons

son principal avantage pour une application de type recherche sémantique dans une base documentaire : ce processus cyclique permet de faire interagir deux phases jusqu’alors dis- tinctes dans la littérature, à savoir l’indexation sémantique des documents et la maintenance de la RTO. Les deux tâches peuvent alors s’échanger des informations utiles et s’entraider pour la réalisation de leurs objectifs respectifs. De plus, en permettant aux tâches de se re- couvrir, le processus global constitue théoriquement un gain de temps pour l’ontographe qui n’intervient que pour une part modérée dans le cycle. Du point de vue des perspectives, en nous inspirant de l’approche décrite dans [Stojanovic et al., 2002], nous pensons ajouter une fonctionnalité supplémentaire au processus, à savoir la possibilité pour l’ontographe de voir les conséquences sur les annotations existantes des modifications qu’il s’apprête à faire sur la RTO de telle sorte qu’il puisse plus facilement contrôler le bénéfice (ou l’effet négatif) de ses actions. De même, la méthode que nous suivons pour déterminer les documents à ré- indexer suite à une modification de RTO est fondée sur un ensemble d’heuristiques et reste largement perfectible. Nous avons l’intention de nous atteler à cette problématique dans la suite de nos travaux.