Repr´ esentation Arborescente des Documents

Dans ce chapitre, nous nous intéressons aux documents médicaux semi-structurés. Nous définissons, ici, les données semi-structurées comme étant des données ne possédant pas un modèle relationnel strict comme les documents XML. En outre, nous restreignons notre travail aux documents ayant les propriétés suivantes :

1. un document est compos´e d’une ou plusieurs parties,

2. toutes les parties sont des données textuelles (les éléments non textuels seront simplement ignorés).

Par exemple, nous pouvons considérer les dossiers médicaux où chaque dossier patient est com-posé de plusieurs parties dont chacune est une observation médicale provenant d’un service spécifique comme, par exemple, une observation clinique ou une observation issue de la radio-logie. Avec de tels documents, le calcul de la similarité entre deux documents, pour une tâche

de catégorisation ou de classification, nécessite de gérer de manière convenable les différentes parties en fonction de la source. En effet, il peut être inapproprié de comparer, par exemple, une observation radiologique avec une observation psychologique.

Pour chaque partie d’un document, nous effectuons les pr´e-traitements suivants :

1. Nettoyage du document :Tous les éléments qui peuvent introduire du bruit sont éliminés. Ainsi, tous les nombres, aussi bien sous un format numérique que sous un for-mat littéral et les données non-textuelles sont retirés. Il est à noter que nous utilisons le terme “bruit” dans un sens général. En effet, les nombres et les symboles apportent une information sans quoi, il est peu probable qu’ils aient été introduits dans les documents. Cependant, le fait de ne pouvoir les traiter correctement peut introduire une information non pertinente voire même erronée. Cette information risquerait de noyer le sens général du document.

2. Segmentation du texte : La segmentation est utilisée pour découper le texte en unités de sens. La méthode la plus simple est de découper le texte en mots séparés par des ponctuations ou des espaces. Toutefois, avec une telle segmentation, nous pouvons détériorer ou même complètement perdre le sens correct d’un groupe de mots, sens in-duit par la présence des mots du groupe. Ceci est particulièrement vrai dans le domaine biomédical où les mots sont souvent combinés entre eux pour former des expressions avec des sens nouveaux. Pour gérer ce problème, une méthode consiste à segmenter le texte en unités lexicales (éléments lexicaux). Une unité lexicale peut être un unique mot ou un groupe de mots. Contrairement aux mots, les unités lexicales sont difficiles à identifier. En effet, des connaissances a priori sur le domaine sont nécessaires pour le découpage. Il s’agit pour cette tâche d’avoir un lexique (lexicon) propre au domaine. En utilisant le lexique, une fa¸con na¨ıve de segmenter le texte consiste à utiliser un algorithme simple de correspondance entre les mots du texte et le lexique, en favorisant en premier lieu les groupes contenant le plus de mot. L’algorithme 4.3.1 illustre le découpage na¨ıf. Néan-moins, cette méthode ne tient pas compte de la catégorie morpho-syntaxique des mots. Ainsi, il peut regrouper des mots n’appartenant pas à la même catégorie grammaticale. Certaines unités lexicales peuvent ainsi être incohérentes et mener à une perte d’infor-mation. Il est donc préférable d’utiliser un étiqueteur morpho-syntaxique et d’utiliser un algorithme de correspondance prenant en compte la catégorie grammaticale des mots. Pour cela, nous avons utilisé le logicieldTagger[DBL06] fourni avec le lexique UMLS (le SPECIALIST lexicon). Ce logiciel est capable d’étiqueter et découper le texte en unités lexicales.

3. Élimination des mots vides :A partir de l’ensemble des unités lexicales, nous éli-minons les unités lexicales qui ne sont composées que de mots vides. Nous rappelons que par mots vides, nous désignons les mots qui n’apportent aucune information comme les

Algorithme 4.3.1 Algorithme de Segmentation Na¨ıf

1: Pour un document d, découper den mots séparés par des ponctuations ou des espaces

2: G← le premier mot de d

3: i←1

4: tant quetous les mots dedn’ont pas été traités faire

5: i←i+ 1

6: wi ←le i`eme mot ded

7: NormaliserG∪wi selon le lexique pour une recherche

8: siG∪wi appartient au lexiquealors 9: ajouterwi `a la fin deG

10: sinon

11: ajouterG `a la liste des unit´es lexicales ded

12: G←wi

13: fin si 14: fin tant que

15: siGn’est pas videalors

16: ajouter G`a la liste des unit´es lexicales de d

17: fin si

d´eterminants et les verbes auxiliaires. Pour reconnaˆıtre, ces mots, nous utilisons une liste de mots vides disponibles sur internet².

4. Normalisation des mots : Les mots peuvent apparaˆıtre sous différentes formes fléchies fournissant, ainsi, des informations grammaticales. Ces informations induisent un espace à grande dimension dans lequel le processus d’apprentissage est rendu complexe. Pour réduire le nombre de dimension, chaque unité lexicale est normalisée, à savoir que les mots composant l’unité lexicale sont réduits à leur racine. Certains mots peuvent avoir différentes racines, par exemple la normalisation du mot “montre” donne les racines “montre” (en tant que nom) et “montrer”. Par conséquent, chaque unité lexicale sera associée à un ensemble de formes normalisées. Dans l’UMLS, leSPECIALIST lexiconest fourni avec le programme javaLexical Variant Generation (lvg)qui peut être utilisé pour normaliser les groupes de mots. La normalisation est faite en 6 étapes illustrées par la figure 4.1.

5. L’annotation sémantique :L’information morphologique n’est pas suffisante pour calculer efficacement la similarité entre deux mots. En effet, il est généralement préférable de comparer la signification des mots plutôt que de comparer les mots proprement dits. Pour cela, nous devons déterminer le sens de chaque unité lexicale normalisée. Dans le Metathesaurus de l’UMLS, les mots sont définis avec leurs concepts en sachant qu’un 2Des liste de mots vides pour diverses langues sont disponible sur internet à l’adresse : http ://snow-ball.tartarus.org

Fig. 4.1 – Le processus de normalisation d’une unit´e lexicale.

mot peut avoir un ou plusieurs concepts. Un concept peut être per¸cu comme une classe de mots regroupant les termes ayant un sens approximativement commun. De plus, les concepts sont reliés entre eux par diverses relations sémantiques. L’une des relations usuellement utilisée est la relation “est-un” qui décrit une relation “père-fils” d’abstraction et de spécificité entre deux concepts. Ainsi, les concepts et leurs relations peuvent être utilisés pour calculer une valeur de similarité sémantique. Dans ce but, un ensemble de concepts sera associé à chaque unité lexicale normalisée. L’algorithme d’annotation sémantique, que nous avons développé, est décrit par l’algorithme 4.3.2.

Finalement, après ces étapes de pré-traitement, chaque document peut être représenté sous une forme arborescente comme illustrée par la figure 4.2.

Algorithme 4.3.2 Algorithme d’annotation s´emantique

1: pour tout documentdetpartie p∈d.parts

etunit´e lexicalelu∈p.LU faire

2: pour tout groupe de mots normalis´esns∈lu.N S faire

3: ns.concepts← trouver les concepts dens `a partir du fichier MRXNS de l’UMLS

4: sins.conceptsest vide alors

5: ns.concepts← trouver les concepts dens `a partir du fichier MRXNW de l’UMLS

6: fin si

7: fin pour

8: si∀ns∈lu.N S, ns.concepts est vide

etns est groupe de mots constitu´e de plusieurs mots alors 9: retirerludep.LU

10: p.LU ←p.LU∪ {découperluen mots unitaires séparés par des caractères blancs}

11: fin si

12: lu.N S =∅ ⇒ retirerludep.LU

13: p.LU =∅ ⇒retirerp de d.parts

14: d.parts=∅ ⇒ retirerd

15: fin pour

Dans le document Apprentissage à base de Noyaux Sémantiques pour le Traitement de Données Textuelles (Page 109-113)