• Aucun résultat trouvé

Med-DRA

Afin d’appliquer la nouvelle similarité sémantiqueSimDAG, nous avons utilisé deux

ontolo-gies dont la structure est représentée sous forme de rDAG. La première ontologie est COSTART :

The Coding Symbols for a Thesaurus of Adverse Reaction Terms, qui est un vocabulaire faisant

partie du méta-thésaurus UMLS. Les termes d’annotation de l’ontologie COSTART ont été

pro-posés par l’hôpital du Massachusetts dans le but de la gestion des aliments et l’annotation de leurs

effets secondaires [Cam86, Hat79]. La deuxième ontologie est MedDRA : Medical Dictionary for

Drug Regulatory Activities, qui est une terminologie de pharmacovigilance pour coder les actions

et les effets secondaires des molécules de médicaments [Mer08]13. L’intérêt de telles ontologies

est dans leur application dans les processus de soin de patients en améliorant la disponibilité de

l’information médicale en termes d’accessibilité, de rapidité de la récupération, de lisibilité, et

d’organisation. Un extrait du graphe de l’ontologie MedDRA est donné dans la Figure 30. Il est

Figure 30 – Extrait d’un sous-graphe de l’ontologie MedDRA.

13. http ://bioportal.bioontology.org/ontologies/42280 ?p=terms

à noter que tout le vocabulaire de l’ontologie MedDRA fait aussi partie du langage UMLS

(Uni-fied Medical Languages System), dont le graphe est structuré en cinq niveaux : System Organ

Class, High Level Group Term, High Level Term, Preferred Term, Lowest Level Term [Mer08].

La distribution des termes dans l’ontologie MedDRA varie d’un niveau à l’autre (Table 24), et

environ 37% des termes ont plus d’un parent dans l’ontologie. Dans les terminologies MedDRA

et COSTART, chaque terme a un identifiant unique et possède au moins un chemin le reliant à la

racine du graphe. Par exemple, le terme C0000733 :abdomen injuries, a comme chemin reliant à

la racine C1140263.C0017178.C0947761.C0947846 et C1140263.C0947733.C0021502.C0851837.

Un exemple réel d’application de la mesureSimDAG concerne son utilisation pour mesurer la

si-Nombre de parents dans le rDAG nombre de terme pourcentage

1 12485 62.28

2 6007 29.96

3 1249 6.23

4 251 1.25

5 42 0.21

6 12 0.06

8 1 0.005

Table 24 – Distribution des relations parent-descendants dans la terminologie MedDRA

[BBST+11].

milarité sémantique entre des termes issus de ces deux ontologies. Les matrices de similarité sont

calculées avecSimDAG, et sont utilisées par la suite pour réaliser un clustering de termes. Nous

avons utilisé 1502 termes de l’ontologie COSTART pour générer la première matrice de

simila-rité sémantique entre toutes les paires de termes. Concernant l’ontologie MedDRA, nous avons

utilisé les 1288 termes qui annotent des molécules de médicaments. Ces associations

molécules-termes sont extraites de la base de donnée SIDER14qui est une ressource pour l’annotation des

effets secondaires des médicaments et des principales molécules chimiques [CKG+08, KCL+10].

Comme dans le cas précédent avec la mesure IntelliGO, les étapes nécessaires pour calculer la

similarité sémantique entre deux termes d’annotation sur ces ontologies supposent l’extraction

du plus court chemin entre les termes et de la profondeur maximale duLCA de ces termes.

Le programme IntelliGO a dû être adapté pour cela (Algorithme 1). Les résultats du clustering

des termes de COSTART et de MedDRA sont affichés dans la Figure 31, où le clustering

hiérar-chique ascendant et la visualisation par Dendroscope15ont été utilisés pour regrouper les termes

sémantiquement similaires dans des clusters distincts, en se basant sur la similarité sémantique

SimDAG. Nous constatons dans les deux cas, le regroupement des termes dans différents niveaux

dans la hiérarchie du clustering, ce qui reflète la variation des valeurs de similarité sémantique

dans les deux ontologies.

14. http ://sideeffects.embl.de/about/

Figure31 – Exemple de clustering hiérarchique et visualisation par Dendroscope de 1280 termes

de l’ontologie MedDRA (haut) et 1502 termes de l’ontologie COSTART (bas), en utilisant la

similarité sémantique SimDAG.

Figure 32 – Un exemple de redondance et de non-pertinence d’attributs de données. Dans le

premier cas (A), les attributs xetysont redondants puisquex fournit la même information que

y en ce qui concerne la séparation entre les deux clusters. Dans le deuxième cas (B), l’attributy

est non pertinent car en absence de x on ne peut distinguer qu’un seul cluster [DBW04].

2 Utilisation de la mesure de similarité sémantique pour la

ré-duction des attributs

2.1 Principe des méthodes de réduction d’attributs

2.1.1 Intérêt de la réduction d’attributs

Afin de démontrer l’intérêt de la mesure SimDAG, on l’a utilisée en amont d’un problème

pas si courant en fouille de données et qui concerne la réduction d’attributs en utilisant les

connaissances du domaine.

L’objectif général du problème de réduction d’attributs en fouille de données, est l’amélioration

de l’interprétation, et la précision des modèles générés [BBST+11]. En effet, plusieurs algorithmes

d’apprentissage rencontrent une dégradation de performances quand des variables ou primitives

non pertinentes sont présentes dans le jeu de données. Le processus de réduction d’attributs

pourrait donc être considéré comme une étape importante pour maximiser la performance d’un

algorithme d’extraction de connaissances à partir d’un jeu de données.

Définition: Soitιune fonction de prédiction, et ∆ un ensemble d’attributsx1,x2,x3, ..., xn.

Nous définissons Xopt ⊆ ∆, un sous-ensemble optimal d’attributs, telle que la performance du

classifieur induitC=ι(∆)est maximale.

Le problème majeur ici réside sur le fait que Xopt n’est pas forcément unique. Dans la Figure

32 nous pouvons apercevoir un exemple typique montrant l’intérêt des méthodes de réduction

d’attributs. Dans le premier cas (A), les attributs x et y sont redondants puisque x fournit

la même information que y en ce qui concerne la séparation entre les deux clusters. Dans le

deuxième cas (B), l’attributyest non pertinent car en absence dexon ne peut distinguer qu’un

seul cluster.

Plusieurs approches de réduction d’attributs ont été proposées. Les principale catégories sont

présentées dans les deux sous-sections suivantes.

Figure 33 – Principe de la méthode de réduction d’attributs par agrégation (wrappers)

[DBW04].

2.1.2 Réduction de données sans altération de la représentation des données : La

sélection d’attributs

Dans le premier groupe de méthodes, sont rassemblées les approches de sélection de variables

ou d’attributs. Elles permettent de réduire la complexité des données sans modifier les données

elles-mêmes [Guy03]. Le modèle de sélection de variables (Feature selection) peut à son tour être

divisé en deux sous-catégories : modèles à filtres (filters) et modèles à agrégation (wrappers). Le

modèle à filtres consiste en la sélection et le pré-traitement de variables dans l’espace de recherche

initial. L’évaluation des variables sélectionnées se base sur des métriques utilisant les jeux de

données en entrée et est réalisée sans tenir compte de classifieurs statistiques [JKP94]. Un exemple

du modèle de sélection de variables par filtre, est donné dans le cas de l’étude de corrélation entre

variables, qui élimine celles qui sont redondantes et non pertinentes [WF99]. L’élagage de l’espace

de recherche est souvent supervisé par des connaissances du domaines. En effet, Coulet et al.

ont proposé d’utiliser une base de connaissances pour la sélection d’attributs dans un problème

relié à la pharmagénomique [CSTB+08]. Concernant les modèles par agrégation ou encapsulation

(wrappers), l’ensemble des primitives pertinentes sont sélectionnées et évaluées sur la base de leur

pouvoir de prédiction en utilisant un algorithme de classification et d’apprentissage statistique

[KJ97]. La classification non supervisée est généralement utilisée avec ce genre d’approche de

réduction d’attributs [KSM00, DBW04]. Dans la Figure 33 nous avons une illustration de cette

approche. En entrée nous avons un jeu de données initial à partir duquel, un sous-ensemble

représentatif est obtenu par clustering non supervisé.

2.1.3 Réduction de données avec altération de la représentation des données : La

réduction de dimension

De manière alternative aux approches précédentes, il existe des méthodes de réduction

d’at-tributs qui modifient la représentation initiale des données en les représentant dans un espace

de dimension plus petite. De telles méthodes de réduction de dimension sont aussi appelées

mé-thodes de compression de variables ou de primitives (feature compression). Parmi ces approches,

il y a l’analyse en composantes principales (ACP), qui est une méthode populaire et est

couram-ment utilisée sur des données numériques continues. Les méthodes de clustering ont aussi été

utilisées pour regrouper les attributs similaires afin d’améliorer la pertinence de la classification

d’objets. Par exemple, dans la recherche d’information, des documents textuels ont des

attri-buts qui sont binaires et correspondent aux termes annotant les documents textuels [Kyr08]. Par

conséquent, le clustering des termes se base sur la comparaison de leurs distributions dans les

do-cuments [KS96].Solonim et al ont proposé le paradigme d’information bottleneck, pour extraire

des clusters de mots qui représentent aux mieux l’information qui réside dans des documents

d’un corpus [ST00]. Les auteurs remplacent par la suite, la représentation initiale des documents

qui est sous forme de matrice de co-occurrence termes/document, par une représentation plus

compacte basée sur la co-occurrence de clusters de termes dans les documents. En utilisant cette

nouvelle représentation les termes sont regroupés en faisant référence à une mesure de similarité

spécifique à un corpus. À la fin, chaque sous-ensemble d’attributs sera remplacé par une étiquette

du cluster représentatif.

Dans le cas où les attributs sont issus d’un vocabulaire structuré, un moyen adéquat pour

re-grouper les attributs serait d’utiliser une mesure de similarité sémantique.