• Aucun résultat trouvé

4.2 Evaluation

4.2.1 Ressources

Afin d’évaluer les relations acquises par notre méthode sur nos corpus de travail, nous avons constitué des références propres à chaque domaine et à chaque corpus, à partir de ressources propres aux domaines.

Afin de calculer la R-précision (cf. section 4.2.2.2), et de manière à permettre une évaluation précise, nous considérons dans la ressource uniquement les relations que notre méthode doit potentiellement retrouver, c’est-à-dire les relations dont les deux éléments sont des mots ou des termes du corpus. Ainsi, nous avons élaboré des références à partir des ressources citées ci-dessous, une pour chaque corpus. L’appariement entre les termes du corpus et les termes contenus dans les ressources est réalisé après lemmatisation de tous les termes.

Nous présentons les ressources utilisées pour l’évaluation des résultats obtenus sur les corpus du domaine médical, puis pour l’évaluation des résultats obtenus avec les corpus du domaine de l’alimentation.

4.2.1.1 Domaine médical

Pour les corpus médicaux, nous utilisons la ressource UMLS2. Pour l’évaluation des résultats obtenus avec le corpus Menelas, nous exploitons la partie française de l’UMLS [UMLS], 1 735 419 relations, soit 2 434 relations entre les termes du corpus. Les relations contenues dans la ressource sont majoritairement des co-hyponymes (1 536 relations), mais également des hyperonymes (333), des relations équivalentes parmi lesquelles on

4.2 Evaluation

UMLS-FR (Menelas) UMLS-EN (Textes Cliniques)

Co-hyponymie

artère fémorale - artère brachiale bruits du cœur - débit cardiaque thrombose - embolie

alcohol - smoking

atrial pressure - heart rate anxiety - diarrhea

Hyperonymie

artère - aorte

examen physique - palpation radiographie - angiographie

activity - exercise antibiotic - ciprofloxacin

imaging studies - echocardiogram neurological symptoms - dizziness Synonymie

angor - angine de poitrine fatigue - épuisement infarctus du myocarde - im

medicine - drug

therapy - therapeutic procedure orthopedic - orthopaedics Rel. du domaine

cancer - tumeur

angiocardiographie - cœur souffle cardiaque - bruit du cœur

wound infection - diagnosis vitamin e - blood

ovary - secretion

Ta b l e au 4 . 3 : Exemples de relations contenues dans les références d’évaluation des corpus médicaux (l’UMLS-FR et l’UMLS-EN).

trouve des synonymes (438), et des relations du domaine (128). Des exemples de ces relations sont donnés dans le tableau 4.3.

Pour les résultats obtenus avec le corpus de textes cliniques, nous avons recours à la partie anglaise de l’UMLS qui contient 40 036 781 relations, soit 53 203 relations entre les termes du corpus. Les types de relations entre les termes du corpus contenues dans la version anglaise de l’UMLS sont une majorité de co-hyponymes (22 680 relations) et de relations du domaine (22 939), des hyperonymes (6 505) et des synonymes (1 079). Des exemples de ces relations sont également données dans le tableau 4.3.

4.2.1.2 Domaine alimentaire

Pour les corpus alimentaires, nous utilisons deux types de ressources : deux ressources terminologiques existantes et une ressource que nous avons construite à partir de sites Web.

Les deux ressources existantes sont la partie française d’Agrovoc3 [AGRO], 75 222 re-lations, et la partie française de l’UMLS4 [UMLS], 1 735 419 relations.

AGROVOC

Les références construites à partir d’Agrovoc contiennent 1 574 relations entre les termes du corpus Recettes et 2 935 relations entre les termes du corpus Guides Alimentaires. Ces relations sont des hyperonymes, des co-hyponymes, des synonymes, et des relations

3. http ://aims.fao.org/standards/agrovoc/about 4. http ://www.nlm.nih.gov/research/umls/

du domaine (cf. tableau 4.4). Pour le corpus Recettes, la référence contient une majorité d’hyperonymes, et pour le corpus Guides Alimentaires une majorité de relations du domaine.

Hyperonymes

agrume - clémentine

trouble alimentaire - boulimie volaille - canard récipient - bouteille Relations du domaine sucre - miel bouchon - fermeture commerce - achat cuisson - four Co-hyponymes réfrigération - congélation cerf - chevreuil endive - salade Synonymes

sorbet - crème glacée soupe - potage valeur calorique -valeur énergétique Ta b l e au 4 . 4 : Exemples de relations présentes dans la ressource Agrovoc.

UMLS-FR

Les références construites à partir de l’UMLS contiennent 2 102 relations entre les termes du corpus Recettes et 2 832 relations pour les Guides Alimentaires. Ces relations sont des hyperonymes, des co-hyponymes et des relations du domaine pour les deux corpus (cf. tableau 4.5). Pour le corpus Guides Alimentaires, la référence contient également des synonymes.

Hyperonymes condiment - épice

émotion - peur Synonymes

agitation - excitation gaz - flatulence malaria - paludisme Co-hyponymes apathie - ennui boxe - lutte vomissement - anorexie aidant - pharmacien Relations du domaine champignon - microbiologie dent - mastication graphie - tableau laryngectomie - larinx

Ta b l e au 4 . 5 : Exemples de relations présentes dans la ressource UMLS, pour les corpus alimentaires.

Remarques

La raison pour laquelle nous avons choisi de travailler avec ces deux types de ressources repose en premier lieu sur un critère de disponibilité. En ce qui concerne le corpus Recettes, la comparaison avec Agrovoc est justifiée par la présence de relations entre des termes liés à l’alimentation présentes dans les deux ressources. En effet, dans les recettes de cuisine nous estimons que d’autres types de relations peuvent être identifiés, comme la relation entre un terme de nutrition et un terme appartenant à une autre classe sémantique. Pour le corpus Guides Alimentaires, la comparaison avec Agrovoc se justifie de la même manière que pour le corpus Recettes.

4.2 Evaluation

Ainsi, la comparaison avec l’UMLS en français est justifiée par la présence de termes médicaux dans le corpus Guides Alimentaires. Même si nous supposons un faible recouvrement entre ces ressources et nos corpus, la comparaison de nos résultats et des relations extraites de ces ressources permet de donner une indication de la contribution de chaque modèle d’abstraction proposé.

Hyperonymes

fruit de mer - pétoncle poisson blanc - merlan viande rouge - kangourou Méronymes épinards - vitamine C

ananas - coupe de fruits Co-hyponymes

crèpe nature - gaufre chantilly farine de sarrasin - semoule blanche persil - romarin

Synonymes

ran -bulot

pain de son - pain noir pieuvre - poulpe

Ta b l e au 4 . 6 : Exemples de relations présentes dans la ressource issue du Web.

Relations issues du Web

Etant donné qu’Agrovoc et l’UMLS ne sont pas des ressources spécialement dédiées à l’alimentaire ou à la nutrition, ni pour des spécialistes, nous avons choisi de construire une ressource que nous considérons plus adaptée à nos corpus. Cette ressource contient essentiellement des relations entre des noms d’aliments, classes d’aliments et composants alimentaires. Il s’agit de 5 058 relations issues de quatre sites Web.

– Une société fournissant une méthode pour perdre du poids5,

– Le site Web de Health Canada (Santé Canada), le département du gouvernement du Canada en charge de la santé pulique nationale6,

– Un centre spécialisé dans la perte de cheveux7, – Un site Web fournissant des recettes de cuisine8.

Nous avons typé manuellement les relations, et la ressource contient 1 570 hyperonymes, 2 809 co-hyponymes, 583 méronymes, et quelques 71 variantes morphosyntaxiques et 25 synonymes (cf. tableau. 4.6).

Nous constituons ensuite à partir de ces 3 ressources, l’UMLS, Agrovoc et la Ressource Adaptée, une seule ressource globale, de manière à couvrir le plus possible l’ensemble des termes des corpus. De même que pour les corpus médicaux, nous définissons une

5. http ://www.bioweight.com/

6. http ://www.hc-sc.gc.ca/fn-an/securit/addit/diction/index-fra.php 7. http ://www.centre-clauderer.com/acides-bases/femme-2.htm 8. http ://www.cuisine-libre.fr/

référence pour chaque corpus. Les références contiennent 3 701 relations entre les termes du corpus Recettes, et 1 825 relations entre les termes du corpus Guides Alimentaires. 4.2.1.3 Bilan

Ressource Relations entre mots du corpus

Médical UMLS-FR 2 434 relations

UMLS-EN 53 203 relations

Alimentaire Globale-Recettes 6 015 relations Globale-Guides Alim 8 095 relations

Ta b l e au 4 . 7 : Nombre de relations entre les termes du corpus par référence.

Pour l’évaluation de notre méthode, nous avons constitué plusieurs références, adaptées à nos corpus de travail, à partir des ressources précédemment décrites. Nous récapitulons dans le tableau 4.7 les références que nous utilisons pour l’évaluation. Pour les corpus médicaux, ces références sont construites à partir de l’UMLS français pour Menelas, et de l’UMLS anglais pour les Textes Cliniques. Pour les corpus alimentaires, les plus gros corpus, nous avons constituté une référence globale à partir de l’UMLS, d’Agrovoc et d’une ressource que nous avons constituée à partir de données issues du Web.