• Aucun résultat trouvé

Extrait de la classification commune des actes médicaux

possible pour l’utilisateur. La possibilité de hiérarchiser les concepts permet de relier explici- tement un terme générique imprécis, par exemple « cancer », aux termes plus spécifiques qui peuvent le préciser « cancer de la trachée », « cancer trachéal in situ ».

Cependant, M. Slodzian (2000) développe longuement des arguments épistémologiques et linguistiques démontrant que le triangle aristotélicien tel qu’il est présenté ci-dessus n’est pas, pour l’Ingénierie des connaissances, une structure figée. Elle discute, d’une part, le principe du mot isolé, c’est-à-dire pris hors contexte, comme point d’entrée privilégié de la terminologie et, d’autre part, interroge le credo selon lequel le sens préexiste.

« As a matter of fact, the necessity of reducing drastically the complexity and multi- plicity of linguistic facts leads to select one type of semantic paradigm, the one which restate the antique credo that the sign represents the concept and the concept repre- sents the object or referent. And the cognitive semantics paradigm doesn’t change the equation : the sign is given as linguistic and the meaning is given as conceptual, but we have the same one-to-one relationship concept vs word. [ . . . ] As Rastier notes, the paradigmatic option of cognitive semantics leads to a strict semasiolo- gical approach, resting upon the prelinguistic prejudice, born from the philosophy of language, that to one word corresponds one signified ; and as this is obviously not the case, one must find for it a preferential signified, or more precisely a basic conceptualization2 »(Slodzian, 2000).

Nous trouvons que les observations faites et les arguments donnés par M. Slodzian et F. Rastier sont tout à fait pertinents. Ceci dit, l’objet de notre travail est de construire des ontologies pour représenter une région particulière du réel, à un moment donné. À ce moment-là (moment est utilisé dans son acceptation d’origine), la signification des concepts qui sont décontextualisés

2En effet, la nécessité de réduire rigoureusement la complexité et la multiplicité de faits linguistiques amène

à choisir un type de paradigme sémantique, celui qui réitère le credo habituel selon lequel le signe représente le concept et le concept représente l’objet ou le référent. Le paradigme cognitif et sémantique ne change pas l’équation : le signe est donné comme linguistique et le sens est donné comme conceptuel, mais nous avons la même relation linéaire concept versus mot. [ . . . ] Comme le note Rastier, l’option paradigmatique de la sémantique cognitive mène à une approche sémiologique stricte reposant sur le préjudice prélinguistique, né de la philosophie du langage, selon lequel à un mot correspond un signifié. Ce n’est bien évidemment pas le cas, il faut trouver pour ce mot un signifié préférentiel ou plus précisément une conceptualisation de base.

est figée. Dans ce contexte, en respectant ces contraintes, alors le triangle aristotélicien présenté ci-dessus est bien figé.

Enfin, nous terminerons cette section en ajoutant qu’il existe des terminologies de natures diverses adaptées aux différents objectifs de traitement de l’information : classification pour le recueil de données, nomenclature pour la description d’observations cliniques et thésaurus pour la recherche d’information. Cela dit, P. Lefèvre (2000) distingue les terminologies des thésaurus et avance que les thésaurus possèdent une structure de réseaux sémantiques et qu’en cela ils ne peuvent pas être inclus dans les terminologies. Nous précisons les notions de classification, nomenclature et thésaurus dans les sections suivantes.

1.2

Classification

Selon J. Charlet (2002), une classification est l’action de distribuer par classes et par caté- gories. D. Bourigault (2004) offre une définition allant dans le même sens mais plus complète : « une classification est la répartition systématique en classes, en catégorie d’êtres, de choses ou de notions ayant des caractères communs notamment afin d’en faciliter l’étude. C’est aussi le ré- sultat de cette opération. ».Une classification consiste donc à partitionner l’ensemble des objets pour les distribuer en classes et sous-classes constituées d’éléments de plus en plus semblables, ici les termes de signification proche. La structure de la classification et la granularité des classes dépend des objectifs poursuivis par son concepteur. La définition de classes plus spécifiques à l’intérieur de classes plus générales, hiérarchise la classification. La classification internationale des maladies (CIM- cf. section 2.1) et la classification commune des actes médicaux (CCAM - cf.section 2.2) sont de bons exemples de classifications hiérarchiques dans le domaine médical bien qu’elles n’aient pas le même niveau de profondeur.

Les classifications portant sur un domaine particulier de la connaissance sont généralement bien admises par les spécialistes du domaine. Les classifications à vocation universelle ne peuvent faire abstraction d’un point de vue et sont, de ce fait, l’objet de nombreuses critiques. Elles ap- portent cependant toujours un éclairage sur la nature de la connaissance. Classer les connais- sances, c’est dire comment elles se situent les unes par rapport aux autres.

En situant la notion de classification par rapport à celle de terminologie telle que définie ci- dessus, section 1.1, on peut dire que les concepts d’une classification sont ses classes (Zweigen- baum, 1999). Les termes d’une classification appartiennent souvent à un métalangage : « Asthme SAI3 », « Autres . . . pathologies », « Cancer primitif bronchique de stade . . . I, II, III », « À

l’exclusion de4. . . ».

Les principales caractéristiques des classifications permettant d’évaluer leur capacité d’ex- pression sont : la nature du principe de classement, la prise en compte d’axes multiples et les types des relations exprimées. Une classification correspond à une catégorisation récursive du domaine selon un critère qui s’applique à l’ensemble des éléments d’une classe, les critères se succédant de classe en sous-classe par ordre d’importance décroissante. Le lien sémantique qui

3SAI = sans autre indication.

4« Échographie de l’appareil respiratoire, à l’exclusion de : échographie et/ou échographie-doppler de contrôle

1 – De la notion de terminologie à celle d’ontologie :

épistémologies et définitions 27

préside à la catégorisation peut être un lien de spécification-généralisation (type « est-un », par exemple : « une bronchite aiguë est une pathologie infectieuse ») ou de partition (type « fait- partie-de », par exemple : « le poumon fait partie de l’appareil respiratoire »). Une classification monoaxiale répartit en plusieurs classes disjointes l’ensemble des objets et revient à construire une hiérarchie de classes à partir d’une racine unique et commune. Les classes d’un niveau doivent couvrir l’ensemble du domaine de ce niveau (exhaustivité) sans se recouvrir (exclusi- vité) afin qu’un objet trouve une place et une seule. Nous verrons qu’en pratique, il s’avère très difficile de répartir les objets du domaine selon un seul critère. Cette difficulté reconnue a en- traîné le développement de répartitions multiaxiales comme le montre l’exemple du decripteur du nez dans le thesaurus Medical Subject Headings (MeSH – cf. figure 3.8, page 43) que nous présentons en section 2.3.

1.3

Nomenclature

Le mot nomenclature vient du latin nomenclatura qui désigne l’action d’appeler par le nom. Dans notre domaine, une nomenclature désigne un ensemble de termes techniques, présentés se- lon un classement méthodique. Il n’y a aucun agencement particulier des termes ni de définition explicite, l’objectif recherché étant l’exhaustivité. Il s’agit d’un recueil ouvert de données dont l’intérêt est de recenser tous les concepts d’un domaine, sans se restreindre à un objectif spéci- fique. Il s’agit d’un certain type de terminologie. La principale différence entre les notions de classification et de nomenclature tient à la précision de l’objectif poursuivi. En effet, la classifi- cation est clairement orientée vers un objectif précis tandis que la nomenclature a pour seul but l’exhaustivité. Ainsi, selon P. Zweigenbaum (1999), lorsque le but est de décrire des informa- tions cliniques le plus précisément et fidèlement possible, les classifications telles que définies ci-dessus (section 1.2) trop orientées vers la résolution d’un objectif particulier, se révèlent peu adaptées. Une nomenclature importante dans le domaine médical est la Nomenclature Systéma- tique des Médecines Humaine et Vétérinaire (SNOMED - Côté et al., 1993). Nous la présentons en section 2.5 de ce chapitre.

1.4

Thésaurus

Un thésaurus est un ensemble structuré de termes d’un vocabulaire, par exemple les termes techniques utilisés en médecine, représentés de façon normalisée par des descripteurs ou des mots clés (Foskett, 1997). Les termes sont organisés de manière conceptuelle et reliés entre eux par des relations sémantiques. Un thésaurus est donc un ensemble organisé de termes, choisis pour leur capacité à faciliter la description d’un domaine et à harmoniser la communication et le traitement de l’information. Chaque terme, appelé descripteur, est aussi peu ambigu que possible et est préféré à des termes voisins ou synonymes, les non-descripteurs, pour tous les échanges significatifs. En pratique, le thésaurus forme un répertoire alphabétique pour l’analyse du contenu, le classement et donc l’indexation de documents, sachant que dans de nombreux cas, les thésaurus proposent également une définition des termes utilisés. En mode consultation et exploitation des données, le thésaurus devient un instrument de recherche : disposant des vocabulaires et règles de l’indexation, l’utilisateur peut optimiser ses requêtes.

Un thésaurus s’élabore comme un sous-ensemble du vocabulaire usuel et d’au moins un vo- cabulaire spécialisé. C’est un vocabulaire contrôlé puisqu’il résulte d’un long processus de tri des mots, appellations et expressions utilisées de manière informelle dans un domaine particulier. Il s’agit d’une démarche pragmatique de rationalisation des termes descriptifs. Des outils d’ana- lyse automatique de textes permettent l’extraction des termes les plus fréquents d’un corpus et, dans une certaine mesure, facilitent l’émergence de leurs relations sémantiques. Pour construire le thésaurus, les termes ainsi identifiés sont inventoriés, comparés, mis en relation et finalement hiérarchisés pour rendre compte des traits essentiels du domaine. Cette hiérarchie s’appuie sur une typologie : chaque terme appartient à une catégorie qui le situe par rapport à tous les autres termes retenus et qui fixe de cette manière sa priorité d’emploi. La hiérarchie des termes peut tout-à-fait être différente d’un thésaurus à un autre et même, sous réserve d’incohérence, dans un usage ou un autre du même thésaurus. Il demeure toujours une dimension arbitraire dans l’étape de hiérarchisation, soit dans le choix des termes, soit dans leur position hiérarchique bien qu’il existe des normes pour guider l’élaboration des thésaurus5. Finalement, en partant du niveau le

plus haut correspondant au domaine du thésaurus, nous trouvons en premier les subdivisions majeures représentant les composantes du domaine - subdivisions souvent nommées microthé- saurus - puis pour chaque subdivision, la hiérarchie propre aux descripteurs. Un thésaurus peut également concerner plusieurs domaines et plusieurs langues.

Concernant ce que la communauté d’Ingénierie des connaissances nomme « thésaurus sé- mantique », nous ne dirons ici que quelques mots pour situer cette notion par rapport à celles que nous avons précédemment abordées. C. Roussey et al. (2002) séparent explicitement une terminologie du domaine de sa conceptualisation et définissent le thésaurus sémantique comme « une normalisation des notions du domaine auxquelles sont associées des terminologies ». Se- lon cette définition, on peut rapprocher (voir assimiler) les thésaurus sémantiques des serveurs de terminologie médicaux dans lesquels le couple thésaurus-ontologie joue le même rôle que celui assumé par le thésaurus sémantique (cf. projet GALEN- section 2.9).

Pour conclure cette section, les thésaurus et les classifications permettent de traduire un mes- sage dans un vocabulaire normalisé. Lorsqu’il y a transmission d’information, l’émetteur code le message en fonction d’un langage et du contexte d’énonciation, l’interprétation correcte par le récepteur suppose l’emploi du même langage et la connaissance du contexte. Or le contexte conditionne le codage, ainsi, dans le cas d’un malade hospitalisé pour chimiothérapie d’un cancer ayant développé une aplasie, le dossier serait codé selon l’étiologie cancéreuse par un épidémio- logiste mais sous la rubrique aplasie si on s’intéresse à la charge en soins.

1.5

Taxinomie

Le mot taxinomie vient du grec taxis, rangement, et de nomos, loi. Il s’agit de la partie de la biologie visant à établir une classification systématique des êtres vivants6. Le Petit Robert définit

5Norme ISO 2788-1986 : Principes directeurs pour l’établissement et le développement des thésaurus mono-

lingues.

Norme ISO 5964-1985 : Principes directeurs pour l’établissement et le développement des thésaurus multilingues.

1 – De la notion de terminologie à celle d’ontologie :

épistémologies et définitions 29

la taxinomie comme étant (1) l’étude théorique des bases, lois, règles, principes d’une classifica- tion ; (2) une classification d’éléments. Le terme taxonomie fut inventé, sous cette orthographe, par Augustin Pyrame de Candolle pour définir la théorie des classifications. L’orthographe fut corrigée en taxinomie par Émile Littré mais l’autre forme reste pourtant très répandue.

Toutes les classifications se présentent sous la forme d’un arbre (classement arborescent, cf.figure 3.3), depuis une racine incluant tous les êtres vivants existants ou ayant existé, jusqu’aux individus. Chaque nœud de l’arbre définit un taxon, qui groupe tous les sous-taxons qu’engendre le nœud.