• Aucun résultat trouvé

Les bases de connaissances sont difficilement dissociables des systèmes utilisés pour les dé-velopper, du fait de la spécificité des formalismes utilisés, par rapport au modèle classique sous

11. OSIS pour Object-oriented Systematics Information System 12. SIG : Systèmes d’Information Géographique.

3. Les Systèmes de Gestion de Bases de Connaissances forme de tableaux de données. Afin de clarifier le discours, nous introduisons les différentes no-tions (données, connaissance, systèmes d’information, etc.) permettant de mieux appréhender le concept de Bases de Connaissances (BC) et les Systèmes de Gestion utilisés13

pour les construire. 3.1 Données, information et connaissance

La recherche de la connaissance est une partie importante de l’activité humaine, en tout cas l’un de ses moteurs. La connaissance revêt un double aspect : d’une part l’accumulation de données ; d’autre part celui d’une compréhension des phénomènes observés, résultats des relations entre les faits connus et de la vérification d’hypothèses explicatives par la recherche de nouvelles données14

.

Par données, on entend des faits élémentaires enregistrés sur des phénomènes du monde extérieur et qui peuvent être considérés comme acquis (ou presque). Le mot phénomène est compris au sens large.

L’information peut être considérée comme l’augmentation de la signification qui peut être apprise à partir d’un ensemble de données, de cette « matière brute » que constituent les faits (Langefors 1977). La distinction entre données, informations et connaissances apparaît ainsi progressivement : la manipulation répétée des données permet de tirer des hypothèses que l’on cherche ensuite à mettre à l’épreuve sur des faits nouveaux. Ces hypothèses sont des informations qui peuvent se renforcer et prendre du sens pour l’analyste. Elles peuvent aussi échouer par le fait de contre-exemples. La synthèse des résultats d’observation se transforme alors en connaissances pour l’aide à la décision.

La connaissance est donc la résultante des ajouts successifs d’informations aux données de départ, informations qui sont elles-mêmes considérées comme des données pour les inférences de niveau supérieur. Un axiome ou un théorème peut être considéré comme une connaissance en mathématique ou en logique. Un processus intelligent est un processus qui a la faculté de connaître et de comprendre, c’est-à-dire de manipuler des données et d’inférer de nouvelles connaissances (Kayser 1984).

3.2 Les systèmes d’information

Joël Rosnay (1975) (« le Macroscope ») définit un système comme :

« Un ensemble d’éléments en interaction dynamique, organisés en fonction d’un but. L’analyse des systèmes consiste à définir les limites du système, à modéliser, à iden-tifier les éléments importants et les types d’interaction entre ces éléments, puis à déterminer les liaisons qui les intègrent en un tout organisé ».

Pour Planche (1988), un système d’information est

« un système qui a pour objectifs de rassembler, de traiter, de manipuler et de fournir les informations nécessaires à certaines activités. »

13. Systèmes de Gestion de Bases de Connaissances (SGBC) ou Systèmes à Base de Connaissances (SBC) 14. Ce que l’on pourrait appeler érudition d’une part et expérience d’autre part.

Il peut donc comporter des éléments manuels et des éléments informatisés. Un modèle de système d’information est une représentation d’un système, cherchant à en faciliter la compré-hension. Un modèle est nécessairement une simplification de la réalité, une abstraction cachant certains détails pour en mettre en valeur d’autres. Pour Tardieu et al. (1984) la construction d’un système d’information se situera en permanence entre :

– l’analyse de l’organisation et du système d’information perçu comme un objet naturel, – la conception d’un objet artificiel ayant pour but de représenter cette organisation pour en

améliorer l’efficacité.

3.3 Les modèles de représentation des connaissances

Le mode habituel et le plus ancien de représentation et de transmission des connaissances est le langage naturel. Ce n’est pas le seul. Depuis longtemps les hommes fixent leurs connaissances sur des supports divers (pierre, papier) en utilisant des techniques variées (écriture, dessin). En lui-même le langage n’est pas la connaissance mais une suite de phonèmes ou de caractères, c’est-à-dire seulement un mode de représentation des données et des connaissances, une nota-tion. Pour comprendre cette représentation il faut pouvoir associer un sens à chacun des termes utilisés, les symboles et à leur combinaison, c’est-à-dire disposer d’un modèle de représentation des connaissances. De nombreux modèles spécifiques ont été développés en fonction des besoins propres. Ainsi, une carte de géographie utilise un modèle graphique de représentation des connais-sances géographiques. La notation mathématique est fondée sur un modèle de représentation des concepts mathématiques, etc.

L’informatique et plus particulièrement les langages de programmation ont longtemps en-gendré une séparation nette entre les données enregistrées et leur signification (Tsichritzis & Lochovsky 1982). Par exemple l’expression en langage naturel "Pierre est brun et mesure 1,74 m" est interprétée comme "la couleur des cheveux de Pierre (qui est une personne de sexe mascu-lin) est brune et sa taille est de 1 mètre et 74 centimètres". Les concepts de personne, de cheveux, de couleur de cheveux, de taille sont implicites pour l’être humain. Au contraire, un programme informatique pourra stocker le chiffre 1,74 et les chaînes de caractères "Pierre" et "brun" sans se soucier de la signification de ces termes. Les concepts utilisés ne sont pas a priori reliés dans le programme. La réalisation d’un modèle de données ou de connaissances essaie de combler ce fossé en associant aux données enregistrées un modèle de représentation puis de signification des données. Elle représente une évolution naturelle de l’informatique vers l’ingénierie ou la gestion des connaissances.

Modèles généraux et modèles spécifiques

Chaque utilisateur d’un système informatique utilise habituellement un modèle spécifique, propre à ses besoins. La réalisation d’un modèle général vise à coordonner et à intégrer des modèles plus spécifiques. L’objectif du concepteur d’un système informatique est de définir le modèle le plus général possible.

La puissance d’un modèle général peut être observée par sa capacité d’intégration de modèles plus spécifiques de la réalité telle qu’elle est vue ou sa puissance de représentation de la réalité

3. Les Systèmes de Gestion de Bases de Connaissances telle qu’elle existe. De même qu’une décision politique se réfère à un modèle politique, une décision informatique se réfère à un modèle de données et/ou de connaissances. En l’absence de modèle, les décisions deviennent aléatoires (Degoulet 1998).

3.4 Les systèmes à base de connaissances

Un système à base de connaissances est un programme capable d’accomplir une tâche "in-telligente". Il est généralement constitué d’une base de connaissances relative à un domaine d’application et un ensemble de mécanismes d’inférences qui manipule cette base pour résoudre un problème donné (Napoli 1992). La base de connaissances contient des faits ou données brutes caractérisant les objets du domaine considéré : les règles permettent de manipuler ces faits, ainsi que des heuristiques et des stratégies de raisonnement exprimant la façon de se servir des règles. Les opérations de manipulation des connaissances, de recherche et de raisonnement, sont indis-sociables de la représentation elle-même.

Ainsi, élaborer une base de connaissance nécessite d’adopter un formalisme de représentation des connaissance (Kayser 1984, Levesque 1986), c’est-à-dire des structures de données appro-priées : au stockage (SGBD), à la manipulation d’informations (SI) mais aussi à l’inférence de nouvelles connaissances (SGBC).

Pour formalisation des connaissances il est nécessaire au préalable de précisément les différents niveaux de représentation des connaissances.

3.5 Niveaux de représentation des connaissances

D’après Reichgelt et al. (1989), nous pouvons distinguer quatre niveaux de représentation des connaissance. Ils sont classés de la façon suivante dans l’ordre dans lequel ils doivent être successivement abordées :

– le niveau conceptuel, appelé sémantique. Ce niveau définit les liaisons entre les primitives du modèles,

– l’épistémologie, appelé syntaxique qui définit les primitives du langage, – la logique utilisée, appelé pragmatique,

– le choix d’implantation informatique.

En sciences de la vie, comme le soulignent (Lebbe 1991, Vignes 2000), le problème de la représentation des connaissances peut se restreindre en trois phases (cf. figure 2), de la manière suivante :

« L’étape sémantique concerne tout ce qui a trait au sens que l’on donne aux connaissances représentées15

, ce qui passe par l’analyse et la structuration des concepts

15. . . . notre travail a consisté pour cette étape, à étudier de nombreuses monographies en Biologie et en Médecine et à participer à la réalisation de plusieurs bases de connaissances dans ces domaines. Cette analyse a conduit à différencier les entités signifiantes dans les descriptions des monographies et qui doivent être distinguées dans le formalisme (concept, descripteur, vraissemblance, ressemblance, individu, population, etc.)

correspondant au monde réel. L’étape mathématique concerne la définition abs-traite du monde réel, dans laquelle une grande partie de la connaissance est explici-tement représentée. Enfin l’étape informatique correspond à un codage des objets mathématiques, une résolution algorithmique du problème et sa mise en oeuvre par la programmation. Les aspects syntaxique et sémantique sont regroupés du fait du champ d’application précis choisi dans ce travail16

, dans lequel les connaissances primitives sont déjà cernées. »(Lebbe 1991)

Fig. 2 – Les étapes de la modélisation (Lebbe 1991)