Aide à la décision dans les filières agroalimentaires

(1)

HAL Id: tel-00933376

https://tel.archives-ouvertes.fr/tel-00933376

Submitted on 20 Jan 2014

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Aide à la décision dans les filières agroalimentaires

Rallou Thomopoulos

To cite this version:

Rallou Thomopoulos. Aide à la décision dans les filières agroalimentaires. Intelligence artificielle [cs.AI]. Université Montpellier II - Sciences et Techniques du Languedoc, 2013. �tel-00933376�

(2)

Habilitation à Diriger des Recherches

Université Montpellier II, école doctorale I2S, spécialité informatique

Aide à la décision

dans les lières agroalimentaires

Decision support in agrifood chains

Rallou THOMOPOULOS

INRA, UMR IATE

Equipe-projet INRIA GraphIK Montpellier, France Soutenue le 5 décembre 2013

JURY

Christine FROIDEVAUX Professeur, Université Paris Sud, Orsay Rapporteur

Bernard MOULIN Professeur, Université Laval, Québec, Canada Rapporteur

Henri PRADE Directeur de Recherche CNRS, IRIT, Toulouse Rapporteur

Joël ABECASSIS Ingénieur de Recherche (HDR), INRA, Montpellier Examinateur

Fabien GANDON Chargé de Recherche (HDR), INRIA, Sophia-Antipolis Examinateur

(3)

Résumé

Dans les sciences expérimentales telles que les sciences de l'aliment, les données jouent un rôle essentiel, puisque les théories du domaine sont fondées sur les données expérimentales, leur exploitation et leur analyse. Cependant, l'état de l'art montre que les données expérimentales disponibles sont souvent partielles, éparpillées sur des supports variés, ou sans modèle mathématique sous-jacent établi. Une autre source d'information est également disponible : les connaissances expertes, toutefois pas toujours formalisées sur des supports écrits. Les connaissances expertes peuvent exprimer des points de vue dié-rents, potentiellement conictuels s'ils visent des objectifs divergents. Un dé majeur est donc d'intégrer ces données et ces connaissances et de développer des méthodes permettant de les utiliser pour l'aide à la décision. Ce mémoire présente un ensemble de stratégies et méthodes complémentaires dénies et développées pour, ensemble, traiter cette problématique. Il aborde trois thèmes de recherche : l'intégration de formalismes hétérogènes, les méthodes prédictives et l'argumentation pour l'aide à la décision.

Abstract

In experimental sciences such as food science, data play an essential role, since domain theories are based on experimental data, their exploitation and their analysis. However, the state of the art shows that available experi-mental data are often partial, scattered on various supports, or without an established underlying mathematical model. Another information source is also available : expert knowledge, however not always formalized on writ-ten supports. Expert knowledge may express dierent viewpoints, possibly conictual since they pursue divergent objectives. A main challenge is thus to integrate these data and knowledge and to develop ways of supporting decision from them. This research report presents a set of complementary strategies and methods dened and developed in order to, together, face this issue. It addresses three research topics : integration of heterogeneous forma-lisms, predictive methods, and argumentation for decision support.

(4)

Remerciements

Je souhaite en premier lieu remercier les membres du jury pour l'ouver-ture d'esprit dont ils ont fait preuve dans leur écoute, leurs questions et discussions sur ce thème pluridisciplinaire. Par leur contribution, cette sou-tenance d'HDR a été pour moi une journée extrêmemement enrichissante, constructive et motivante. Je tiens à exprimer le fait que chacun d'entre eux, par diérents contextes dans lesquels je les ai rencontrés, a contribué à construire mon parcours. Je remercie particulièrement les rapporteurs pour leur lecture approfondie du manuscrit et pour leurs rapports, mais aussi les autres membres du jury qui en ont fait une lecture attentive et minutieuse. Je les remercie également de s'être rendus disponibles malgré des emplois du temps extrêmement chargés.

J'aimerais remercier Bernard Cuq et Joël Abécassis pour le rôle qu'ils ont joué lors de mon arrivée à l'UMR IATE. Bien que de disciplines diérentes et malgré le temps nécessaire pour comprendre les compétences de chacun, leur implication a permis à mon projet initial de prendre un bon départ, de se poursuivre et de se développer par la suite. Je tiens également à remercier Stéphane Guilbert, directeur de l'UMR IATE lors de mon recrutement, qui, conscient de la diculté d'initier un projet de recherche dans une discipline nouvelle pour l'unité, m'a beaucoup apporté par ses conseils d'ordre straté-gique et sa conance. Merci à tous trois de m'avoir accompagnée lors de mon arrivée.

Je remercie très sincèrement les personnes avec qui j'ai eu le plaisir de travailler : l'axe 5, l'équipe-projet INRIA GraphIK, les membres de l'UMR MISTEA ainsi que les collègues du LRI et de l'IRIT en particulier Fa-tiha Saïs et Leïla Amgoud , les étudiants qui ont contribué à ces travaux, ainsi que l'ensemble des membres de l'UMR IATE pour leur accueil et leur sympathie. Un grand merci à Madalina Croitoru, Jérôme Fortin, Brigitte Charnomordic, Nadine Hilgert et Patrice Buche qui m'ont aidée à améliorer mon exposé oral. Un mot tout particulier à Brigitte Charnomordic, avec qui nous avons eu de nombreuses occasions de collaboration, que je remercie pour sa bonne humeur et sa très grande humanité.

Enn, je glisse un petit merci à mon cocon familial, qui ne me juge pas quelque choix que je fasse.

(5)

(6)

Table des matières

Table des gures 10

1 Introduction 11

1.1 Contexte . . . 11

1.2 Thèmes de recherche . . . 14

1.3 Organisation du mémoire . . . 18

2 Intégration de formalismes hétérogènes 19 2.1 Problématique . . . 20

2.2 Notions préliminaires . . . 22

2.2.1 Les graphes conceptuels simples . . . 22

2.2.2 Règles de graphes conceptuels . . . 25

2.3 Génération d'une ontologie . . . 26

2.3.1 Travaux proches . . . 27

2.3.2 Identication de types de concepts de haut niveau . . . 29

2.3.3 Hiérarchisation des types de concepts . . . 31

2.3.4 Proposition de types de concepts complémentaires . . . 33

2.4 Evaluation de la validité des dires d'experts . . . 34

2.4.1 Problématiques proches . . . 34

2.4.2 Calcul du taux de validité . . . 35

2.4.3 Notions de patron de règle, d'instance de règle et pro-priétés associées . . . 35 2.4.4 Déroulement de la validation d'une instance de règle . 40

(7)

2.5 Application . . . 42

2.5.1 Environnement de travail . . . 42

2.5.2 Description des données expérimentales . . . 43

2.5.3 Description des connaissances expertes . . . 43

2.5.4 Validation des connaissances expertes . . . 44

2.6 Conclusion du chapitre . . . 45

3 Méthodes prédictives 47 3.1 Problématique . . . 48

3.2 Littérature pertinente . . . 51

3.2.1 Utilisation d'ontologies pour guider l'apprentissage . . 51

3.2.2 Utilisation de l'analyse subjective pour la sélection de règles ou de données . . . 52

3.2.3 Les arbres de décision comme modèles interprétables . 53 3.3 Dénition de l'ontologie en lien avec les données . . . 54

3.3.1 Domaine de dénition des concepts . . . 56

3.3.2 Relation entre concepts et variables . . . 56

3.3.3 L'ensemble des relations . . . 56

3.4 Traitement des données utilisant l'ontologie . . . 59

3.4.1 Remplacement d'une variable par de nouvelles variables 61 3.4.2 Regroupement de modalités d'une variable sur la base de propriétés communes . . . 62

3.4.3 Fusion de variables pour créer une nouvelle variable . . 62

3.5 Approche interactive : principes et évaluation . . . 63

3.5.1 Principes . . . 63

3.5.2 Evaluation . . . 64

3.6 Etude de cas : application à la prédiction de la qualité alimentaire 64 3.6.1 Contexte et description de l'étude de cas . . . 65

3.6.2 Application de l'approche à l'étude de cas . . . 65

(8)

4.1 Problématique . . . 71

4.2 Méthodologie . . . 74

4.2.1 Identication et analyse des sources d'information . . . 74

4.2.2 Modélisation des informations disponibles en arguments structurés . . . 75

4.2.3 Modèles d'argumentation existants . . . 76

4.3 Résultats . . . 80

4.3.1 Schéma global . . . 80

4.3.2 Arguments . . . 81

4.3.3 Le modèle proposé . . . 84

4.3.4 Actions recommendées pour d'autres préoccupations et d'autres audiences . . . 87

5 Une méthode d'ingénierie inverse pour le pilotage de lière 91 5.1 Problématique . . . 91

5.2 Les éléments du formalisme . . . 93

5.2.1 Pourquoi un langage logique ? . . . 93

5.2.2 Dénitions en logique du premier ordre . . . 94

5.2.3 Conséquence logique, substitution et homomorphisme . 95 5.2.4 Règles et dérivation . . . 95

5.2.5 Expression de l'inconsistance . . . 97

5.2.6 Base de connaissances consistante . . . 98

5.2.7 Réponse à une requête : chaînage avant et chaînage arrière . . . 99

5.3 Modéliser le problème . . . 99

5.3.1 Présentation du cas d'étude . . . 99

5.3.2 Exprimer les caractéristiques-cibles suivant diérents points de vue . . . 100

5.3.3 Formalisation des buts . . . 101

5.3.4 Traduire l'ingénierie inverse . . . 103

(9)

5.3.6 Exemple illustratif . . . 104

5.4 Aide à la décision . . . 105

5.4.1 Calcul des arguments et des extensions . . . 106

5.4.2 Choix des points de vue à retenir . . . 108

5.5 Synthèse et discussion . . . 109

5.5.1 Schéma global de la démarche . . . 109

5.5.2 Autres approches et positionnement . . . 111

6 Perspectives 115 6.1 Décision argumentée : vers une approche graphique et colla-borative . . . 115

6.2 Argumentation et analyse multidimensionnelle . . . 118

6.3 Qualité des données et fusion de données redondantes . . . 121

(10)

Table des gures

2.1 Un graphe conceptuel simple G . . . 23

2.2 Une règle de graphe conceptuel simple R . . . 25

2.3 Exemple de hiérarchisation des types de concepts . . . 32

2.4 Exemple de règle experte de même forme que celle de la gure 2.2 . . . 36

2.5 Exemple de patron de règle . . . 36

2.6 Une partie du vocabulaire utilisé pour exprimer les connais-sances expertes . . . 44

2.7 Evaluation de la validité d'une règle experte . . . 45

2.8 Achage des exceptions d'une règle experte . . . 46

3.1 Schéma du processus de construction de modèle . . . 50

3.2 Un extrait de l'ontologie utilisée pour les procédés alimentaires 55 3.3 Quelques variables et parties de l'ontologie associées, où A → B signie que A est une sorte de B . . . 60

3.4 Arbres de décision sur les données brutes . . . 66

3.5 Arbres de décision sur les données avec les propriétés des vi-tamines . . . 67

3.6 Arbre de décision avec le type de cuisson et les propriétés de l'eau . . . 68

3.7 Arbre de décision à l'état nal . . . 69

4.1 Graphe d'attaque associé . . . 78

4.2 Graphe avec attaques non-symétriques . . . 80

(11)

4.4 Graphes d'attaque propres à chaque audience . . . 87

5.1 Buts nutritionnels . . . 101

5.2 Buts organoleptiques . . . 102

5.3 Moyens d'atteindre les buts nutritionnels . . . 103

5.4 Schéma global de la démarche . . . 110

6.1 Première partition . . . 120

(12)

Chapitre 1

Introduction

Dans cette introduction je m'attacherai à expliquer les choix de recherche que j'ai faits, leur dynamique et leur cohérence en fonction du contexte et des problématiques rencontrées depuis mon recrutement à l'INRA n 2004.

1.1 Contexte

J'ai été recrutée au sein de l'UMR Ingénierie des Agropolymères et Tech-nologies Emergentes (IATE) pour initier un nouvel axe de recherche : la re-présentation et l'intégration des connaissances. J'étais donc au départ seule chercheur en informatique dans l'unité.

Point critique lors de mon recrutement : le problème d'ingénierie inverse dans une lière

Lors des premières années de mon recrutement, l'enjeu des travaux menés par l'UMR IATE est une meilleure maîtrise des procédés de transformation, dans le but de pouvoir garantir la qualité et la sécurité des produits alimen-taires. En particulier, la lière blé dur apparaît relativement bien connue et maîtrisée, si bien qu'une approche par ingénierie inverse (c'est-à-dire consis-tant à moduler le procédé de fabrication en fonction de propriétés-cibles visées pour le produit nal) semble envisageable. En eet, les travaux menés dans l'UMR ont conduit à l'accumulation de données issues de sources et de disciplines variées (aspects technologiques, nutritionnels, organoleptiques,

(13)

etc.) ; c'est la capacité d'intégration de ces connaissances qui apparaît comme un objectif prioritaire pour permettre l'aide à la décision. Mon projet initial porte plus spéciquement sur les informations concernant l'inuence des ma-tières premières et des procédés de transformation sur la qualité des produits à base de céréales et notamment de blé dur. On voit que les mots-clés in-tégration et décision, qui dénissent les thématiques principales de mes travaux actuels, sont déjà présents dans ce projet initial.

Ce que montre l'analyse de l'existant : une problématique de don-nées pauvres

L'analyse de l'existant montre alors que les données expérimentales dis-ponibles sont souvent partielles car dédiées à un problème très spécique, éparpillées au travers de supports divers (articles, cours, rapports, brevets, . . . ), souvent sans modèle mathématique connu. Une autre source d'infor-mation est également disponible : les connaissances expertes, toutefois pas toujours formalisées sur des supports écrits. Cet état de fait explique une des premières tâches entreprises au cours de mon projet : contribuer à l'informa-tisation des données et connaissances disponibles via des projets permettant le développement de bases de données et de connaissances (KB-lière, Grain Virtuel, . . . ) et surtout une dénition plus précise de mes priorités de re-cherche.

Conséquence : une orientation plus précise de mes priorités de re-cherche

Cette problématique de données pauvres m'a amenée à m'intéresser prio-ritairement à deux thèmes de recherche :

• dans un souci de cohérence des informations disponibles : l'intégration

de formalismes hétérogènes ;

• dans un objectif de prédiction : l'étude de méthodes d'apprentissage

per-tinentes en situation de données pauvres, en particulier des approches de type arbres de décision et raisonnement à partir de cas.

La problématique d'intégration des connaissances s'est ensuite posée de façon plus large comme une question d'aide à la décision conciliant des points de vue contradictoires à l'échelle des lières, ouvrant un troisième thème de recherche :

(14)

• l'argumentation pour l'aide à la décision.

Ces trois thèmes sont développés dans la partie 1.2 ci-dessous. Collectif de recherche

Une grande partie de mes travaux sont issus de la collaboration régulière (sous la forme de réunions hebdomadaires) avec l'équipe Représentation des Connaissances et Raisonnement du LIRMM (Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier), dont je suis membre as-socié depuis janvier 2006. Cette association a abouti au montage de l'équipe-projet INRIA-CNRS-UM2-INRA GraphIK (responsable : Marie-Laure Mu-gnier), localisée à Montpellier, ociellement créée le 1er janvier 2010, dont je suis membre permanent.

D'autre part, l'axe 5 (représentation des connaissances) de l'UMR IATE, dont j'étais seule chercheur en informatique lors de sa création n 2004 (coïn-cidant avec mon recrutement), s'est progressivement développé par le recru-tement d'un AI INRA (Luc Menut) en septembre 2007, par un chercheur CIRAD (Sébastien Destercke) en février 2009 puis par un IR INRA (Patrice Buche) et un MC UM2 (Jérôme Fortin) en septembre 2009, générant ainsi une dynamique d'équipe en représentation des connaissances au sein d'une unité applicative. La constitution de cette équipe a ainsi permis de rassembler des compétences scientiques complémentaires sur les thèmes :

• de représentation et intégration de données et connaissances ;

• de raisonnement sur des données et connaissances numériques et

sym-boliques.

Les méthodes développées, mises ensemble, permettent de bâtir une approche de plus en plus expressive, et crédible du point de vue applicatif, pour l'aide à la décision au sein des lières. Plus spéciquement, ces compétences s'ar-ticulent de la façon suivante : l'acquisition semi-automatique de données à partir de sources hétérogènes (notamment tableaux de données de documents issus du web) permet de pallier, de façon complémentaire, le problème des données pauvres ; la prise en compte de l'incertitude concerne à la fois les mo-dèles et les données (propagation d'incertitude dans les momo-dèles, imperfection des données) ; le raisonnement non-monotone (e.g. logique des défauts) est mobilisable à la fois en prédiction dans une approche qualitative et comme technique de calcul d'extensions (ensemble d'arguments cohérents) au sein des méthodes d'aide à la décision.

(15)

1.2 Thèmes de recherche

Premier thème : Intégration de formalismes hétérogènes

Les travaux entrepris traitent de la question de la coopération de connais-sances hétérogènes pour la construction et la validation de l'expertise d'un domaine. Deux types de connaissances sont pris en compte :

• des dires d'experts, connaissances à caractère générique, découlant de

l'expérience des spécialistes du domaine et décrivant les mécanismes com-munément admis régissant ce domaine. Ces connaissances sont représentées sous la forme de règles dans le modèle des graphes conceptuels, formalisme de représentation des connaissances fondé sur la logique, ayant notamment l'avantage, pour des utilisateurs non spécialistes, d'avoir une représentation graphique équivalente. Ce modèle comporte aussi une partie ontologique (vocabulaire hiérarchisé constituant le support du modèle) ;

• des données expérimentales, issues de la littérature internationale du

domaine. Elles sont représentées dans le modèle relationnel. Ces données nombreuses décrivent avec précision et de façon chirée des expériences réalisées pour approfondir la connaissance du domaine et leurs résultats. Ces résultats peuvent ou non vérier les connaissances apportées par les dires d'experts.

Ces travaux ont abouti, d'une part, à la génération semi-automatique de connaissances ontologiques. La méthode mise en place permet, à partir du modèle relationnel classique, d'identier et de hiérarchiser (en termes de spécicité) des concepts de haut niveau (c'est-à-dire génériques) à partir des attributs, relations et données syntaxiques de la base de données. Cette extraction automatique, complétée par des concepts issus de l'application de techniques de fouille automatique de textes, a ensuite été complétée et validée par les experts de l'unité.

D'autre part, ces travaux ont permis d'étudier la communication entre informations hétérogènes : une information riche mais hétérogène (experte / expérimentale) n'est réellement utile que si des ponts sont constitués. Nous avons donc étudié la possibilité de mettre au point des méthodes de valida-tion et d'interrogavalida-tion croisées. Ces méthodes se proposent de résoudre deux problèmes :

• la validation de dires d'experts par les données : en s'appuyant sur

les graphes conceptuels traduisant les connaissances expertes, un prol de règle est construit. Les prémisses de cette règle sont ensuite utilisées pour

(16)

interroger la base de données, et un taux de validité est calculé pour en déduire une éventuelle contradiction entre les données et la règle experte ;

• l'identication d'exceptions : les cas particuliers sont souvent

impor-tants, il s'agit de les identier pour les prendre en compte. A partir de la méthode développée pour la validation, des cas contredisant une règle générique peuvent être identiés, et des règles (dites de défaut) correspon-dant à ces cas peuvent ensuite être ajoutées au corpus de connaissances, en utilisant la connaissance hiérarchique fournie par l'ontologie. De telles règles sont la base de la mise en oeuvre de logiques non-monotones, dont l'intégration au cadre des graphes conceptuels est un sujet de recherche de l'équipe.

Ces travaux ont été réalisés en collaboration avec Jean-François Baget (INRIA GraphIK), Bernard Cuq (Supagro, UMR IATE) et Ollivier Haem-merlé (IRIT). L'intégration du raisonnement non monotone dans le modèle des graphes conceptuels a ensuite été développée avec Jérôme Fortin (UM2, IATE/GraphIK), Jean-François Baget (INRIA GraphIK) et Madalina Croi-toru (UM2, GraphIK).

Les développements associés ont été réalisés dans le cadre des stages en informatique de Clément Molla (master 2), d'Amine Lakhoua (master 2) et de Samira Rezgane (IUP), que j'ai encadrés, ainsi que celui de Clotilde Raz (ingénieur en nutrition), encadrée par Bernard Cuq, pour la partie concep-tion.

Un point de recherche subsidiaire concerne la fusion de références. Cette tâche vise à identier puis fusionner des données qui réfèrent à la même entité du monde réel (doublons, données redondantes, . . . ) pour améliorer la qua-lité des données. L'approche proposée s'appuie sur les ensembles ous pour permettre une représentation prenant en compte l'incertitude, ainsi qu'une interrogation exible avec expression de préférences graduelles des don-nées fusiondon-nées. Une implémentation utilisant les standards du W3C (repré-sentation RDF et interrogation SPARQL) a été proposée. Ces travaux sont menés en collaboration avec Fatiha Saïs (post-doctorante dans l'équipe RCR du LIRMM, puis LRI/Université d'Orsay) et Sébastien Destercke (CIRAD UMR IATE, puis CNRS Heudiasyc). J'interviens également avec Fatiha Saïs sur la question de la fusion de références dans le projet ANR CONTINT Qualinca porté par Michel Leclère (UM2, GraphIK) et démarré en 2012.

(17)

Deuxième thème : Méthodes prédictives

Deux types de méthodes prédictives (raisonnement à partir de cas et arbres de décision) ont été retenus pour certaines de leurs propriétés : leur faible besoin en données, la prise en compte de données symboliques et nu-mériques, la gestion des valeurs manquantes. Les deux types de méthodes prédictives abordés ont des avantages complémentaires : les méthodes de rai-sonnement par cas (ou par analogie) ont été retenues pour leur simplicité d'utilisation, leur faible besoin en données et leurs bons résultats ; les mé-thodes inductives, pour leur capacité à construire des modèles génériques et à mettre en évidence de nouvelles connaissances impliquant des relations complexes, dans lesquelles de nombreuses variables sont en interaction, di-cilement décelables par l'expertise. Pour ces dernières, les modèles graphiques ont été privilégiés (les arbres de décision en l'occurrence) en raison de leur facilité d'interprétation.

L'originalité de l'approche fondée sur les arbres de décision est la déni-tion d'une méthode de collaboradéni-tion entre modèles prédictifs, connaissances ontologiques et connaissances expertes. Des expérimentations, eectuées sur le problème de l'évolution des diérents types de vitamines au cours de la cuisson des pâtes alimentaires, ont permis de conrmer l'intérêt de ces mé-thodes. La méthode a été développée en collaboration avec Brigitte Charno-mordic (INRA UMR MISTEA) et Sébastien Destercke (CIRAD UMR IATE, puis CNRS Heudiasyc), ainsi que Joël Abécassis (INRA, UMR IATE) et Ber-nard Cuq (Supagro, UMR IATE) sur la question applicative. La conception et l'implémentation d'outils ont été réalisés au cours des stages de Noémie Aubry (ingénieur en nutrition) co-encadré avec Bernard Cuq, et d'Iyan John-son (ingénieur en cognitique), co-encadré avec Brigitte Charnomordic. Ils ont été poursuivis par Luc Menut (INRA UMR IATE).

La méthode de raisonnement par cas proposée a la spécicité de s'appuyer sur la notion de réconciliation de références. Habituellement les méthodes de réconciliation de références ont pour objectif de détecter que deux données diérentes se réfèrent à la même entité du monde réel. Dans cette étude il ne s'agit pas de détecter des données redondantes, mais des données simi-laires, dans le sens où elles sont issues d'un même scénario expérimental ; des variations peuvent exister, néanmoins ces données peuvent être considérées comme résultant d'un seul et même cas expérimental. Cette étude a été faite avec Fatiha Saïs et implémentée par Luc Menut.

(18)

Troisième thème : Argumentation pour l'aide à la décision

Par ailleurs, de nouvelles questions ont émergé de l'analyse des enjeux au sein d'une lière. En eet, la maîtrise de la qualité au sein des lières repose sur de nombreux critères (qualité environnementale, économique, fonction-nelle, sanitaire, etc.). Les objectifs de qualité s'appuient sur diérents acteurs, techniciens, gestionnaires, associations de professionnels, utilisateurs, collec-tivités publiques, etc. Les buts des diérents acteurs d'une lière pouvant être divergents, la résolution de problèmes d'arbitrage se pose en vue de la prise de décision. Celle-ci peut se construire sur le mode du compromis (so-lution satisfaisant, au moins partiellement, tous les acteurs), ou privilégier certains acteurs, en fonction des priorités du décideur. Cette problématique d'arbitrage, novatrice pour l'analyse de lière, pose également des problèmes fondamentaux. Les méthodes d'arbitrage s'appuient sur les travaux en ar-gumentation et en décision. Elles visent à mettre en place un système de décision argumentée permettant l'analyse des enjeux d'une lière et la re-cherche de solutions. En particulier, les mécanismes d'argumentation, qui permettent d'introduire des éléments d'explication dans la prise de décision, sont peu abordés dans la littérature concernant la décision multicritère. La conduite de ce travail a été amorcée par l'étude de la représentation de points de vue dans une ontologie, puis dans des connaissances représentées par des graphes conceptuels. Il a ensuite été développé dans le cadre de la thèse de Jean-Rémi Bourguet (soutenue n 2010), apportant les résultats suivants :

• la dénition d'un cadre formel pour la décision multicritère argumentée

multi-agents ;

• l'application à un cas d'étude concernant la recommandation du PNNS

de favoriser un pain de consommation courante plus complet ;

• une représentation dans le modèle des graphes conceptuels.

Ces travaux ont été engagés en partenariat avec Leïla Amgoud et Henri Prade de l'équipe ADRIA de l'IRIT, qui fait référence dans ce domaine, et en collaboration avec Marie-Laure Mugnier (LIRMM, GraphIK). Ils ont donné lieu à plusieurs publications impliquant également Jérôme Fortin et Madalina Croitoru (LIRMM, GraphIK), Joël Abécassis et Patrice Buche (INRA, UMR IATE). Une partie des résultats a été implémentée au cours du stage d'Ahmed Chadli (master 2 en informatique) que j'ai encadré. J'ai également assuré la responsabilité scientique, sous la direction de Marie-Laure Mugnier et en collaboration avec Leila Amgoud (IRIT), de la thèse de Jean-Rémi Bour-guet Contribution aux méthodes d'argumentation pour la prise de décision.

(19)

Application à l'arbitrage au sein de la lière céréalière. Cette thèse a été soutenue en décembre 2010.

1.3 Organisation du mémoire

Ce mémoire présente un choix de travaux de recherche. La problématique de l'aide à la décision pour les lières agroalimentaires est déclinée autour de quatre contributions.

Le chapitre 2 traite de la coopération de connaissances hétérogènes : des dires d'experts et des données expérimentales. Il présente la génération d'une ontologie ainsi qu'un mécanisme de confrontation entre les deux types de connaissances. Le chapitre 3 présente une approche collaborative et itérative pour concevoir des modèles prédictifs pertinents. Elle associe une ontolo-gie, une méthode d'apprentissage (arbres de décision en l'occurrence) et des retours de la part des experts. Le chapitre 4 décrit un modèle de décision ar-gumentée appliqué à l'analyse d'une polémique dans une politique de santé publique. Le chapitre 5 propose une méthode d'aide à la décision en ingénie-rie inverse, c'est-à-dire guidée par les objectifs en aval de la lière. Elle est illustrée dans le cas de la lière boulangère.

Ces travaux permettent de dégager des perspectives qui sont discutées en conclusion dans le chapitre 6. Le détail des publications, des projets, des encadrements et autres responsabilités collectives est donné dans les annexes.

(20)

Chapitre 2

Intégration de formalismes

hétérogènes

Ce travail se situe dans le contexte général de la construction et de la va-lidation de l'expertise d'un domaine. Il vise la coopération de deux types de connaissances, hétérogènes par leur niveau de granularité et par leur forma-lisme : des dires d'experts représentés dans le modèle des graphes conceptuels et des données expérimentales représentées dans le modèle relationnel. Nous proposons d'automatiser deux étapes : d'une part, la génération d'une on-tologie simple (partie terminologique du modèle des graphes conceptuels) guidée à la fois par le schéma relationnel et par les données qu'il contient ; d'autre part, l'évaluation de la validité des dires d'experts au sein des don-nées expérimentales. La méthode que nous introduisons pour cela est fondée sur l'utilisation de graphes conceptuels patrons annotés.

Ces résultats ont été implémentés au sein d'une application concrète concernant le contrôle de la qualité alimentaire. Ils ont été publiés dans (Tho-mopoulos et collab., 2007, 2008). La méthode a été dénie en collaboration avec Jean-François Baget et Ollivier Haemmerlé. Le cas applicatif a été étu-dié avec Joël Abécassis et Bernard Cuq. L'implémentation a été réalisée par Clément Molla, Amine Lakhoua et Samira Rezgane.

(21)

2.1 Problématique

La coopération de connaissances hétérogènes a été très étudiée sous un aspect particulier : l'intégration de sources hétérogènes, coopérant pour ré-pondre à une requête de l'utilisateur, chaque source étant en mesure de four-nir une partie des réponses ou encore des réponses partielles. Elle continue à être une problématique essentielle, notamment dans le cadre de la mise en correspondance d'ontologies, du fait du nombre croissant de sources d'infor-mations disponibles via le Web. La problématique qui nous intéresse ici est toutefois diérente. En eet, alors qu'en intégration de sources hétérogènes les diérentes sources d'information ont le même rôle (la mise à disposition d'information en vue de répondre à une requête), ici les diérents types de connaissances n'ont pas le même statut : une des sources contient des connais-sances synthétiques, d'un niveau de granularité général et considérées comme appréhendables par l'humain, elle fournit des règles génériques sans couvrir tous les cas particuliers possibles ; les autres sources, au contraire, sont d'un niveau de granularité très n, précises et ables, mais trop circonstanciées pour être directement exploitables par l'humain.

Dans cette étude, les formalismes utilisés pour les diérentes sources sont eux aussi hétérogènes, adaptés au type de connaissance représenté :

1. des dires d'experts, connaissances à caractère générique, découlant de l'expérience des spécialistes du domaine et décrivant les mécanismes communément admis régissant ce domaine. Ces connaissances sont re-présentées sous la forme de règles dans le modèle des graphes concep-tuels. Nous développons dans ce chapitre la justication du choix de ce modèle de représentation des connaissances ;

2. des données expérimentales, issues de la littérature internationale du domaine. Elles sont représentées dans le modèle relationnel. Ces don-nées nombreuses décrivent avec précision et de façon chirée des expé-riences réalisées pour approfondir la connaissance du domaine et leurs résultats. Ces résultats peuvent ou non vérier les connaissances ap-portées par les dires d'experts.

La coopération des deux types de connaissances permet de tester la vali-dité des dires d'experts sur les données expérimentales, et à plus long terme de consolider l'expertise du domaine.

(22)

ré-percussions sur les vocabulaires utilisés, sont, d'une part, que les graphes conceptuels représentent des connaissances d'un caractère beaucoup plus gé-nérique que celles de la base de données relationnelle, d'autre part, que le modèle des graphes conceptuels comporte une partie ontologique (vocabu-laire hiérarchisé constituant le support du modèle) contrairement au modèle relationnel. Nous proposons dans un premier temps la génération d'une on-tologie, guidée par les informations de structure et les données du modèle relationnel, qui en l'occurrence préexistent aux connaissances exprimées sous forme de graphes conceptuels. Les dicultés rencontrées sont les suivantes : comment identier, au sein du schéma relationnel et/ou des données qu'il contient, les concepts que l'on peut considérer comme pertinents pour un niveau de granularité plus général, celui des dires d'experts ? Comment hié-rarchiser les diérents concepts identiés, alors que le modèle relationnel ne prend pas explicitement en compte la relation sorte de ? Peut-on aller plus loin dans la suggestion de concepts complémentaires pertinents ? La métho-dologie proposée est semi-automatique, elle nécessite une validation experte. Dans un deuxième temps, nous introduisons un processus permettant de tester la validité des dires d'experts au sein des données expérimentales, c'est-à-dire de réaliser l'interrogation d'une base de données relationnelle par un système dans le formalisme des graphes conceptuels. Cette étape est automa-tique. Outre la dénition de l'évaluation de la validité des dires d'experts, le problème posé est celui de l'automatisation de la construction de requêtes SQL à partir de graphes conceptuels dont la forme et le contenu peuvent varier. Le processus que nous proposons s'appuie sur l'utilisation de graphes conceptuels patrons annotés.

Ce travail est illustré par une application concrète dans le domaine de la qualité alimentaire mené par l'INRA (Institut National de la Recherche Agronomique) de Montpellier.

Le chapitre est organisé de la façon suivante. La partie 2.2 rappelle un certain nombre de notions préliminaires concernant le modèle des graphes conceptuels. La partie 2.3 décrit la génération d'une ontologie, guidée par les informations de structure et les données du modèle relationnel. La partie 2.4 présente la méthode d'évaluation de la validité des dires d'experts au sein des données expérimentales. La partie 2.5 est consacrée à l'application des résultats au sein d'un projet concernant le contrôle de la qualité alimentaire. Enn la partie 2.6 conclut et présente quelques perspectives.

(23)

2.2 Notions préliminaires

Nous rappelons ici la syntaxe et la sémantique de deux formalismes de la famille des graphes conceptuels (Sowa, 1984) : les graphes conceptuels simples et leur extension aux règles. La formalisation adoptée ici est proche de celle de (Mugnier, 2000), que le lecteur pourra consulter pour plus de précisions.

Le choix de ce formalisme pour modéliser les connaissances d'experts est justié par les considérations suivantes, développées dans (Bos et collab., 1997) et (Genest, 2000) :

• l'aspect graphique (diagrammatique) des connaissances représentées

rend la modélisation plus simple par l'expert, et son apprentissage du lan-gage plus rapide ;

• les raisonnements sont calculés par des opérations de graphes et sont

donc, eux aussi, représentables graphiquement, ce qui permet à l'expert d'aner sa modélisation en visualisant de façon intuitive les conséquences de celle-ci.

2.2.1 Les graphes conceptuels simples

Les graphes conceptuels simples forment un langage correspondant au fragment positif, conjonctif, existentiel de la logique du premier ordre. Il a été introduit (Sowa, 1976) comme une interface graphique pour les bases de données relationnelles.

Syntaxe Dans ce langage, un vocabulaire encode les connaissances du ni-veau ontologique (des noms de classes et leur hiérarchie), tandis que les graphes encodent des connaissances factuelles (les instances et les relations entre elles).

Dénition 2.1 Un vocabulaire est un n-uplet V = ((TC, ≤C), (T1, ≤1), . . . ,

(Tk, ≤k)) d'ensembles nis, partiellement ordonnés et deux à deux disjoints

où les éléments de TC sont des types de concepts et les éléments de Ti sont

des types de relations d'arité i. Nous nous donnons également deux ensembles disjoints M et V de marqueurs individuels et de noms de variables.

Dénition 2.2 Un graphe conceptuel simple déni sur un vocabulaire V est un quintuplet G = (C, R, γ, τ, µ) où C est un ensemble de concepts, R est

(24)

un ensemble de relations, γ : R → C+ _{associe à chaque relation un tuple de}

concepts (ses arguments), dont la taille est le degré de la relation ; τ associe à chaque concept de C un élément de TC et à chaque relation de degré i de R

un élément de Ti (leur type) ; µ associe à chaque concept c de C un marqueur

individuel de M (c est dit individuel) ou un nom de variable de V (c est dit générique).

Un vocabulaire est représenté par les diagrammes de Hasse de ses ordres partiels. Nous représentons un graphe simple de la façon suivante : chaque concept c est représenté par un rectangle à l'intérieur duquel est inscrite la chaîne τ(c) : µ(c) ; chaque relation r est représentée par un ovale contenant la chaîne τ(r) ; si c est le i-ième argument de la relation r, on dessine un trait entre les représentations de c et r, et on inscrit i à côté de ce trait. Ainsi, la gure 2.1 représente le graphe simple déni par : G = (C, R, γ, C, R)

où : C = {c1, c2, c3, c4}; R = {r1, r2, r3}; γ(r1) = (c1, c2), γ(r2) = (c1, c3),

γ(r3) = (c3, c4); τ(c1) =Aliment, τ(c2) =Cuisson à l'eau, τ(c3) = Vitamine,

τ (c4) =Teneur, τ(r1) = subit, τ(r2) = contient, τ(r3) = caractérisé ; µ(c1) =

Frekeh, µ(c2) = x1, µ(c3) = x2, µ(c4) = x3 (où Frekeh est un marqueur

individuel, et x1, x2, x3 sont des noms de variables).

Figure 2.1 Un graphe conceptuel simple G

Sémantique L'opérateur Φ associe une formule logique à un vocabulaire ou à un graphe simple. Le problème de déduction entre graphes simples peut ainsi être déni par le problème de déduction des formules logiques associées. Ces formules sont obtenues de la façon suivante :

Interprétation d'un vocabulaire Soient t et t0 _{deux types de relations}

d'arité i. On note φ(t, t0_{) = ∀x}

1. . . ∀xi(t(x1, . . . , xi) → t0(x1, . . . , xi)).

(25)

telle que t ≤ t0_{, des formules φ(t, t}0₎_{. Notons que les types de concepts sont}

interprétés comme des types de relations d'arité 1.

Interprétation d'un graphe A chaque concept c nous associons l'atome φ(c) = τ (c)(µ(c)), où µ(c) est une constante si c est individuel, une va-riable sinon ; et à chaque relation r telle que γ(r) = (c1, . . . , ci), l'atome

τ (r)(µ(c1), . . . , µ(ci)). Notons φ(G) la conjonction des φ(x) pour tous les

concepts et relations de G. Alors Φ(G) est la fermeture existentielle de φ(G). Par exemple, la traduction par Φ du graphe de la gure 2.1, représentant l'information le frekeh subit une cuisson à l'eau et contient une vitamine caractérisée par une certaine teneur, est : ∃x1 ∃x2 ∃x3 (Aliment(Frekeh) ∧ Cuisson à l'eau(x1) ∧ Vitamine(x2) ∧ Teneur(x3) ∧ subit(Frekeh, x1) ∧ contient(Frekeh, x2) ∧ caractérisé(x2, x3)).

Le problème d'inférence dans les graphes conceptuels simples consiste à savoir si on peut déduire un graphe Q (répondre à la requête Q) à partir d'une base de connaissances constituée d'un graphe G, ou d'un ensemble de graphes (la base de faits) et d'un vocabulaire.

Dénition 2.3 Soient G et Q deux graphes simples dénis sur un vocabu-laire V. On dit que Q est conséquence de G et on note G |= Q ssi Φ(V), Φ(G) |= Φ(Q).

Inférences Le calcul de conséquence entre graphes simples est ecacement réalisé par une sorte d'homomorphisme de graphes étiquetés appelé projec-tion.

Dénition 2.4 Soient G = (CG, RG, γG, τG, µG))et Q = (CQ, RQ, γQ, τQ, µQ)

deux graphes simples dénis sur un vocabulaireV. Une projection de Q dans G est une application π de CQ dans CG telle que :

• ∀c, c0 _{∈ C} Q, µQ(c) = µQ(c0) ⇒ π(c) = π(c0); • ∀c ∈ CQ, c est individuel ⇒ µG(π(c)) = µQ(c); • ∀c ∈ CQ, τG(π(c)) ≤C τQ(c); • ∀r ∈ RQ, avec γ(r) = (c1, . . . , ck), ∃r0 ∈ RGtq γ(r0) = (π(c1), . . . , π(ck)) et τ(r0_{) ≤} kτ (r).

Théorème 2.1 (Mugnier, 2000) Soient G et Q deux graphes simples dénis sur un vocabulaire V, où G est sous forme normale1_{. Il existe une projection}

1. Un graphe simple est sous forme normale quand tous ses concepts ont un marqueur distinct. Tout graphe peut être transformé en un graphe normal équivalent.

(26)

de Q dans G ssi G |= Q.

2.2.2 Règles de graphes conceptuels

Syntaxe Les règles (Salvat, 1998) forment une extension des graphes concep-tuels dans laquelle on ajoute à une base de connaissance des règles de la forme "si A alors B" où A et B sont deux graphes simples. L'ajout de règles aug-mente fortement l'expressivité du langage.

Dénition 2.5 Une règle (de graphe conceptuel simple) dénie sur un vo-cabulaire V est une paire R = (H, C) de graphes simples dénis sur V. H est l'hypothèse de R et C sa conclusion.

Une règle est représentée graphiquement par les deux graphes qui la com-posent, séparés par un symbole d'implication allant de l'hypothèse vers la conclusion, comme dans la gure 2.2 qui représente la règle : si un aliment subit une cuisson à l'eau et contient une vitamine caractérisée par une cer-taine teneur, alors cette teneur montre une diminution.

Aliment: x1 Cuisson à l'eau: x2

Vitamine: x3 Teneur: x4 subit contient caractérisé 2 1 1 1 2 2

Teneur: x4 1 montre 2 Diminution: x5

==>

Figure 2.2 Une règle de graphe conceptuel simple R

Sémantique L'opérateur Φ est étendu an de traduire les règles. Si R = (H, C) est une règle, alors Φ(R) = ∀x1. . . ∀xi(φ(H) → (∃y1. . . ∃yjφ(C))), où

les xp sont les noms de variables de H et les yq sont les noms de variables de

C qui ne sont pas dans H.

La formule logique associée à la règle R de la gure 2.2 est Φ(R) = ∀x1 ∀x2 ∀x3 ∀x4 ((Aliment(x1) ∧ Cuisson à l'eau(x2) ∧ Vitamine(x3) ∧ Teneur(x4) ∧ subit(x1, x2) ∧ contient(x1, x3) ∧ caractérisé(x3, x4)) → (∃ y1 (Teneur(x4) ∧ Diminution(y1) ∧ montre(x4, y1)))).

Dénition 2.6 Soient G et Q deux graphes simples dénis sur un vocabu-laire V et R = {R1, . . . , Rk} un ensemble de règles dénies sur V. On dit que

(27)

Q est conséquence de G et R et on note G, R |= Q ssi Φ(V), Φ(G), Φ(R1),

. . . , Φ(Rk) |= Φ(Q).

Inférences Le calcul de déduction en présence de règles peut se faire en marche avant ou en marche arrière (voir Baget et Salvat (2006) pour une pré-sentation de ces deux méthodes). Nous présentons ici brièvement la marche avant.

Dénition 2.7 Une règle R = (H, C) est dite applicable à un graphe simple G s'il existe une projection π de H dans G. Dans ce cas, appliquer R à G suivant π consiste à faire l'union disjointe2 _{de G et de sp(π, C), où sp(π, C)}

est obtenu en remplaçant le marqueur de tout concept c de C identique à celui d'un sommet c0 _{de H par le marqueur de π(c}0

); puis à mettre sous forme normale le graphe obtenu.

Théorème 2.2 (Salvat, 1998) Soient G et Q deux graphes simples dénis sur un vocabulaire V, et R un ensemble de règles dénies sur V. Il existe une séquence nie d'applications de règles de R qui transforme G en un graphe simple G0 _{tq G}0 _{|= Q} _{ssi G, R |= Q.}

2.3 Génération d'une ontologie

Nous nous situons dans le cas où un recueil de données expérimentales détaillées représentées dans le modèle relationnel préexiste à l'expression de connaissances expertes d'un niveau de granularité plus général. L'objectif est d'automatiser autant que possible la génération d'une ontologie simple, constituant l'ensemble des types de concepts de la partie terminologique du modèle des graphes conceptuels, à l'aide du schéma et des données relation-nels existants.

Dans cette partie, après une présentation de travaux proches, nous dé-crivons trois étapes de la génération de l'ontologie : l'identication de types de concepts de haut niveau, la hiérarchisation de ces types de concepts, la proposition de types de concepts complémentaires.

2. L'union disjointe de deux graphes est le graphe dont le dessin est la juxtaposition de leur dessin.

(28)

2.3.1 Travaux proches

Cette problématique nécessitant une expertise importante, une méthode totalement automatisée pour la génération d'une ontologie (Pernelle et col-lab., 2001) est exclue. Notre objectif est diérent de l'apprentissage de concepts telle qu'abordée par les approches FCA (Formal Concept Analysis, voir Tilley et collab. (2005) ou ILP (Inductive Logic Programming, voir Muggleton et Raedt (1994)), qui s'appuient sur l'existence de propriétés communes à des sous-ensembles de données pour les regrouper en de nouveaux concepts. Ici l'objectif premier est d'identier et de hiérarchiser des concepts pertinents pour l'expression de connaissances expertes, parmi ceux déjà présents dans les données de façon peu explicite et avec une structure inappropriée.

La recherche d'une structure hiérarchique, en particulier d'une structure arborescente, dans des données semi-structurées (Termier et collab., 2002) ou non structurées (Kietz et collab., 2000; Folch et collab., 2004) a été étu-diée, notamment dans le cadre relativement récent de l'échange et de l'in-terrogation de données sur le Web. En revanche, la recherche d'une nouvelle structure pour des objectifs spéciques dans des données déjà structurées, qui est le but visé ici, est peu courante. Des travaux proches sont ceux qui touchent la question de la cohabitation entre vocabulaires hétérogènes, tels que la transformation de modèles (Sendall et Kozaczynski, 2003) et l'aligne-ment d'ontologies (Euzenat et collab., 2004). En alignel'aligne-ment d'ontologies, des correspondances sont établies entre des vocabulaires préexistants, conçus in-dépendamment les uns des autres, tandis que dans cette étude l'ontologie est dérivée des données.

Des graphes conceptuels aux bases de données La correspondance entre graphes conceptuels simples et requêtes conjonctives en bases de don-nées est bien connue (Kolaitis et Vardi, 1998; Mugnier, 2000). Soit V un vocabulaire, et G et Q deux graphes simples sur V. G et Q sont transformés (en G0 _{et Q}0_{) de la façon suivante : les types de concepts sont transformés}

en relations unaires, et chaque concept de type t devient un concept sans type, incident à une relation unaire typée t. Pour chaque relation r de type t, pour chaque supertype t0 de t, nous rajoutons une nouvelle relation r0 de type t0 _{telle que γ(r) = γ(r}0₎_{. Il s'ensuit que G |=}

V Q ssi Φ(G0) |= Φ(Q0)

(nous n'avons plus besoin des formules traduisant le support, toutes leurs conséquences ont été traduites dans les graphes). Puisque Φ(G0₎ _{et Φ(Q}0₎

(29)

sont des formules positives conjonctives, nous pouvons dénir B comme les tables ayant comme formule logique associée Φ(G0₎ _{et A comme la requête}

ayant comme formule logique associée Φ(Q0

). Nous avons ainsi G |=V Q ssi il

existe une réponse à A dans B. Cependant, cette correspondance repose sur une identication entre le vocabulaire des graphes conceptuels et le schéma de bases de données, hypothèse trop forte comme nous le verrons par la suite. Le système Sym'Previus (Haemmerlé et Carbonneill, 1996) proposent d'ajouter une couche graphes conceptuels à une base de données relation-nelle (BDR) préexistante. Cette couche sert d'interface en vue de permettre une complétion des requêtes se fondant sur la sémantique des attributs pré-sents dans la BDR. Chaque attribut de la BDR est intégré à l'ensemble des types de concepts (sous des types de concepts génériques qui spécient le type de la donnée au sens SQL du terme). D'autres types de concepts sont ajoutés manuellement à cet ensemble an de disposer de connaissances supplémen-taires qui sont exploitées par spécialisation ou généralisation au moment de l'expression des requêtes dans le modèle des graphes conceptuels.

Le système Sym'Previus a été développé dans le cadre d'un projet de recherche français sur un outil de prévention du risque microbiologique dans les aliments (Haemmerlé et collab., 2006). Cet outil repose sur trois bases distinctes, ajoutées au système successivement au fur et à mesure du déve-loppement du projet : une base de données relationnelle, une base de graphes conceptuels et une base de données XML. Les trois bases sont interrogées si-multanément et uniformément par le biais d'une interface unique, qui se fonde sur une même ontologie.

Cette ontologie a été construite manuellement, au moment de l'ajout de la base de graphes conceptuels au système. Un schéma de base de données relationnelle ainsi que ses données préexistaient. L'ensemble des attributs correspondant à des entités signicatives de l'application a été partitionné en deux : les attributs dont les valeurs pouvaient être hiérarchisées selon la relation sorte de (substrat, germe pathogène...) et les attributs dont les valeurs étaient des ensembles intrinsèquement plats (les noms d'auteurs de publications, par exemple). Tous les noms d'attributs signicatifs ont été ajoutés à l'ontologie Sym'Previus en tant que types de concepts. Les valeurs apparaissant dans les colonnes correspondant à des attributs à valeurs hié-rarchisées ont été insérés en tant que sous-types de concepts dans l'ontologie. Leur positionnement précis dans la hiérarchie a été réalisé manuellement par

(30)

les experts.

2.3.2 Identication de types de concepts de haut niveau

Dans cette étape, l'objectif est d'identier des types de concepts de haut niveau (niveau de granularité général). Nous identions deux types d'entités, que nous considérons comme susceptibles de correspondre à des types de concepts de haut niveau pertinents :

• celles dont les occurrences portent un nom, c'est-à-dire qui ont un

attri-but nom (ou encore intitulé, libellé, contenant la chaîne nom, etc.). Nous supposons en eet que ces entités sont de caractère plus général, par opposition aux entités secondaires correspondant à des informations plus détaillées, dont les occurrences ne sont pas nommées mais identiées uni-quement par des identiants numériques. Ce sont les premières qui sont utiles pour l'expression des dires d'experts : ceux-ci manipulent des notions désignées par un nom et non des informations circonstantielles détaillées ;

• celles qui peuvent être subdivisées en sous-catégories. Nous cherchons

pour cela les entités qui ont un attribut catégorie (ou encore famille, type, etc.). Nous supposons en eet que ces entités, du fait de la classica-tion engendrée par leurs sous-catégories, fournissent des types de concepts pertinents pour l'ontologie.

La frontière entre les deux cas n'est pas absolue et est très dépendante du type de modélisation. Par exemple, l'attribut nom d'une entité peut par-faitement avoir pour valeurs des sous-catégories de l'entité considérée. Ainsi dans le cas de notre application, l'entité Constituant nutritionnel a un attri-but nom destiné à prendre des valeurs telles que Vitamine, Lipide, etc., qui ne désignent pas à proprement parler des instances, mais des familles de constituants nutritionnels. Si l'on prend un exemple très courant sortant du cadre de notre application, une entité Personne ayant un attribut nom peut cacher des utilisations diérentes : le plus souvent, le nom d'une personne (Dupont par exemple) désigne un individu particulier (même si elle n'en est pas l'identiant) ; mais si l'on se situe dans le contexte d'une application en généalogie, Dupont peut désigner une branche d'individus.

Du fait de cette proximité, les deux cas seront traités de façon homogène par la suite. Par souci de simplication, nous n'indiquerons pas systématique-ment la liste complète des attributs considérés (nom, catégorie, famille, etc.) mais nous les désignerons sous le terme d'attributs indicateurs. Ces

(31)

at-tributs sont de type chaîne de caractères.

Dénition 2.8 On appelle attribut indicateur tout attribut dont le nom -gure dans une liste prédénie de termes déclarés propres à exprimer la déno-mination ou la classication. Un tel attribut est considéré comme appartenant à une entité d'un niveau de granularité général.

Remarque 2.1 Ce processus permet de proposer des types de concepts de haut niveau pertinents. Etant donnée la variabilité des modélisations, il né-cessite une vérication experte.

Utilisation du schéma relationnel Dans un premier temps, nous nous appuyons sur le schéma de la base de données relationnelle. D'un point de vue ingénierie des bases de données, après une modélisation à l'aide par exemple du modèle entité-association, on sait qu'une relation (ou table) du schéma de la base de données relationnelle correspond :

• soit à une entité du domaine représenté. Elle en comporte alors les

attri-buts. Elle peut également comporter les identiants d'autres entités (avec lesquelles elle était liée par une association), plus rarement des attributs d'association ;

• soit à une association (de type plusieurs à plusieurs) entre entités. Elle

comporte alors comme attributs leurs identiants et les attributs d'asso-ciation.

La table obtenue porte généralement le nom de l'entité ou de l'association correspondante.

An d'identier les types de concepts de haut niveau, nous faisons les hypothèses simplicatrices suivantes :

1. les entités, plutôt que les relations, véhiculent les principaux concepts du domaine représenté. Les types de concepts de haut niveau sont donc à rechercher dans les noms d'entités, autrement dit parmi les noms de tables du schéma relationnel ;

2. le cas d'une association ayant un attribut indicateur est considéré comme exceptionnel.

Dénition 2.9 Sont considérés comme types de concepts de haut niveau issus du schéma relationnel les noms des tables qui comportent (au moins)

(32)

un attribut indicateur. Les types des concepts de haut niveau ainsi identiés sont ajoutés à l'ontologie.

Exemple 2.1 Dans le cas de notre application, des exemples de types de concepts de haut niveau issus du schéma sont les suivants : Aliment, Chan-gement, Constituant, Méthode, Opération, Propriété, Variable, ... En re-vanche, d'autres comme Valeur par défaut, Valeur expérimentale, etc., n'ont pas été considérés comme des types de concepts de haut niveau.

Utilisation des données relationnelles Dans un second temps, nous nous intéressons aux valeurs prises par les attributs indicateurs. Nous avons fait l'hypothèse que les attributs indicateurs sont susceptibles de prendre pour valeurs des sous-catégories de l'entité à laquelle ils appartiennent. La prise en compte des données relationnelles permet par conséquent de proposer comme types de concepts de haut niveau les valeurs des attributs indicateurs. Leur organisation hiérarchique est précisée dans la partie 2.3.3.

Dénition 2.10 Sont considérés comme types de concepts de haut niveau issus des données les valeurs prises par les attributs indicateurs de la base de données. Les types des concepts de haut niveau ainsi identiés sont ajoutés à l'ontologie.

Exemple 2.2 Dans le cas de notre application, ont par exemple été dé-nis comme types de concepts de haut niveau issus des données les types de concepts suivants : Augmentation, Diminution, Protéine, Lipide, Vitamine, Vitamine B, Qualité, Teneur, ...

2.3.3 Hiérarchisation des types de concepts

Deux niveaux de hiérarchisation sont proposés :

• la hiérarchisation des types de concepts de haut niveau issus des

don-nées par rapport à ceux issus du schéma : la valeur prise par un attribut indicateur d'une table (type de concept de haut niveau issu des données) est considérée comme une spécialisation du type de concept portant le nom de cette table (type de concept de haut niveau issu du schéma). Par exemple, Vitamine est une spécialisation de Constituant nutritionnel ;

(33)

• la hiérarchisation des types de concepts de haut niveau issus des

don-nées entre eux : elle s'appuie sur l'inclusion des labels des types de concepts. Par exemple, Vitamine B (désignant la famille des vitamines B) est une spécialisation de Vitamine.

La dénition 2.11 résume les étapes 2.3.2 et 2.3.3, leur résultat est soumis à vérication experte.

Dénition 2.11 La génération d'une ontologie simple O à partir de la base de données relationnelle est réalisée de la façon suivante. Pour chaque table, de nom noté T, de la base de données, si la table T comporte au moins un attribut indicateur, alors :

• le type de concept (de haut niveau issu du schéma relationnel) T est

ajouté à O ;

• pour chaque attribut indicateur de T, prenant un ensemble de valeurs

v1, . . ., vn :

le type de concept (de haut niveau issu des données) vi, sous-type de T ,

est ajouté ;

si vi est inclus dans vj (i, j ∈ [1, n]), alors vj est un sous-type de vi.

Exemple 2.3 Par exemple dans le cas de notre application la table Consti-tuant comporte l'attribut indicateur nom_constiConsti-tuant, prenant pour valeurs Protéine, Lipide, Vitamine, etc.

Le type de concept (de haut niveau issu du schéma relationnel) Consti-tuant et les types de concepts (de haut niveau issus des données) Protéine, Lipide, Vitamine, Vitamine B sont ajoutés à O comme sous-types de Consti-tuant. Vitamine étant inclus dans Vitamine B, le type de concept Vita-mine B est sous-type de VitaVita-mine (voir gure 2.3).

(34)

2.3.4 Proposition de types de concepts complémentaires

La méthode proposée dans cette partie an de compléter l'ontologie par la suggestion de types de concepts supplémentaires pertinents, est spécique à la forme des connaissances expertes considérée dans l'application. Nous nous situons dans le cas suivant. Les connaissances expertes sont exprimées par des règles de la forme si (hypothèse) alors (conclusion). Plus précisément, il s'agit de règles de causalité exprimant une relation de cause à eet entre (i) un ensemble de conditions, décrit par l'hypothèse, interagissant entre elles pour produire (ii) l'eet qui en résulte, décrit par la conclusion.

Par exemple, une règle experte simple issue de l'application est la sui-vante : si un aliment, caractérisé par une teneur en vitamines, subit une cuisson à l'eau, alors cette teneur diminue. Elle est représentée par la règle de graphes conceptuels de la gure 2.2.

La nature des interactions existant entre les concepts apparaissant dans l'hypothèse n'est pas toujours bien connue des experts. En particulier, ces interactions peuvent être dues à l'interférence d'autres concepts qui ne sont pas nécessairement identiés et explicités. L'objectif de cette partie est de mettre en évidence certains de ces concepts. La méthode proposée est fondée sur la comparaison de descriptions textuelles des concepts apparaissant dans l'hypothèse.

En eet, les tables de la base de données relationnelle qui ont permis d'obtenir les types de concepts apparaissant dans l'hypothèse (cf. dénition 2.11) fournissent parfois des descriptions textuelles, contenues dans la valeur d'un attribut nommé par exemple description, commentaires, etc. Pour chaque paire de types de concepts apparaissant dans une même hypothèse de règle experte et pour lesquelles une telle description est disponible, la démarche proposée consiste à rechercher dans ces descriptions l'existence de termes communs.

Exemple 2.4 La comparaison des decriptions textuelles de certaines opéra-tions (Cuisson à l'eau, Cuisson vapeur, Hydratation, Séchage) avec les des-criptions textuelles de certains constituants (Son de blé, Fibre, Lipide, Vita-mine, Polyphénol) ont en commun le terme eau. En eet, ces opérations unitaires ont toutes un eet sur la teneur en eau (apport ou retrait d'eau) et ces constituants possèdent tous des sous-catégories ayant une anité parti-culière avec l'eau (solubilité ou absorption partiparti-culières). La mise en évidence du terme commun eau a conduit les experts à compléter, d'une part, par

(35)

l'ajout du type de concept Eau, d'autre part, par la spécialisation de types de concepts existants pour faire apparaître des catégories ayant une interaction particulière avec l'eau : ainsi Vitamine est spécialisé en Vitamine hydroso-luble (surtype, entre autres, de Vitamine B, qui est sohydroso-luble dans l'eau) et Vitamine liposoluble.

Les résultats obtenus sont nombreux et doivent être triés manuellement par l'expert.

La recherche de termes communs fait appel à des techniques de traitement de la langue naturelle, en particulier la suppression des mots creux (stop-words), l'homogénéisation des variations syntaxiques (tokenisation, lemma-tisation).

2.4 Evaluation de la validité des dires d'experts

Contrairement à la partie précédente (section 2.3) qui nécessite une in-tervention experte, la méthode présentée dans cette partie est automatique. L'objectif est de tester si les connaissances expertes exprimées sous forme de règles de graphes conceptuels sont valides au sein des données expérimen-tales de la base relationnelle. Un taux de validité de la règle testée est calculé similaire au support dans les règles d'association et les données faisant exception à la règle sont identiées et visualisées par l'utilisateur.

Dans cette partie, après une présentation des travaux existants, nous dé-nissons ce que nous entendons par l'évaluation de la validité d'une règle, introduisons les notions de patron et d'instance de règle, enn exposons le déroulement de la validation d'une instance de règle.

2.4.1 Problématiques proches

On peut distinguer deux formes de cohabitation entre une base de don-nées relationnelle et une base de connaissances dans le modèle des graphes conceptuels :

• il n'y a pas d'échange de données entre les deux modèles, en revanche

ceux-ci sont exploités en utilisant un formalisme commun (pivot) pour l'ex-pression des requêtes et/ou de l'ontologie du domaine. Le projet Sym'Pre-vius (Haemmerlé et collab., 2006) est un exemple d'application où le

(36)

forma-lisme pivot est un langage de requêtes inspiré du formaforma-lisme relationnel. Le cas inverse (interrogation d'une BD par des requêtes graphes conceptuels) est celui qui nous intéresse ici ;

• il y a échange de données entre les deux modèles. Ce cas se rencontre

par exemple : (i) s'il y a nécessité de migration de données vers l'un des deux formalismes jouant le rôle d'entrepôt. Ce cas a été envisagé, mais pas exploré, comme perspective au projet Sym'Previus, où le modèle des graphes conceptuels est utilisé comme formalisme de stockage provisoire et souple de données non prévues par le schéma relationnel ; (ii) si l'un des deux formalismes paraît plus adapté pour la résolution de certains types de problèmes, et que l'on fait le choix d'utiliser le formalisme le plus adapté à les traiter. Ce cas n'a pas fait l'objet de travaux à notre connaissance.

2.4.2 Calcul du taux de validité

Evaluer la validité d'une règle experte au sein des données expérimentales consiste à calculer la proportion de données satisfaisant à la fois l'hypothèse et la conclusion de cette règle, parmi celles qui en satisfont l'hypothèse. Si l'on note nH le nombre de données satisfaisant l'hypothèse et nH∧C le nombre

de données satisfaisant à la fois l'hypothèse et la conclusion, le taux de va-lidité V d'une règle est V = nH∧C

nH × 100, où nH et nH∧C sont le résultat de

requêtes SQL eectuant un comptage (select count) des données remplissant respectivement les critères de satisfaction de l'hypothèse et les critères de satisfaction de l'hypothèse et de la conclusion. Le problème qui se pose est celui de l'automatisation de la construction de ces requêtes.

2.4.3 Notions de patron de règle, d'instance de règle et

propriétés associées

Bien que les règles expertes puissent prendre des formes variables, il est possible de les regrouper en ensembles de règles qui suivent la même forme générale.

Exemple 2.5 Les règles expertes représentées par les gures 2.2 et 2.4 sont de la même forme.

La forme générale d'un ensemble de règles expertes peut elle-même être représentée par une règle, appelée patron de règle. Sa structure est identique

(37)

Aliment: x1 Fermentation: x2 Minéral: x3 Teneur: x4 subit contient caractérisé 2 1 1 1 2 2

Teneur: x4 1 montre 2 Augmentation: x5

==>

Figure 2.4 Exemple de règle experte de même forme que celle de la gure 2.2

à celle des règles expertes de cet ensemble, mais ses sommets concepts sont plus généraux que ceux des règles expertes de l'ensemble. Autrement dit, chacune des règles expertes de l'ensemble a un graphe hypothèse et un graphe conclusion qui sont des spécialisations (par restriction des étiquettes) de ceux du patron de règle. Ces règles sont appelées instances de règle. Les graphes hypothèse et conclusion du patron de règle se projettent donc dans ceux de chacune de ses instances.

Exemple 2.6 Les règles des gures 2.2 et 2.4 sont des instances du patron de règle de la gure 2.5. Aliment: x1 Opération: x2 Constituant: x3 Propriété: x4 subit contient caractérisé 2 1 1 1 2 2

Propriété: x4 1 montre 2 Changement: x5

==>

Figure 2.5 Exemple de patron de règle

Le niveau de généralité des types de concepts utilisés dans un patron de règle n'est pas quelconque : il s'agit de concepts de haut niveau issus du schéma relationnel. Au contraire, les types de concepts utilisés dans une instance de règle peuvent être des concepts de haut niveau issus des don-nées (les marqueurs peuvent de plus être individuels). Cette particularité est essentielle pour le déroulement de la validation d'une instance de règle. Dénition 2.12 Un patron de règle est une règle, dans le formalisme des graphes conceptuels, dont les concepts ont pour types des types de concepts de haut niveau issus du schéma relationnel et dont les marqueurs sont géné-riques. Une instance de règle est une règle, dans le formalisme des graphes

(38)

conceptuels, obtenue par restriction des étiquettes des sommets concepts d'un patron de règle donné. L'instance de règle est dite conforme à ce patron.

En conséquence, les types de concepts apparaissant dans un patron de règle fournissent une liste de noms de tables de la base de données (les concepts de haut niveau issus du schéma). L'hypothèse (respectivement, la conclusion) d'un patron de règle peut être interprétée, au sein de la base de données, comme la formule d'une requête permettant de sélectionner les don-nées satisfaisant l'hypothèse (respectivement, la conclusion). Cette formule fait intervenir les tables apparaissant comme types de concepts dans l'hy-pothèse (respectivement, la conclusion) du patron de règle. Cette formule ne fait que spécier un schéma de requête. Elle n'est pas contrainte pas des critères de sélection particuliers. De tels critères n'apparaîtront que lors du traitement des instances de règles, présenté en 2.4.4.

Dénition 2.13 Soit H l'hypothèse d'un patron de règle. Soit Q une re-quête sur la base de données relationnelle permettant de sélectionner les don-nées satisfaisant H. Q s'écrit en termes de calcul relationnel sous la forme {T |F (T )}, où F est une formule, T une variable n-uplet de F et F (T ) une évaluation de F . La réponse à la requête Q sera un ensemble de n-uplets {t|F (t) vraie}. F est construite par la conjonction des formules suivantes.

• Formules atomiques associées aux concepts de H : Soit s_c₁, . . . , scn les

concepts de H, de types c1, . . . , cn (ce sont des types de concepts de haut

niveau issus du schéma relationnel et donc des tables de la base de don-nées relationnelle). Les concepts de H étant génériques, chaque concept sci

fournit la formule atomique : ∃xi, ci(xi).

• Formules associées aux relations de H : Soit sr un sommet relation de

H avec γ(sr) = (sck, . . . , scl). Deux cas de gure peuvent se présenter :

le schéma de Q ne fait pas intervenir d'autres tables que celles présentes dans H pour joindre les tables ck, . . . , cl. Chaque concept sck, . . . , scl

de γ(sr) fournit au moins une formule atomique3 de la forme : xi.ai =

Xi, où ai désigne un attribut de la table ci et Xi une constante ou une

expression xj.aj (j ∈ [k, l], aj attribut de cj).

le schéma de la requête Q fait intervenir d'autres tables que celles pré-sentes dans H pour joindre les tables ck, . . . , cl. Soit tm, . . . , tp ces tables.

3. Ces formules atomiques ne sont pas nécessairement distinctes de celles fournies par les autres voisins de sr, par exemple un voisin peut fournir xi.ai = xj.aj et un autre