• Aucun résultat trouvé

De l'état de l'art que nous venons de dresser il est possible de faire ressortir les traits communs partagés par les diverses techniques introduites et ainsi de dénir une métho-dologie générique d'évaluation des risques. Celle-ci peut être décomposée en cinq phases :

1. Identication des facteurs élémentaires de risque (manuelle ou automatique) 2. Évaluation de ces facteurs (données chirées disponibles ou jugements d'experts) 3. Construction d'un modèle reliant les diérents facteurs au risque global (agrégation

ou apprentissage automatique)

4. Application du modèle ⇒ évaluation du risque

5. Synthèse claire des résultats pour préparer la gestion de risque

Sans chercher à tendre vers l'exhaustivité, nous avons essayé, au travers de la présenta-tion de quelques-unes des principales méthodes d'évaluaprésenta-tion des risques, d'en dégager les caractéristiques essentielles, du moins au regard de notre intérêt pour l'aide à la décision. Le tableau1.2récapitule l'ensemble de ces caractéristiques pour les deux types d'approches que nous avons distingués.

 Les approches qualitatives visent à attribuer une appréciation qualitative aux deux dimensions principales du risque : incertitude et sévérité. Elles présentent l'in-térêt d'intégrer l'expertise humaine dans le processus d'estimation, bénéciant ainsi de l'expérience de spécialistes. De ce fait elles peuvent être appliquées quelle que soit la quantité de données dont on dispose pour eectuer l'analyse de risque. Elles pro-duisent également des résultats clairs qui permettent une bonne compréhension de la situation, qui va de paire avec l'identication de leviers d'actions dans une optique de prévention.

En revanche, le recours à l'expertise présente des contre-parties et non des moindres : la subjectivité de l'analyse et le nombre limité d'informations qui peuvent être prises en compte du fait de la saturation des capacités cognitives des experts. De plus de nombreux spécialistes doivent travailler ensemble, ce qui est long, coûteux et exige la mise en place d'un protocole strict de recueil de jugements et d'agrégation de ces jugements.

 Les approches quantitatives se focalisent sur la modélisation quantitative du risque, cherchant à déterminer la relation fonctionnelle qui le lie à un certain nombre de facteurs élémentaires de risque. Elles nécessitent de disposer de bases de don-nées importantes, ce qui peut poser problème. Du fait de l'automatisation de tout ou partie du processus d'estimation, cette faiblesse devient cependant un avantage lorsque de telles bases sont accessibles. Elles peuvent tenir compte de toute l'informa-tion disponible et fournir ainsi des estimal'informa-tions de risque robustes et  objectives . Cependant nous avons vu que l'automatisation, si elle permet le traitement d'un plus grand volume de données, s'accompagne d'une perte de lisibilité des modèles construits.

Au vu du tableau récapitulatif1.2, il apparaît que les deux méthodes sont plus ou moins adaptées en fonction de la quantité de données disponibles et de la part que l'on souhaite accorder à la subjectivité. Sur la gure1.7, qui précise le positionnement des deux approches selon ces deux axes, on peut observer qu'il existe un certain nombre d'applications pour lesquelles les deux approches sont envisageables.

1.3. COMPLÉMENTARITÉ DES DEUX APPROCHES 29 Tab. 1.2  Principales Caractéristiques des techniques d'évaluation des risques

Atouts Faiblesses

Qualitatif Intégration de l'expertise humaineClarté des résultats Subjectivité de l'analyseCoût de mise en ÷uvre Peu de données Impossibilité de traiter

nécessaires beaucoup de données Quantitatif beaucoup de donnéesPossibilité de traiter Beaucoup de donnéesnécessaires Objectivité de l'analyse Opacité des modèles

Plutôt que de les mettre en concurrence, an de déterminer laquelle des deux est la plus appropriée, il nous semble plus intéressant de mettre l'accent sur leur complémentarité en essayant de voir ce qu'elles peuvent respectivement apporter à l'analyse de risque. Pour l'aide à la détection de crises il apparaît en eet important de pouvoir dans un premier temps traiter de grands volumes de données, le plus objectivement possible. Mais face à la complexité des phénomènes étudiés, il serait bon, dans un second temps, de pouvoir intégrer les jugements qualitatifs d'experts du domaine.

Fig. 1.7  Positionnement des techniques quantitatives et qualitatives d'évaluation des risques selon la quantité de données disponibles et l'importance des facteurs subjectifs

Notons que nombre des techniques que nous avons abordées précédemment peuvent être considérées comme hybrides. Des méthodes comme l'AMDEC, pourtant essentiellement qualitatives, sont actuellement associées à des modules d'estimation numérique automa-tiques. À l'inverse, des méthodes, en apparence purement quantitatives comme la régression ou les réseaux bayésiens, s'appuient sur une interprétation qualitative de la réalité pour construire leurs modèles (structure des réseaux bayésiens, choix du mode de régression et des variables explicatives).

Le type de couplage que nous souhaitons réaliser est cependant quelque peu diérent. En eet, nous ne voulons pas utiliser l'expertise, subjectivement biaisée, pour guider la construction automatique de notre modèle de détection. Nous souhaitons que cette phase d'automatisation reste la plus neutre possible. En revanche, nous espérons que l'intégra-tion de l'expérience et de l'intuil'intégra-tion de spécialistes permettra d'aner le modèle appris automatiquement.

Chapitre 2

Un premier modèle d'évaluation des

risques

Dans le chapitre 1, au l de la revue critique des diérentes méthodes d'évaluation des risques, nous avons identié leurs caractéristiques ainsi que celles que notre futur outil de détection des crises se doit d'avoir. Au regard de cette analyse, nous allons voir dans ce chapitre pourquoi nous avons choisi de modéliser les risques de crise au moyen d'arbres de décision ous. Nous décrirons ensuite les premières expérimentations que nous avons menées, ce qui permettra de justier empiriquement l'intérêt de l'approche que nous pro-posons, et de mettre en évidence les faiblesses de ce premier modèle. Nous présenterons alors les améliorations que nous lui avons apportées ainsi que les axes de recherche que nous avons identiés.

2.1 Salammbô : construction d'arbres de décision ous

2.1.1 Pourquoi Salammbô ?

An de pouvoir sélectionner une technique d'évaluation des risques, parmi toutes celles qu'on peut envisager, il nous faut repérer ce qui fait leur force et leur faiblesse et voir si cela est compatible avec nos objectifs et nos contraintes. Rappelons que nous nous plaçons dans le cadre de l'aide à la détection de crises à moyen terme. La méthode proposée doit pouvoir traiter de grandes masses de données numériques et symboliques an de produire un indice de risque global. La plus-value apportée par notre système se situe précisément dans cette capacité à tenir compte d'un grand nombre de facteurs. Ceci nous amène à privilégier les techniques numériques et plus particulièrement les techniques automatiques. Nous chercherons à apprendre automatiquement un modèle de prévision des crises le plus performant possible, c'est-à-dire qui approxime au mieux la relation fonctionnelle sous-jacente, supposée relier les facteurs de risque élémentaires au risque global. Cette relation étant inconnue, il nous faudra préciser clairement la façon dont nous évaluerons notre mo-dèle. Nous reviendrons une première fois sur ce point à la section2.3, avant de le détailler à la section10.3.1. Précisons cependant dès maintenant que cela se fera de manière empi-rique, en appliquant notre modèle sur des données réelles. Ne pouvant disposer de mesures ables du risque pour des exemples réels, nous contrôlerons la qualité de notre modèle sur une tâche de prédiction des crises. L'occurrence d'une crise est en eet une information factuelle qui est, elle, accessible. Ainsi nous nous plaçerons dans le cadre de la classica-tion supervisée. Mais cela ne disqualie pas pour autant les techniques de régression qui comme nous l'avons indiqué à la section1.2.3.3peuvent facilement être considérées comme

2.1. SALAMMBÔ : CONSTRUCTION D'ARBRES DE DÉCISION FLOUS 31 des classieurs, par l'introduction d'une règle de décision simple consistant à seuiller la probabilité de crise estimée.

Chercher le modèle le plus performant, au sens d'un critère que nous préciserons plus loin, revient à considérer que nous sommes face à un problème d'optimisation. Étant donné que nous souhaitons construire un modèle, aussi objectif et transparent que possible, nous pouvons aner notre caractérisation et dire qu'il s'agit d'un problème d'optimisation sous contraintes. Ce sont ces contraintes qui vont orienter notre recherche de la technique la plus appropriée.

 Objectivité : an de ne pas entrer en conit avec la subjectivité de l'analyste, nous refusons de partir d'une théorie particulière et partisane d'explication du phénomène à modéliser. Ainsi, sont exclues les méthodes qui reposent sur ce principe, soit au niveau de la sélection des paramètres à prendre en compte, soit au niveau de la forme même du modèle. La régression sans sélection automatique des variables, les systèmes experts sans apprentissage des règles d'inférence ou encore les approches graphiques sans détermination automatique de la structure du graphe sont donc inadéquates.  Transparence : an d'être accepté par l'utilisateur, l'outil que nous proposons doit

produire des résultats qui puissent être remis en cause. De plus, dans une optique préventive, il faut pouvoir faire ressortir clairement les faiblesses du système étudié. Le modèle construit doit donc être aussi intelligible que possible et interprétable fa-cilement par un analyste autre que le modélisateur. Ce dernier point nous conduit à rejeter les techniques de régression y compris celles qui procèdent en amont à une sélection automatique des variables explicatives. Elles sont envisageables uniquement si l'utilisateur est également le modélisateur. Les classications par réseaux de neu-rones, SVM ou analyse discriminante sont, elles, dicilement interprétables, même par ceux qui les mettent en place et sont donc également rejetées.

Fig. 2.1  Répartition des diérentes techniques d'évaluation des risques, selon l'objectivité et la transparence des modèles construits

Comme l'illustre la gure 2.1, les réseaux bayésiens dont la structure est apprise au-tomatiquement ainsi que les systèmes à base de connaissances dont la base de règles est construite automatiquement ou encore les arbres de décision respectent bien les contraintes

32 CHAPITRE 2. UN PREMIER MODÈLE D'ÉVALUATION DES RISQUES que nous nous sommes xées et semblent donc correspondre à notre besoin.

Les systèmes experts ont été rangés dans les approches qualitatives, et peuvent donc paraître mal adaptés pour traiter de grandes bases de données. Lorsque les règles ne sont pas recueillies auprès d'experts mais apprises automatiquement, intégrer de grandes masses d'informations dans le modèle n'est plus un problème. L'apprentissage de la structure des graphes causaux étant encore loin d'être satisfaisant, nous avons décidé de nous orienter vers les systèmes à base de règles.

An de réaliser l'apprentissage de ces règles, nous avons nalement retenu les arbres de décision. Certes la structure arborescente limite le type des règles que l'on peut trouver, mais il s'agit d'une technique ecace qui évite l'explosion du nombre de règles, phénomène que l'on observe avec d'autres méthodes comme l'apprentissage de règles d'associations ou encore celle qui est basée sur les algorithmes génétiques (Spanos et al.,1999). De plus la base de règles peut se visualiser directement sous la forme d'un arbre, ce qui rend l'ensemble du modèle plus facilement compréhensible. Ajoutons enn que la construction d'arbres de décision se base sur une recherche des variables les plus discriminantes, ce qui leur permet de sélectionner, sans a priori, uniquement à partir des données, les paramètres à inclure dans le modèle.

Nous avons opté pour Salammbô, logiciel de construction d'arbres de décision ous développé par Marsala (1998). Comme l'a montré Marsala, dans le cas ou, de petites uctuations dans les données d'entrée ne provoquent pas de changement brutal de classe (continuité de la décision). Les arbres ous sont donc plus robustes que les arbres non ous, c'est-à-dire moins sensibles au bruit.

Olaru et Wehenkel (2004) ont par ailleurs montré que l'introduction du ou dans la construction des arbres de décision permettait de réduire la variance des modèles, ce qui traduit également une plus grande robustesse. Outre cette plus grande souplesse d'analyse, les arbres ous, par l'introduction de variables linguistiques, produisent des règles plus facilement manipulables par les individus, ce qui est un atout important pour un système d'aide à la décision.

Avant de décrire ce logiciel autour duquel nous avons bâti notre outil d'aide à la détec-tion des crises, synthétisons notre approche. Pour cela, reprenons la méthodologie générique d'évaluation des risques introduite à la section 1.3et voyons comment notre modèle l'ins-tancie.

1. Identication des facteurs de risque élémentaires : sélection automatique des variables discriminantes

2. Évaluation de ces facteurs : bases de données disponibles

3. Construction d'un modèle reliant les diérents facteurs au risque global : apprentis-sage automatique d'arbres de décision ous, qui peuvent être vus comme des bases de règles

4. Inférence déductive à partir des règles apprises ⇒ évaluation du risque

5. Synthèse claire des résultats pour préparer la gestion de risque : à chaque décision est associé un ensemble de chemins dans l'arbre, c'est-à-dire, un ensemble de règles oues, facilement interprétables

2.1.2 Caractéristiques de Salammbô

Salammbô est un outil de construction de classieurs par induction d'arbres de décision ous. L'algorithme d'induction utilisé est descendant et fait partie de la classe des algo-rithmes TDIDT (Top Down Induction of Decision Trees). Il peut être vu comme une version

2.1. SALAMMBÔ : CONSTRUCTION D'ARBRES DE DÉCISION FLOUS 33 oue de l'algorithme C4.5 deQuinlan(1986). Aussi allons-nous rappeler brièvement le prin-cipe de la construction descendante d'arbres de décision, ce qui nous permettra d'aborder ensuite les spécicités de Salammbô au regard de cette méthode générique.

Pour des raisons de cohérence, nous préférons reprendre les notations de la section

1.2.3.1, plutôt que les notations classiquement adoptées pour présenter les arbres de déci-sion. Ainsi nous notons E la base d'exemples d'apprentissage et V l'ensemble des attributs qui permettent de décrire les exemples de E.

2.1.2.1 Principales caractéristiques des algorithmes TDIDT

Fig. 2.2  Processus de construction d'arbres de décision

Les algorithmes TDIDT sont qualiés d'approches descendantes, car l'arbre induit est construit en commençant par la racine et en  descendant  jusqu'aux feuilles. La gure2.2

en décrit le processus pour des attributs symboliques. La construction se fait de manière récursive. On commence par choisir le meilleur attribut, au sens d'un certain critère à préciser. Il sera à la racine de notre arbre. Ensuite il faut partitionner la base d'exemples en fonction des modalités de cet attribut. Pour chacune des classes (sous-bases d'exemples) de la partition on recommence la procédure en ne tenant plus compte de l'attribut que l'on vient de sélectionner, à condition qu'un certain critère d'arrêt ne soit pas vérié.

L'algorithme s'arrête une fois que toutes les récursions sont terminées. Notons cepen-dant que ce processus doit être modié dans le cas d'attributs numériques pour lesquels il faut rajouter une étape de discrétisation. Un attribut numérique pourra en revanche être considéré à nouveau dans les récursions suivantes an de pouvoir aner sa discrétisation. Sur la gure 2.2, trois étapes essentielles de la construction d'arbres de décision se distinguent. Ce sont autant de degrés de liberté sur lesquels on peut jouer pour dénir un nouvel algorithme TDIDT : sélection d'un attribut, partitionnement, arrêt. Dans le cas des attributs numériques, la phase de discrétisation correspond à un quatrième degré de liberté.

34 CHAPITRE 2. UN PREMIER MODÈLE D'ÉVALUATION DES RISQUES Choix d'un attribut Qu'entend-on par  meilleur  attribut ?

On se base sur une mesure de discrimination pour trier les attributs. Elle permet d'évaluer la capacité d'un attribut à discriminer les diérentes classes. Le  meilleur  attribut sera donc celui qui y parvient le mieux.

De nombreuses mesures ont été élaborées, chacune correspondant à une conception particulière de la notion de discrimination. Les plus répandues reposent sur une quanti-cation de l'impureté d'une base d'exemples, au regard de la variable classe et au sens de la théorie de l'information. L'impureté d'une base correspond au degré de mélange entre les diérentes classes. Elle est d'autant plus importante que les exemples sont équidistri-bués dans les diérentes classes et d'autant plus faible qu'une même classe regroupe tous les exemples. L'index de Gini et l'entropie de Shannon sont à la base des algorithmes de construction d'arbres de décision les plus connus et les plus utilisés, respectivement CART et ID3 puis son extension C4.5.

Gini (E ) = 1 − K X i=1 P (y = ci)2 Entropie (E ) : I (E ) = − K X i=1 P (y = ci) log2(P (y = ci))

Les probabilités de classe P (y = ci) sont estimées par maximum de vraisemblance. Il s'agit de la fréquence du nombre d'exemples de E qui appartiennent à cette classe ci.

Le pouvoir discriminant d'un attribut est alors calculé comme la diérence entre l'im-pureté de la base d'exemples courante et l'iml'im-pureté moyenne de l'ensemble des bases d'exemples résultant de la partition induite par l'attribut. Autrement dit, on regarde quel serait le gain d'information si l'on décidait de partitionner la base courante à partir de cet attribut. On obtient ainsi le gain d'information, mesure utilisée par Quinlan et introduite par Picard (1972). Sans rien présumer de la façon dont est construite cette partition, le gain G pour une base d'exemples E et un attribut vi s'écrit :

G (E , vi) = I (E ) − E [I (E |vi, S)]

où E est l'espérance mathématique, lorsque l'on considère la variable aléatoire vi. (E|vi, S) désigne un ensemble d'exemples (sous-ensemble de E), déterminé par la valeur de vi en fonction d'une certaine stratégie de partitionnement S.

Stratégie de partitionnement Quelle partition de la base d'exemples créer, une fois qu'un attribut a été sélectionné ?

Une telle stratégie n'est appliquée qu'une fois un attribut retenu, mais elle est également utilisée de manière prospective pour évaluer le pouvoir discriminant des diérents attributs. Pour les attributs symboliques, la stratégie consistant à créer une sous-base d'exemples par modalité est la seule qui soit appliquée. Le traitement des attributs numériques ne dière que par l'ajout d'une phase de discrétisation. Une fois que celle-ci est accomplie l'attribut est considéré comme symbolique.

Maintenant que le paramètre S de notre équation précédente est connu, nous pou-vons réécrire l'expression du gain, ou plutôt de sa version normalisée : le gain ratio GR, qui tient compte du nombre de modalités de l'attribut considéré et qui est la mesure de discrimination de l'algorithme C4.5 alors que le gain n'est utilisé que dans ID3.

2.1. SALAMMBÔ : CONSTRUCTION D'ARBRES DE DÉCISION FLOUS 35 Critère d'arrêt Quand décide-t-on d'arrêter une récursion ?

Une première approche naïve consiste à mettre un terme au partitionnement récursif d'une base d'exemples lorsque tous les éléments de la base appartiennent à une même classe. Celle-ci sera alors utilisée pour étiqueter la feuille correspondante. Cette approche présente cependant un inconvénient majeur. Des feuilles ne contenant que très peu d'éléments auront en eet tendance à être créées.

De plus, les chemins construits risquent de ne pas correspondre à l'apprentissage d'une régularité observée que l'on généraliserait, mais plutôt à la copie des particularités de la base d'apprentissage, ce qui s'accompagne de mauvaises performances sur un échantillon de test indépendant. On parle alors de sur-apprentissage ou over-tting. Pour éviter ce phénomène, on peut procéder à un élagage des arbres appris en supprimant les branches trop spéciques de la base d'apprentissage. On peut également mettre en place des critères d'arrêt qui limitent la multiplication des ramications. Nous en verrons deux exemples lorsque nous préciserons les caractéristiques de Salammbô.

Discrétisation Comment passer du numérique au symbolique ?

Les variables continues ne sont pas traitables telles quelles par un algorithme classique de construction d'arbres de décision. Il est dicilement imaginable de mettre en place des