• Aucun résultat trouvé

Disponible à / Available at permalink :

N/A
N/A
Protected

Academic year: 2021

Partager "Disponible à / Available at permalink :"

Copied!
157
0
0

Texte intégral

(1)

- - -

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

Thèse de doctorat/ PhD Thesis Citation APA:

Keyers, B. (1995). Tarification des accidents de travail. Méthode de crédibilité hiérarchique (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des sciences, Bruxelles.

Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/212608/1/f71bfe33-d65a-48be-8dc7-54bce9a52b65.txt

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université ([email protected]).

Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.

DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University ([email protected]).

If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.

DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.

Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

(2)

V2

ho

1'

Année Académique 1994-1995

UNIVERSITE LIBRE DE BRUXELLES Faculté des Sciences

Professeur J.M. REESIHARD.

TARIFICATION DES ACCIDENTS DE TRAVAIL Méthode de Crédibilité Hiérarchique

Mémoire présenté par Bertrand Keyers

en vue de l'obtention du grade de

licencié en Sciences Actuarielles.

(3)

Année Académique 1994-1995

UNIVERSITE LIBRE DE BRUXELLES Faculté des Sciences

Professeur J.M. REINHARD.

TARIFICATION DES ACCIDENTS DE TRAVAIL Méthode de Crédibilité Hiérarchique

Mémoire présenté par Bertrand Keyers

en vue de l'obtention du grade de

licencié en Sciences Actuarielles.

(4)

A l’issue de ce tra\’ail,je tiens à remercier Monsieur Jean-Marie Reinhard, Professeur à l’Université Libre de Bruxelles, qui m’a autorisé d’effectuer ce mémoire sous sa direction. C’est son aide et ses conseils qui m’ont permis de mener à bien ce tra\>ail.

Je remercie aussi Monsieur Jean-Marie Maes, Directeur Développement- Contrôle-Organisation à Assubel, pour l’aide et les précieuses indications qu’il m’a fournies et sans lesquelles ce mémoire n’aurait pu voir le jour.

Enfin, je tiens à remercier ma Mère pour le soutien qu’elle m’a apporté tout au

long de mes études. Sans elle, rien n’aurait été possible.

(5)

Table des Matières :

1. Introduction. p3.

2. Les accidents du travail. p 6.

2.1. Un peu d'histoire. p6.

2.2 Actuellement. p9.

2.3 Les données. p 10

2.4 Analyse des codes NACE. P 13

2.5 La hiérarchie induite par les codes NACE. p20

Le modèle hiérarchique de Jewell. p22

3.1. Introduction. p22

3.2. Le modèle de Bühlmann-Straub. p23

3.3. Le modèle de Jewell. p28

3.3.1. Présentation du modèle et hypothèses. p 28 3.3.2. Procédures de calculs. p 33

3.3 2.1. Définitions. p 33

3.32.2. Résolution. p36

(6)

3.4. Développement du modèle de Jewell.

3.5. Conclusion.

P 47.

P 57.

4. Estimation des paramètres. p 58.

5. Le modèle à quatre niveaux. p 69.

6. Lien avec l'analyse de la variance. p 75.

6.1. Introduction. p 75.

6.2. Modèle hiérarchique. p 76.

6.3. Modède hiérarchique à quatre niveaux. p 84.

6.4. Conclusion. p91.

7. Application. p 93.

Combinaison linéaire. p 109

p 119

9. Conclusion.

(7)

Appendice 1.

Appendice 2.

Appendice 3.

Appendice 4.

Appendice 5.

Bibliographie.

(8)

Chapitre 1 : INTRODUCTION.

Nous allons effectuer dans cet ouvrage l'étude de la possible utilisation de méthodes de crédibilité dans le cadre de l'obtention d'une tarification pour les primes d'assurances contre les accidents de travail.

En effet, de nombreuses particularités, auxquelles nous consacrerons que- ques mots dans le chapitre deux, font des assurances belges contre les accidents de tavail un cas unique. L'unicité du système rend indispensable qu'on lui consacre des études spécifiques. L'étude que nous nous proposons de faire est l'une d'elles. Nous espérons montrer qu' il est possible et, sur­

tout intéressant, d'introduire le concept de la crédibilité dans le calcul de ces primes d'assurance.

Pour cela, nous commencerons, dans le deuxième chapitre, par définir quelle est la situation statistique actuelle dans le domaine des accidents de travail, c'est-à-dire que nous nous poserons essentiellement les trois ques­

tions suivantes :

- de quelles données dispose-t-on, et sous quelles formes celles-ci se présentent-elles,

- quelles sont les informations qu'ils nous faut en retirer, et

- finalement, quelles sont les possibilités qui nous sont offertes pour y

arriver.

(9)

Nous verrons dans ce chapitre qu'il existe de nombreuses raisons pouvant pousser à l'utilisation de méthodes de crédibilité. Cependant, la trop grande simplicité structurelle des modèles classiques (par exemple, ceux de Bühl- mann) rend ceux-ci inemployables dans un cadre pratique comme celui auquel nous nous intéressons. Nous verrons, en effet, que l'absence d'une notion de hiérarchie rend presque inutile tous les résultats que pourrait nous apporter leur utilisation. Plutôt que d'abandonner l'idée d'utiliser des notions de crédibilité, et par là même d'abandonner les avantages qu'elles peuvent apporter, nous essayerons, dans les chapitres suivants, de développer un modède de crédibilité adapté à notre problème.

Nous commencerons alors, dans le troisième chapitre, à nous intéresser à la théorie de la crédibilité et aux differents modèles qu'elle pourait nous propo­

ser pour résoudre le problème de tarification que nous nous posons.

Nous présenterons en premier lieu le modèle classique de Bühlmann mais en nous arrangeant pour voir qu'il est possible de l'adapter, on pourrait dire de le compléter, afin d'y introduire cette notion de hiérarchie des données qui nous manque.

Cela nous amènera à étudier le modèle dit de Jewell, et à voir comment il serait possible de l'adapter à nos besoins. Afin de réaliser cette adaptation, nous développerons un "modèle général de Jewell", et nous en indiquerons les principales particularités. Nous verrons que l'intérêt des modèles de Jewell réside dans la présence de niveaux dont nous montrerons comment ils peuvent correspondre à la notion de hiérarchie dont nous avons besoin.

Dans le quatrième chapitre, nous résolverons l'un des problèmes posés par le développement du modèle de Jewell, celui de l'estimation optimale de ses paramètres strcturels. Nous verrons que celle-ci peut se faire par l'intermé­

diaire des estimateurs dits de Sundt, et nous étudierons alors en détail ceux- ci. Nous calculerons alors finalement les estimateurs de Sundt qui seront utilisés dans le cadre de notre recherche. Nous présenterons aussi une sché­

matisation de ces estimateurs permettant de les obtenir pour un nombre de

niveaux quelconque.

(10)

Dans le cinquième chapitre, nous réécrirons les résultats obtenus dans le chapitre trois sur le modèle général de Jewell, mais en les particularisant à un nombre de niveaux précis, celui dont nous avons besoin pour notre analyse.

Nous réétudierons dans ce cas particulier les résultats généraux obtenus dans les deux chapitres précédents.

Dans le sixième chapitre, nous démontrerons l'existence d'un lien très net entre la théorie de crédibilité que nous avons développé et celle de l'analyse de la variance. Nous montrerons que les deux études se basent sur des para­

mètres structurels entre lesquels il est possible d'obtenir des liens étroits. En particulier, nous verrons qu'il est possible de calculer les paramètres de l'une de ces deux analyses en fonction de ceux de l'autre. Nous montrerons, alors, quels sont les avantages, tant théoriques que pratiques, qui sont apportés par l'utilisation de ce lien.

Dans le septième chapitre, nous appliquerons finalement les résultats de nos efforts au problème des assurances contre les accidents de travail et nous verrons que ceux-ci permettent d'obtenir une solution qui possède plusieurs des avantages recherchés.

Enfin, dans le huitième chapitre, nous nous réintéresserons rapidement à la possibilité d'utiliser dans nos bases de données une partie des informations que nous avions écartées. Nous y établirons aussi une règle en rapport avec les combinaisons linéaires des variables.

*

(11)

Chapitre 2 : LES ACCIDENTS DE TRAVAIL.

2.1 Un peu d'histoire.

Commençons par faire un peu d'histoire.

L'Arrêté Royal n°530, du 31 mars 1987, a confié aux assureurs un certain nombre d'obligations auparavant dévolues au Fonds des Accidents du Travail (F.A.T.). Cet arrêté n'est que le dernier en date d'une longue série, et ne fait que renforcer le côté exceptionnel du rôle tenu par les assurances contre les accidents de travail en Belgique.

n s'agit, en effet, de l'un des seuls pays européens où les assurances contre les accidents de travail sont en majorité entre les mains du secteur privé.

Certes, cela va sans dire, sous une très forte réglementation et avec de très importants liens entre les assureurs privés et la sécurité sociale. Cette situa­

tion oblige cependant les assureurs belges à se créer un système de tarifica­

tion spécifique, obligation que ne connaissent aucun des assureurs étrangers

Depuis plusieures années, les assureurs belges sont à la recherche d'un sys­

tème intéressant.

(12)

Lors de la sortie de l'Arrêté Royal, TU P E A (Union Professionnelle des Entreprises d'Assurance) préconisait déjà une modification des bases tari­

faires, afin de se replacer en accord avec la nouvelle situation.

Depuis lors, divers changements et ajouts, tant légals qu'actuariels, eurent lieu. Malgré ceux-ci, et la plupart des avis sont identiques, la tarification actuelle est fondalementalement dépassée : il y a une insuffisance des recet­

tes, insuffisance accentuée encore par la recrudescence de la fréquence des accidents de travail dont les causes sont, entre autres, la haute conjoncture actuelle, la diminution de l'âge moyen des victimes, une hausse des taux d'in­

capacité moyenne, etc....

Cependant, tous les avis s'accordent actuellement pour dire que l'une des causes de détérioration des résultats dans ce secteur est dûe à une tarification

"s'appuyant de manière trop importante sur les seules statistiques du risque et négligeant par là la nature du risque et sa nécessaire mutualisation " (rapport d'activité de rU.P.E.A., 1991-92). En effet, sous la pression du marché une telle pratique conduit à l'octroi de réductions aux entreprises pouvant pré­

senter des statistiques favorables (mais pas forcément significatives) sans pour autant être à même de créer une contrepartie à charge des entreprises ayant une lourde sinistralité et dont la lourdeur peut être trop facilement te­

nue pour exceptionnelle.

Pour la période de 1988 à 1989, le secteur a enregistré des pertes atteignant les 6 milliards de francs sur un total de primes cumulé de 45 milliards de francs, c'est à dire un peu moins de 15%. Comme on le voit, il y a là un important problème. Constatant la poursuite de cette dégradation en 1990, l'U.P.E.A. a proposé, et préconisé, une révision fondamentale des règles de tarification.

Cette révision serait, dans un premier temps, appliquée aux risques lourds.

Elle est basée sur deux grand principes.

Premièrement ; la mesure de la nature du risque se ferait par type d'activité déterminé en fonction des groupes, classes et divisions de la nomenclature NACE, qui est une nomenclature générale des activités économiques dans les Communautés Européennes.

Deuxièmement, le poids à accorder à la statistique des sinistres relevés dans une entreprise serait de plus en plus significatif lorsque l'importance de l'en­

treprise augmenterait. Cette importance serait appréciée selon la masse sala­

riale et, partant, selon l'effectif occupé.

(13)

Comme on peut le voir, on retrouve bien dans ce deuxième principe l'idée d'une notion de crédibilité. Rappelons que l'idée de la crédibilité est de faire intervenir, pour l'estimation d'une variable, à la fois la moyenne générale de l'ensemble des opérations et la moyenne particulière. Ces deux moyennes sont sommées pour obtenir l'estimateur, chacune s'étant vue attribuer un poids, le facteur de crédibilité.

On voit donc qu'il est possible de créer facilement un lien entre la crédibilité et certains des objectifs de la proposition de l'U.P.E.A. ,

Remarquons ici, que le fait d'utiliser un modèle avec des notions de crédi­

bilité dans le domaine des accidents de travail n'est pas exceptionnel. Aux USA, par exemple, le critère de crédibilité totale est appliqué aux accidents de travail.

En dépit d'un dossier solidement étayé et des problèmes évidents existant dans ce domaine, la proposition de restructuration tarifaire de l'U.P.E.A.

reçut un avis négatif de la commission des prix, à la quasi unanimité des avis.

L'idée d'une nouvelle tarification fut cependant acceptée l'année suivante et, depuis lors, elle est en partie d'application.

Par la suite, plusieurs modifications furent apportées à l'idée de base, toutes allant dans le sens de plus grands regroupements entre les assurés. Cette idée de base est cependant restée la même.

Depuis 1991, il appartient à chaque assureur de déposer auprès du service

des Assurances du Ministère des Affaires économiques un dossier individuel

pour l'approbation de la prime commerciale, dossier qui devra ensuite être

communiqué au Service des Accidents du travail du îÆnistère de la

Prévoyance Sociale.

(14)

2.2 Actuellement.

Actuellement, on s'interroge : la réévaluation de la restructuration tarifaire a permis de constater "qu'à force de vouloir coller à tout prix aux codes NACE on en était venu à une individualisation des risques à ce point poussée qu'elle arriverait à déjouer la loi des grands nombres". La base du problème vient de ce que les codes NACE sont une classification des entreprises économiques qui, à l'origine, n'a pas été prévue pour les assurances. Il y a près de mille codes NACE, et il est évident que certains d'entre eux, surtout s'ils sont limi­

tés à la Belgique, ne peuvent fournir une base statistique suffisante.

Personne ne songe pourtant à renoncer à l'utilisation des codes NACE.

Ceux-ci possèdent d'indéniables avantages, ne fut-ce qu'en permettant aux assureurs de remonter dans le temps lors de l'appréciation des risques que comportent les multiples types d'activités à couvrir. En effet, l'utilisation du code NACE est la seule formule qui permette une évaluation basée sur un historique connu. De plus, rien ne permet d'affirmer que si nous améliorions la structure que nous possédons de façon à résoudre le problème de disper­

sion constaté nous n'obtiendrions pas la structure la plus adéquate.

Une première idée, est de regrouper certains codes NACE pour obtenir des ensembles homogènes capables de fournir une information statistiquement suffisante. Cependant, on peut se demander s'il ne serait pas plus intéressant d'utiliser des techniques de crédibilité plutôt que de faire du regroupement.

C'est ce que nous espérons montrer dans les chapitres suivants.

(15)

2.3 Les données.

Les données dont nous disposons sont basées sur la nomenclature NACE. Il s'agit d'une classification européenne des entreprises par type d'activité. Elle se compose de cinq chiffres : les deux premiers représentent une classe d'ac­

tivité générale (agriculture, par exemple), le suivant indique un domaine pré­

cis de la classe d'activité (horticulture), les deux derniers sont une classifica­

tion encore plus fine du type d'activité de l'entreprise (pépinière).

Par exemple : 50 bâtiment et génie civil 501 construction d'immeuble 501.51 rejointoiement des façades.

A titre d'exemple, nous présentons dans les pages suivantes deux extraits des codes NACE européens qui montrent bien la classification qu'ils donnent aux différents types d'activités économiques.

Il est important de noter que ces codes n'ont nullement été prévus, à l'origine, pour être utilisés dans le cadre des assurances. Il s'agissait d'une classifica­

tion économique ne prenant en compte que les différences entre les activités exercées, et non les différences entre des types d'assurances. Ils ne sont donc pas adaptés aux besoins spécifiques de cette branche économique.

Parmi les nombreux problèmes que cela peut poser, on peut noter les deux suivants :

n peut n'y avoir aucune homogénéité entre deux éléments appartenant à une même classe ou un même domaine.

Certains codes NACE possèdent une base à ce point réduite qu'ils ne sont plus utilisables statistiquement. Cela est dû à la trop grande pré­

cision des codes NACE dans certains domaines (par exemple, la

culture des fraises possède son propre code NACE au même titre que

le commerce en gros de la viande).

(16)

01 AGRICULTURE ET CHASSE 011 Agriculture et élevage

011.1 Agriculture et élevage 2,525 0,920

011.2 Agriculture 2,525 0,920

011.3 Elevage

011.31 Elevage du grps bétail 6,682 3,031

011.32 Elevage des porcs 5,727 2,470

011.33 Aviculture 2,544 1,212

011.3 'i Elevage des chevaux 7,962 2,251

011.35 Elevage des chiens (destinés principalement à

la vente) 2,544 1,212

011.36 Elevage d’animaux à fourrure 2,544 1,212

011.37 Elevage du gibier en captivité 2,544 1,212

011.38 Apiculture 2,544 0,927

011.39 Elevage du vers à soie 2,544 0,927

012 Horticulture, fruiticulture en noriculture

012.1 Horticulture maraîchère 2,250 0,362

012.2 Fruiticulture

012.21 Culture des fraises 2,250 0,862

012.22 Culture des baies 2,250 0,362

012.23 Culture des fruits sur arbres basse tige 2,699 0,983

012.24 Culture des fruits sur arbres demi-tige 5,574 2,478

012.25 Culture des fruits sur arbres haute tige 7,962 2,251

012.3 Péoinière 2,250 1,022

012.4 Viticulture 2,250 0,362

012.5 Floriculture et production ie bulbes 2,250 0,362

012.5 Création, implantation et enrrerien de jardins et parcs

012.ôl Implantation des jardins et parcs avec entretien 2,245 1,162 012.52 Chirurgie des arbres et transplantation d’arbres

feuillus et à aiguilles 12,564 3,432

012.7 Horticulture n.d.a. 2,250 0,362

013 .Activités anne.xes à l’agriculture, à l’horncuiiure et à l’élevage

013.1 Entreprise de battage 5,077 1,849

013.2 Entreprise de pulvérisation 5,077 1,349

(17)

N ACE TP?

50 500 500

500 501 501 501

501 501

501 501 501 501, 501.

501.

501.

501.

501.

501.

501.

502

502.

502.

502.

502.

502.

502.

BATIMENT ET GENIE CIME

Bûtinient et génie civil (sans spécialisation); démolition .1 Construction de bâtiments et travaux de

génie civil (à ne pas utiliser)

.2 Démolition 14,^34 6,504

Construction d’immeubles (d’habitation et autres) .1 Entreprise générale de bâtiment

.11 Villas et autres habitations unifamiliales (y co.mpris le montage d’éléments préfabriqués

de maisons Ainifamiliales et villas) 5,j63 2,115

.12 Autres constructions de bâtiments 7,S57 2,718

.2 Entreprise de couverture (seuls les toits

inclinés) 14,130 4,248

,3 Construction de cheminées et fours 10,288 4,576

4 Entreprise d’étanchéité

41 Toits plats 7,598 3,808

42 Autres 4,538 2,115

5 Entreprise de ravalement et d’entretien de façades

51 Rejointoier.ent de façades 6,c56 2,257

52 Ravalement et entretien de façades hors

rejointoiement 6,c56 2,257

6 Entreprise d’échafaudage 10,-50 3,883

7 Entreprise spécialisée dans d’autres activités du bâtiment

71 Coffrage et ferraillage sur chantier 7,534 2,975

72 Montage d’éléments préfabriqués en béton à d’autres fins que villas et maisons unifami­

liales 7,534 2,975

Génie civil : construction de routes, ponts, voies ferrées, aérodromes, etc...

1 Entreprise générale de génie civil 7,557 2,718

2 Entreprise de terrassement à l’air libre 5,7^7 3,020

3 Entreprise d’ouvrages d’art terrestres

31 Entreprise de travaux de forage, de sondage

et de fonçage de puits 7 , C41 3,394

32 Entreprise de fondation, de battage de pieux et palplanchés, de travaux de consolidation du sol par tous systèmes, de construction de ponts, viaducs, tunnels pour routas et chemins de fer 321 Entreprise de fondation, de battage de pieux

et palplanchés, de travaux de consolidation du

sol par tous systèmes, de construction de ponts,

(18)

Il y a au total près de 1000 codes NACE différents, ils sont regroupés en 287 domaines d'activité, ceux-ci étant eux-même répartis entre 49 classes.

On dispose pour chacun de ces codes NACE des taux de prime pure pour chacune des cinq années del988 à 1992, soit près de 5,000 données (mais certaines sont manquantes). On dispose de plus, à chaque fois, de la masse salariale correspondant à ce taux de prime. Ces données proviennent de 8 organismes assureurs représentant les 2/3 de l'encaissement global du marché de l'assurance.

Les accidents du travail sont, eux-mêmes divisés en deux catégories impor­

tantes : les accidents avec invalidité permanente, et les accidents sans inva­

lidité permanente. La définition de la frontière exacte entre ces deux classes ne sera pas présentée ici. On pourra la retrouver dans les références citées dans la bibliographie, à la fin de cet ouvrage.

Entre ces deux types d'accidents, il existe bien évidemment d'importantes différences. Cependant, comme nous allons le voir tout de suite, cette divi­

sion entre accidents avec et sans invalidité permanente ne nous posera pas de problèmes.

2.4 Analyse des codes NACE .

Une analyse de variance fut effectuée par la Commission technique et finan­

cière et le groupe de travail Statat pour étudier la hiérarchie créée par le sys­

tème de classe du code NACE. Les principaux résultats de celle-ci sont repris dans l'appendice 3.

Un autre résultat, très important, est le lien de corrélation très fort entre les résultats avec invalidité permanente et sans invalidité permanente.

Ce lien est très bien représenté par le graphique se trouvant à page suivante.

(19)

TP P. IP

(20)

Les cas avec invalidité temporaire se retrouvent sur l'abscisse en %, ceux avec invalidité permanente sur l'ordonnée en %. Chaque point représente les résultats pour l'un des domaines du code NACE (il y a superposition de cer­

tains points).

La droite de régression a été ajoutée. Son équation est :

taux de prime avec IP = 3.93 * taux de prime sans IP - I.

Pour éviter des valeurs négatives, le graphique présente une régression linéaire "forcée par zéro". Une autre possibilité, retenue par la comission d'étude actuelle, est d'utiliser le modèle suivant :

taux de prime avec IP = 2.905 taux de prime sans IP

Le coefficient 2.905 de ce modèle a été obtenu comme le rapport du taux de prime avec IP au taux de prime sans IP pour les codes NACE pris dans leur ensemble.

L'analyse de régression donne un coefficient de corrélation égal à 0.85, ce qui signifie, entre autres, que 73% de la variance observée entre taux pour les cas avec IP sont explicables par la relation entre ce taux et son homo­

logue sans IP.

Comme nous l'avons vu, la classification des codes NACE n'était pas adap­

tée aux besoins de l'assurance, et plusieurs modifications ont eu lieu ces der­

nières années pour essayer de résoudre ce problème. Elles ont abouti à une reclassification des 287 domaines ou groupes d'activité dans 31 classes plus homogènes. C'est cette nouvelle classification que nous allons retenir dans la suite.

Commençons par analyser les avantages qu'elle nous procure.

(21)

Nous procédons aux quatre analyses de la variance dont les tableaux se trouvent sur cette page et sur la page suivante.

General Linear Modela Procedure

Dépendent Variable: TPP_IP

WeighC: SALARIS verzekerd loon 1000 F (7n)

Source DF Sum of Squares Mean Square F Value Pr > F

Model 934 8356718930.38284000 8947236.54216579 4.41 0.0001

Error 3607 7314033610.48720000 2027733.18838015

Corrected Total 4541 15670752540.87000000

R-Square C.V. Root MSE TPP_IP Mean

0.S33269 9999.99 1423.98496775 2.46214302

Source DF Type I SS

S

Mean Square F Value Pr > F

TPP IT 1

w

4471218616.46724000 4471218616.46724000 2205.03 0.0001

NA' 30 1238514680.19243000 4lj283|822.67308100 20.36 0.0001

NACE_G 277 1451772527.57984000 5241056.05624492 2.58 0.0001

NACE2 622 1161495564.13339000 1867356.21243312 0.92 0.9056

JAAR 4 33717542.00993510 8429385.50248379 4.16 0.0023

General Linear Modela Procedure

Dépendent Variable: TP?_TOT

Weight: SALARIS verzekerd loon 1000 F ,7n)

Source DF Suzi of Squares Mean Square F Value Pr > F

Model 933 11357042979.03620001 12172607.69457260 5.87 0.0001

Error 3608 7484210228.2686000: 2D74S37.64641591

\ Corrected Total 4541 18841253207.3048000:

R-Square C.V. Root MSE TPP_TOT Mean

0.602775 9999.99 1440.25610445 3.34419007

Source DF Type I SS

t

Mean Square F Value Pr > F

NACF-C 30 6754946944.48927000 225164898.14964200 108.55 0.0001

NAt 277 3077825046.5340200C H111281.75644050 5.36 0.0001-

(22)

Gensral Linear Modela Procedure Dépendent Variable: TPP_IP

Weight: SAIARIS verzekerd loon 1000 F (7n)

Source DF Sum o£ Squares Mean Square F Value Pr > F

Model 933 8323‘77429.74215000 8921519.21730135 4.38 0.0001

Error

Corrected Total

3603

4S41

R-Square

7346975111.12789000

15670‘52540.87000000

C.V.

2036301.30574498

Root MSE TPP’_IP Mean

0.531166 9999.99 1426.99029630 2. 46214302

Source DF Type I SS Mean Square F Value Pr > F

NAGE C 30

»

4‘6913f 1200.64908000 156378706.68830200 76.80 0.0001

N? 277 23077=1327.12718000 8331376.63222810 4.09 0.0001

NAGr:2 622 l|269 = = 5787.17097000 2041777.79287937 1.00 0.4768

JAAR 4 54639114.79491730 13659778.69872930 6.71 0.0001

General Linear Modela Procedure

Dépendent Weight:

Variable: TPP_IT

SALARIS verzekerd loon 1000 F (7n)

Source DF Sum of Squares Mean Square F Value Pr > F

Model 933 368919130.33866500 395411.71526116 26.73 0.0001

Error 3608 53373360.06738580 14t793.05988564

Corrected Total 4541 422292490.40605100

R-Square C.V. Root MSE TPP_IT Mean

0.873610 9999.99 121.62672357 0. 88204705

Source . DF Type I SS Mean Square F Value Pr > F

NACE_C 30 220967820.24830900* 7365'594.00827699 497.91 0.0001

277 109130821.06617200 393.'974.08327138 26.63 0.0001

NACl..: 622 30093690.67475040 ''48pT2.13934847 3.27 0.0001

JAAR 4 8726798.34943314 2^8lj699.58735828 147.48 0.0001

(23)

La première, est l'analyse de la variance pour les cas avec IP et sans IP. Elle est la correspondance de celle dont nous avons reproduit les résultats dans l'annexe 3.

On obtient les résultats suivants :

dl SC

CM F

classe 30 675 22516489 20.26

groupe (classe) 277 308 1111128 4.83

code N ACE (groupe) 622 142 229758 1.11

année 4 10 2379361 11.47

erreur 3608 748 207434

total 4541 1884

pour la somme des carrés, il faut multiplier ces résultats par 10 000 000 afin d'obtenir les valeurs exactes.

Comme on peut le voir, les 31 classes, bien que moins nombreuses que pré­

cédemment, expliquent 36% de la variance, contre les 31% de l'analyse pré­

cédente. On peut ainsi voir que cette nouvelle classification conduit bien a une meilleure discrimination que l'ancienne et que, de plus, elle correspond à une plus grande homogénéité dans les classes. En effet, la partie de la variance expliquée par les groupes dans les classes passe de 20% à 16%.

Il apparaît aussi que la variation des codes à l'intérieur des groupes est non

significative. Le rapport F de 1,11 signifie que cette variance est presque

entièrement explicable par l'erreur "expérimentale".

(24)

Dans le cas de l'analyse ne tenant uniquement compte que des cas avec IP, on obtient des résultats similaires à ceux déjà obtenus. Par contre, si on étudie les résultats de l'analyse de la variance basée uniquement sur les cas avec IT, on s'aperçoit que celle-ci est beaucoup plus discriminante qu' au­

paravant. Le modèle explique maintenant 87% de la variance. Ce résultat s'explique très facilement : les cas sans invalidité permanente ont une fré­

quence beaucoup plus élevée que ceux avec invalidité permanente (la fré­

quence des sinistres est 83 fois plus élevée dans un cas que dans l'autre).

Cette plus grande fréquence aboutit à une meilleure précision dans la con­

naissance des taux de prime pure.

Nous procédons alors à une quatrième analyse, très semblable à la deuxième que nous avons effectuée, mais cette fois-ci nous introduisons comme varia­

ble explicative du taux de prime avec IP le taux de prime sans IP. On cons­

tate que le paramètre reflétant la liaison entre le taux de prime des cas avec IP et celui des taux de primes sans EP explique, à lui seul, 28% de la varian­

ce. Par contre, le facteur de différence entre les classes n'explique plus que 8% au lieu des 30% précédents, et celui des différences entre groupes n'ex­

plique plus que 8% au lieu des 15%.

Nous pouvons donc en déduire qu'il est possible de prédire les taux des cas avec IP par les taux des cas sans IP, par exemple en utilisant les formules de régression vues plus tôt. Une analyse sur les écarts (taux avec IP - taux sans IP) peut être faite, elle confirme les résultats obtenus.

Ceci est très important. Nous pourrons donc envisager de nous limiter à l'avenir aux cas sans IP. Cette limitation a un intérêt considérable. Les cas sans IP sont beaucoup plus nombreux et fournissent donc une base statis­

tique bien supérieure à celle fournie par les cas avec EP. De plus, l'analyse des répartitions et des fréquences pour les cas avec EP montre que ceux-ci ne sont guère réguliers, au contraire des cas sans IP. D'une certaine façon les accidents avec invalidité permanente ont une nature plus "exceptiormelle"

que ceux sans invalidité permanente. Leur étude serait plus difficile. Nous voyons que, heureusement, nous pouvons nous consacrer plutôt aux don­

nées fournies par les cas sans IP, qui sont, elles, plus faciles à analyser.

(25)

2.5 La hiérarchie induite par les codes NACE .

Nous voyons que les codes NACE induisent la hiérarchie suivante :

Ensemble des assurances accidents de travail

Division selon 31 classes

Division selon 287 groupes homogènes qui se répartissent entre les 31 classes

/■■ I

Ensemble des 1000 codes NACE

et nous disposons pour chaque code de 5 observations.

Il est évident qu'il faut que cette hiérarchie soit représentée dans le modèle d'analyse pour que celui-ci puisse être proche des données qu'il désire ana­

lyser.

Les observations se noteront X(ijkt)

i indiquant la classe = 1 ,, 31 j indiquant le jème groupe de la classe i

= 1,

k indiquant le kème code du groupe j de la classe i

= l,...,K(ij)

t indiquant l'année d'observation = 1 ,, 5

(26)

Ce que nous allons essayer d'obtenir est une estimation des moyennes des taux pour

- les différentes classes - les différents groupes

- et les différents codes NACE;

c'est-à-dire les taux de prime pure estimés pour les classes i, pour les groupes j (dans les classes i) et pour chacun des codes NACE.

Le problème statistique est que, pour réaliser cela, nous ne disposons que de très peu de données, particulièrement dans le cas de certains codes et même parfois dans le cas de certains groupes.

L'utilisation de méthodes de crédibilité semble s'imposer d'elle-même, mais cela nous pose alors un nouveau problème. Comment tenir compte de cette hiérarchie qui soutend les codes NACE. Si, pour l'estimation d'une moyen­

ne dans un code, les techniques de crédibilité classiques peuvent être suffi­

santes, elles ne le seront pas pour les deux autres cas. Nous nous retrouvons donc devant la difficulté d'associer à une technique de crédibilité une notion de hiérarchie pouvant reproduire celle des codes NACE.

C'est ce que nous allons essayer de faire dans les chapitres suivants.

(27)

Chapitre 3 ; LE MODELE HIERARCHIQUE DE JEWELL.

3.1. Introduction.

Dans ce chapitre, nous aborderons les différents modèles de la théorie de la crédibilité. Nous commencerons par rappeler simplement le modèle classi­

que de crédibilité, dit de Bühlmann-Straub, puis, nous présenterons un autre modèle de crédibilité auquel nous nous intéresserons plus en détail, le modè­

le de crédibilité hiérarchique ou modèle de Jewell. Comme nous le verrons, ce modèle peut être vu comme un généralisation du modèle classique.

En plus de la résolution de ce modèle, qui nous sera utile pour l'étude de la tarification des accidents de travail, nous présenterons aussi les résolutions de modèles dans un cadre hiérarchique pour un cas univarié quelconque.

Nous montrerons, en outre, que la difficulté potentielle créée par l'adjonction d'une hiérarchie peut être annulée en utilisant certaines propriétés des espa­

ces de Hilbert, et en développant celles-ci jusqu'à l'obtention d'un système de résolution récursif très simple à utiliser. Enfin, nous étudierons en détail ce système récursif afin de mettre en évidence ses avantages, ses inconvé­

nients et, comme nous le verrons, la possibilité d'en simplifier l'usage par un

lien avec d'autres théories d'analyse.

(28)

3.2. Modèle de Bulhman-Straub.

Le modèle de crédibilité le plus connu est certainement celui dit de Bulhman- Straub.

Nous allons reprendre ici ses principaux résultats. Ceux-ci seront présentés d'une manière inhabituelle qui fera ressortir de façon évidente que ce modèle de crédibilité classique est contenu dans le modèle de crédibilité hiérarchique présenté au paragraphe suivant, modèle dont il n'est que le cas dégénéré.

Revenir à la présentation classique peut se faire sans peine.

Remarque :

Il est parfois fait référence de manière inadéquate au modèle de Bühlmann en parlant du modèle de Bühlmann-Straub et inversément. Pour éviter une con­

fusion ou un ambiguité, précisons que l'unique différence entre ces deux mo­

dèles vient de l'adjonction d'une pondération des variables observables (les observations) dans le modèle de Bühlmann-Straub. Nous ne développerons ici que le modèle de Bülhmann-Straub. Si l'on désire une étude du modèle de Bühlmann, il suffira de consulter certaines des références de la bibliographie.

Donc, sans détailler le modèle de Bühlmann-Straub, remettons en mémoire ses principales caractéristiques. Les notations utilisées dans ce chapitre et dans les chapitres suivants trouvent leurs définitions dans les appendices 1 et 2 se trouvant à la fin de cet ouvrage.

On dispose d'un portefeuille de risques inhomogènes.

Chaque risque est caractérisé par un paramètre de risque 6 inobservable.

Nous caractériserons la structure du modèle par plusieurs niveaux.

(29)

Le niveau 2, comprenant l’ensemble des données.

Nous avons les variables observables X(ij)

j = 1 ,...., J(i) à chaque variable est associé un poids

w(ij)

On peut voir les X(ij) comme la valeur totale des sinistres produits par un risque i durant l'année j.

Le niveau 1, comprend l'ensemble des variables aléatoires non observables c'est-à-dire

Et l'on peut interpréter 0(i) comme une "qualité de risque" pour le risque i.

et, enfin, un

niveau 0, qui ne contient qu'une unique "variable", le portefeuille en lui- même.

Nous pouvons représenter plus facilement cette structure à trois niveaux à l'aide du dessin suivant ;

0(i) i = 1,....,I

(30)

On obtient le schéma d'échantillonnage selon la procédure suivante :

- On tire les qualités de risque de la distribution de structure du portefeuille U(0) de manière indépendante, puis,

- pour chaque risque, on tire de manière indépendante les observations X(ij) de la distribution F( x / 0(i) ).

Nous avons les hypothèses suivantes :

- 6(i), X(il), X(i2),.... , X(iJ(i)) sont indépendants - les 0(i) sont indépendants et identiquement distribués - les X(ij) sont indépendants et identiquement distribués

conditionnellement à 0(i)

On définit alors les paramètres suivants :

fi = E [ X(ij) ] = E [ P ( 0(i) M ( 0(i) ) = E [ X(ij) / 0(i) ]

= E [ w(ij) Var [ X(ij) /

= Var [ P ( ff(i) ) ]

) ]

0(i) ] ]

On va alors chercher à obtenir la meilleure estimation possible au sens des moindres carrés de la valeur moyenne du risque X(ij), estimation que l'on va noter p ^ ( 6{ï) ). Bühlmann restreint la recherche aux estimations linéaires.

Il nous faut donc rechercher

( 0(i) ) — co + Cl X(il) + C2 X(i2) + ... + cw) X(iJ(i)) minimise

E [ p-(0(i)) - p(0(i)) ?.

(31)

La solution s'obtient en dérivant cette espérance par rapport aux variables c., et en égalisant cette dérivée à zéro. Nous ne reviendrons pas sur ce calcul classique.

La solution est :

w

--- fi

\v(i.) K'P

w(i.)

--- X(iw) w = vif/.;

avec

1 J(i)

X(i w) = --- E w(ij) X(ij) w(i.) j=l

Notons cependant que les calculs pour obtenir cet estimateur de crédibilité nécessitent de calculer d'abord les résultats suivants :

Cov [ X(ij), P ( 0(i) ) ] = Cov [ X(ij),X(ij') ] = d,

Bien évidemment, pour pouvoir utiliser cet estimateur de crédibilité, il faut pouvoir estimer les paramètres p , et qui sont inconnus, à partir des variables observables X(ij).

On utilise les estimations suivantes ;

A

H2A

X(ww)

1 I J(i)

--- E E w(ij) X(ij) w(.) i = 1 j = 1

1 I

= ---

2

vv(i.) X(i w) w(.) i=l

1 I 1 J(i)

.. s --- E w(ij) ( X(ij) - X(i.) y

I i = 1 J(i) - 1 j = 1

(32)

w( .) 1

= —-... ( E w(i.) ( X(i.) - X( ) y- - (I-l) ) w(..)^ - E w(i.)^ i = 1

Dans ce modèle, il nous faut considérer pour les variables X(it) le schéma d'échantillonnage suivant ;

1° tirage de manière indépendante des qualités de risque 6{ï) d’une distribution U(0).

2° tirage de manière indépendante, pour chaque contrat i, des variables X(it) d'une distribution F( x / 6{\) ).

Ce schéma d'échantillonnage suppose, entre autres, que tous les paramètres de risques sont tirés du même collectif, c'est-à-dire qu'il ne permet aucune classification des risques. Or, une telle classification est souvent utile, si ce n'est indispensable, dans la pratique. Il est en effet fréquent que plusieurs paramètres de risques différents divisent le portefeuille en sous-portefeuilles.

Il est habituel, par exemple, de subdiviser les contrats d'assurances-incendie en contrats d' "assurance-incendie industriel" et contrats d' "assurance-incen­

die pour maisons privées". Le type de bâtiment, ou son usage, sont aussi des paramètres de risques utilisés pour classifier de tels contrats. Des tarifs basés sur un modèle sans aucune classification des risques ont certainement leurs propres mérites. Un des exemple les plus connus d'application de ce modèle est le tarif automobile Suisse de 1963. Cependant, ils sont dans de nom­

breuses situations une simplification trop extrême de la réalité et, dans d'autres, telles celle de l'étude d'une tarification pour l'assurance des acci­

dents de travail, ils sont impossibles à utiliser pratiquement en raison des contraintes statistiques.

Le but de ces classifications des risques est de subdiviser les portefeuilles en des classes de contats les plus homogènes possibles, ce qui présente d'évi­

dents intérêts sur le plan de l'analyse du modèle.

L'utilisation conjointe de méthodes de crédibilité et d'une classification des

risques est obtenue dans le modèle dit de Jewell ou modèle hiérarchique.

(33)

Nous allons voir que ce modèle s'obtient en introduisant dans 1e schéma de base d'autres niveaux, et nous verrons que la ditficulté de résolution ne croî­

tra pas avec l'augmentation du nombre de niveaux à la condition d'appliquer une méthode de résolution récursive.

3 3. Le modèle de Jewell.

3.3.1. Présentation du modèle et Hypothèses.

Le modèle de Jewell, dit aussi modèle hiérarchique de crédibilité, a été développé particulièrement dans les deux articles suivants :

- Premièrement, dans Jewell, W.S. "The use of Collateral Data in Credibility Theory", Giomale dell'Instituto Italiano degli Attuari, 1975, 38, pp. 1-16.

- Puis, dans Bühlmann, H., Jewell, W.S. "Hierarchical Credibility Revisited"; Mitteilungen der V.S.V.M., 1987, Heft 1, pp. 35-64.

La structure de ce modèle est carctérisée par différents niveaux, le nombre de ces niveaux dépendant du problème traité.

A titre d'exemple suit une représentation graphique d'un modèle à trois ni­

veaux:

ffl tOf

O

Citer»

1.

ntcor 2

rtlt Or

'b. XCc\t5

diagramme ... arbre hiérarchique à trois niveaux

(34)

Chacun de ces niveaux représente une classification des observations. Le dernier niveau (le niveau n) sera celui des observations, le niveau initial, c'est-à-dire le niveau 0, sera celui du portefeuille dans son intégralité. Cha­

cun des niveaux représentera l'un des degrés de la classification envisagée par la hiérarchie et sera représenté soit par une variable inobservable caractéri­

sant les propriétés de l'un des éléments de la classification, soit par une va­

riable représentant l'information dont on dispose sur la caractéristique de cet élément. Ce sont ces variables que nous allons essayer d'estimer.

C'est à partir de cet arbre que nous définirons des caractéristiques telles que ascendants et descendants d'une variable.

Jevvell a développé dans ses articles les modèles à deux et à trois niveaux. Je reprendrai ici l'étude du modèle à trois niveaux, puis développerai celle-ci pour obtenir celle du modèle à un nombre quelconque de niveaux n dans le paragraphe 4 de ce chapitre.

Soit un portefeuille de N contrats pouvant être classés en I sous-portefeuilles (ou classes).

Le sous-portefeuille i est composé de J(i) contrats.

(avecJ(l) + J(2) +.... +J(I) = N )

Chaque sous-portefeuille est caractérisé par un paramètre de risque 0(i) tiré d'une distribution de structures décrivant l'hétérogénéité entre les différentes classes du portefeuille. On dit aussi parfois que 0 ( i ) est un paramètre qui traduit la "qualité" du sous-portefeuille i.

Chaque contrat est caractérisé par un paramètre de risque 0(ij) tiré d'une dis­

tribution de structure décrivant l'hétérogénéité entre les différents contrats d' une même classe.

Ces variables 0(i) et 0(ij) sont, bien entendu, des variables inobservables.

On dispose pour le contrat ( i, j ) de T(ij) observations.

Soit X(ijt) les variables observables avec i = 1,... , I désignant la classe

j = 1,..., J(i) désignant le contrat dans la classe i

t = l,..., T(ij) désignant la période d'observation

(35)

Soit w(ijt) le poids attribué à la variable X(ijt)

(Par exemple, ce poids pourrait être le nombre de sinistres observés pour le contrat] de la classe i au cours de la période d'observation t.)

Nous avons donc :

les classes 1,..., i,... , I

les contrats (i, j) avec i = 1,, I et j = 1 ,... , J(i)

les variables de structures

0(1),... ,0(1)

0(ij) avec i = 1 ,... , I et j = 1 , ..., J(i)

les variables observables et les poids qui leurs sont associés

X(ijt) et w(ijt)

aveci = 1 , ... , I , j = 1 ,..., J(i) et t = 1 , ... , T(ij).

Le contrat (i,j) est caractérisé par les variables 0(ij), X(ijl), X(ij2), ..., X(ijT(ij)).

La classe i est, elle, caractérisée par l’ensemble des variables

0(i), 0(il), 6(i2), ... , 0(iJ(i))

X(ill),... , X(iJ(i)T(ij)).

(36)

Nous avons donc

I sous-portefeuille

i= 1 i = 2 i =

B{ 1 ) 0(2) 0(

J(i) contrats pour chaque portefeuille

6(12) 0(lJ(i))

et finalement T(ij) observations pour chaque contrat

X(lll) X(121)

X( 112) X( 122) X(113)

X(!2T(12)) X( llT(ll))

Nous avons donc procédé à une réduction de l'information pour chacun des niveaux (réduction qui est évidemment exhaustive).

Dans la suite, nous utiliserons parfois le vocable : variable du niveau n.

Nous désignerons par cela les variables, ou l'une des variables, aléatoires observables du niveau n. Cette appellation sera précisée dans le paragraphe suivant dans un cas général à n niveaux.

Nous faisons alors les cinq hypothèses suivantes :

Hyp 1. Les classes i sont indépendantes les unes des autres.

Hyp 2. Pour chaque classe i, conditionnellement à 0(i), les contrats (i,j) sont

indépendants.

(37)

Hyp 3. Pour chaque classe i et chaque contrat conditionnellement à (0(i), 0(ij)), les observations X(ijl),... , X(ijT(ij)) sont

indépendantes;

de plus, la distribution de X(ijt) ne dépend que de 0(ij), c'est-à-dire que

P ( X(ijt) <= X / 0(i),0(ij) ) = P ( X(ijt) <= X / 0(ij) ) .

Hyp 4. Les variables aléatoires 0(i) sont iid de fonction de structure U( . );

pour 0(i) donné, les variables aléatoires 0(ij) sont iid de fonction de structure U'( . / 0(i) ).

Hyp 5. Pour tout i,j,t les fonctions suivantes existent (et ne dépendent pas des indices de leurs variables).

au niveau des contrats :

P2(0(ij)) = E[X(ijt) / 0(ij)]

O " ( 6>(ij) ) = Var [ X(ijt) / e(ij) ] w(ijt) au niveau des classes :

p.(0(i)) = E[p2 (0(ij)) / 0(i)]

F. M0(O) = E[aH0(ij)) / 0 {\) ] G. ^ ( d{i) ) = Var [ p. ( 0(ij) / 0(i) ] au niveau du portefeuille :

po

= E [

pi

( 0(i) ) ]

= E [ Fl 2 ( 0(i) ) ] G" = E [ Gi H ^(i) ) ]

= Var[ pi(0(i)) ]

Par souci de simplification d'une écriture qui peut devenir lourde ou

indigeste, nous écrirons parfois pi, p:, Gi^, Fi^ et a

(38)

Ces cinq hypothèses sont indispensables aux calculs qui vont suivre. Nous verrons qu'il est possible de les schématiser plus complètement, mais cela rendrait leur compréhension intuitive plus difficile, c'est pourquoi nous avons préféré utiliser en premier cette présentation-ci.

3.3.2. Procédures de calculs.

3.3.2.1. Définition.

Notre but consiste à obtenir les meilleurs estimateurs de crédibilité linéaires pour les primes de risque pi et p

2

. La locution "meilleur estimateur" signifie­

ra toujours dans la suite "meilleur estimateur linéaire" au sens des moindres carrés.

Rappelons qu'un estimateur (n+1) = f ( X(l),... , X(n) ) d'une variable aléatoire X(n+1) est le meilleur estimateur de X(n+1) au sens des moindres carrés s'il minimise l'expression suivante :

E [ X(n+1) - f(X(l),...,X(n)) f.

Ce principe est sans doute le plus répandu. Si l'on peut mettre à son crédit de nombreux arguments positifs, ceux-ci sont toutefois assez gratuits, à l'ex­

ception d'un seul d'entre-eux, car ils resteraient valables pour un principe avançant, par exemple, que la solution idéale serait de prendre l'estimation minimisant l'expression E [ | X(n+1) - f ( X(l),..., X(n) | ].

Le seul argument exceptionnel en faveur du principe des moindres carrés est qu'il semble bien être le seul à conduire à des formules maniables dans les si­

tuations les plus diverses.

Le problème est que cet estimateur se laisse rarement exprimer de façon ex­

plicite ou utilisable si l'on ne possède pas assez d'informations sur la fonction de distribution des variables X. On se contente alors de la résolution d'un problème plus simple, trouver la meilleure estimation f de X(n+1) au sens des moindres carrés telle que f soit une fonction linéaire des X(l),..., X(n) et de

1. La solution de ce problème "simplifié" est le meilleur estimateur linéaire

au sens des moindres carrés.

(39)

Il nous faut donc déterminer les coefficients c(0), c(ijt), e(0), e(ijt) qui minimisent les expressions suivantes :

I J(i) T(ij)

EfM‘(eo))-

C(0)

- E E E c(ijt) x(ijt) r

; =7 j = l t = 1

I J(i) T(ij)

E [ fi

2

( e(ij) ) - e(0) - E E E e(ijt) X(ijt) P / = 1 j = l t = l

Une première solution pour résoudre ces deux problèmes et obtenir les coef­

ficients recherchés est de résoudre les deux systèmes d'équation obtenus en annulant les dérivées premières par rapport aux coefficients de ces deux ex­

pressions. Cependant, il s'agit alors de résoudre deux systèmes d'équations de dimensions impressionnantes. Si cette résolution est la plus simple théori­

quement, elle devient difficilement utilisable dans les problèmes pratiques en raison de la quantité de calculs à fournir ( E E T(ij) +1 inconnues dans un système de même dimension).

Une deuxième solution fut proposée par Bühlmann et Jewell, basée cette fois non sur l'annulation des dérivées premières mais sur une méthode re­

cursive et sur les espaces de Hilbert. C'est cette méthode, bien plus pratique que la première, qui sera développée ici.

L'espace de Hilbert considéré sera l'espace réel U des variables aléatoires de moments du second ordre finis (cad E [ ] plus petite que l'infini) définies sur un espace de probabilité fixé.

Le produit scalaire, la norme et la distance dans L^, sont respectivement définis comme suit :

<X, Y> = E [ XY ]

Il X II = ( E [ XM )

Il X-Y II = ( E[(X-Y)^ ] )

avec X,Y appartenant à L^.

(40)

Dans ce cadre, nous pouvons interpréter géométriquement les deux expres­

sions précédentes. La recherche des coefficients c(0) et c(ijt) se ramène à la recherche du point

I J(i) T(ij)

p^i {d(ï) ) = c(0) + E E E c(ijt) X(ijt) i=1 j = 1 t= 1

qui se trouve "le plus proche" de ( d(ï) ) c'est-à-dire qui minimise la distan­

ce

||p,(0(i)) - p-,(0(i))|| .

Or, pour trouver le point p '^i le plus proche d'un point pi, il suffit de prendre la projection orthogonale de pi sur le sous-espace de U engendré par les variables [ 1 , X(ijt) ],

(1 est la variable aléatoire dégénérée qui vaut 1 presque sûrement, nous la noterons ainsi, malgré l'abus de notation, par facilité).

Nous noterons cette projection ;

Pro[pi(0(i)) / <l,X(ijk)>].

De même, nous aurons que p

^2

sera le point le plus proche de p:

c'est-à-dire

Pro[ P2(0(ij)) / <l,X(ijt)> ]

Nous avons donc ramené le problème du calcul de deux estimateurs de crédi­

bilité à celui de la projection de deux variables aléatoires. Cette projection se­

ra aussi caculée par l'annulation des dérivées premières d'une équation, mais

les sytèmes à résoudre seront bien moins importants et permettront d'aboutir

à une procédure récursive simple.

(41)

Nous verrons que, au lieu de devoir résoudre un énorme système à Si Sj T(ij) + 1 équations, nous aurons à résoudre un système à T(ij) + 1 équations et un autre à J(i) + 1 équations. De plus, nous verrons aussi que le calcul explici­

te de ces projections permet l'obtention d'un système de calcul récursif simple pouvant être adapté à un nombre indéfini de niveaux. C'est cette résolution récursive qui nous permettra d'éviter les longs calculs de la résolution classi­

que.

C'est le calcul de ces projections et ces résultats que nous aborderons dans le sous-chapitre suivant.

3 3.2.2. Résolution.

Nous commencerons par rappeler quelques propriétés de la projection dans l'espace de Plilbert U, propriétés qui nous serons utiles pour la construction des estimateurs de crédibilité hiérarchiques.

Comme il n'est pas dans nos objectifs de développer le lien avec les espaces de Hilbert, nous ne démontrerons pas ici ces propriétés-là. On pourra trou­

ver sur ce sujet une information complète dans le livret de De Vylder publié par l'Office des Assureurs Belges, et cité dans la bibliographie en fin de cet ouvrage.

(La propriété de Markov est plus spécifiquement étudiée dans l'article de Witting "The Linear Markov Property Theory", cité lui aussi dans la biblio­

graphie).

Propriétés ;

Soit X, Y deux variables aléatoires appartenant à

L, K deux sous-espaces linéaires fermés avec K sous espace de L a, b deux scalaires.

Alors

propriété de linéarité

Pro [ aX+bY / L ] = a Pro [ X / L ] + b Pro [ Y / L ].

(42)

propriété de récursivité

Pro [X/K] = Pro [ Pro[X/L] /K ].

propriété linéaire markovietme

Soit une structure d'arbre hiérarchique à n niveaux

pour chaque niveau, nous avons la variable pi, i = 1 .... n , dépendant de 6( j(l),, j(i) )

Un arbre a la propriété markovienne dans l'espace de Hilbert considéré si, pour tout ensemble de variables Z, on a

Pro [ Pr / < P r-l , P M , Z ]

= Pro [ pr / < P , P M > ]

Les deux premières propriétés découlent des propriétés générales d'une pro­

jection dans un espace de Hilbert, la troisième peut se démontrer à partir des hypothèses faites initialement et de la construction de l'arbre hiérarchique.

De ces propriétés l'on peut tirer l'idée d'une procédure récursive. Ici aussi, nous n'entrerons pas dans le détail des calculs (pour ceux-ci se référer aux références précitées). Nous ne décrirons que les étapes du calcul récursif

Avant de se lancer dans la description de la procédure récursive, il faut avant tout se livrer à quelques calculs préliminaires.

Variances d'une variable de l'arbre :

Var [pi] = H2 par hypothèse.

Var [p

2

] = E[

= E[

=

Var [p

2

/ 0(i) ] ] + Var [ E [p

2

/ d(ï) ] ] G. M ^(i) ) ] + Var [pi]

+ ff.

(43)

Var [X(ijt] = E [ Var [X(ijt) / 0(ij) ] ] + Var [ E [X(ijt) / 0(ij) ] ]

= E [ a ^ / w(ijt) ] + Var [

112

]

= FVw(ijt) + Q2 +

Covariance entre deux variables de l'arbre :

Nous nous intérresserons aux deux cas suivants, dont nous énoncerons la règle générale. Nous ne démontrerons la véracité de celle-ci que dans deux cas particuliers, ceux dont nous aurons précisément le plus besoin dans la suite.

1° cas :

Covariance entre deux variables dont une est ascendante de l'autre.

La covariance est égale à la variance de la variable ascendante.

Cov [pi,g

2

] = E [ Cov [ pi,g

2

/ d(ï) ] + Cov [pi,gi]

= 0 + Var [gi]

= R2 2° cas :

Covariance entre deux variables dont aucune n'est descendante en ligne directe de l'autre.

La covariance est égale à la variance de l'ascendant commun le plus proche.

Cov [ p2 ( ^ij) ), X(ijt) ]

= E [ Cov [ p2 ( 0(ij) ), X(ijt) / d(ï) ] + Cov [gl,gl]

= 0 + Var [gl]

= H"

(44)

Voyons maintenant quelles sont les étapes permettant d'obtenir la méthode de calcul récursive promise au début :

1® étape,

Nous calculons la projection orthogonale de p: ( 0(ij) ) sur l'espace linéaire engendré par toutes les autres variables du problème, c'est-à-dire

Pro [ p2(0(ij)) / <l,X(ijt),p.(^(i))> ] qui est égale par la propriété linéaire markovienne à

Pro [ ii

2

( 0(ij) ) / < X(ijt), pi ( 0(i) ) > ].

Ce qui revient à rechercher les coefficients c'(0), c'(s) qui minimisent l'ex­

pression suivante

T(ij)

E [ ( p

2

( 0(ij) ) - c'(0) p. ( 6(i) ) - E c'(s) X(ijs) y ].

s = 1

On applique alors sur cette expression la résolution classique consistant à annuler les dérivées premières et à résoudre le système d'équations normales ainsi obtenu.

d d

--- = 0 et --- = 0

d c'(0) d c'(s)

qui donne le système, à T(ij) + 1 équations, suivant : T(ij)

E[p.(0(i)) ( p2(^ij))-c'(O)p.(0(i)) - E c'(t) X(ijt) )? = 0 t= 1

T(ij)

E[ X(ijs) ( p<0(ij)) -c'(O)p,(0(i)) - E c'(t) X(ijt) ) Y = 0

t= 1

(45)

On peut ré-écrire ce système de la façon suivante : T(ij)

Cov [pi,p

2

] - c'(0) Var [pi] - E c'(t) Cov [pi,X(ijt)]

t= 1

T(ij)

+ ( 1 - c'(0) - E c'(t) ) = 0 t= 1

T(ij)

Cov[X(ijt),p

2

] -c'(0) Cov[X(ijt),pi] - E c'(t) Cov[X(ijs),X(ijt)]

t= 1 T(ij)

+ po2 ( 1 - c'(0) - E c'(t) ) = 0 t = 1

s 1 ,.... , T(ÿ)

ce qui donne

T(ij) T(ij)

c'(0) - E c'(t) + poM 1 -c'(0) - S c'(t) )

t=l t=l

T(ij)

= ( + po2 ) ( 1 - c'(0) - E c'(t) ) = 0 t= 1

et

T(ij)

Œ + H2 - c'(0) W - E c'(t) ( (L. --- )

t = 1 w(ijs)

T(ij)

+ po^ ( 1 - c'(0) - E c'(t) ) = 0

t= 1

(46)

On obtient, après soustraction de la première à la deuxième, le système suivant :

c’(0) = 1 - E c'(t) F2

<y _c'(s) --- G" E c'(t) = 0 w(ijs)

De la deuxième équation on déduit que

c'(s) / w(ijs) est une constante indépendante de s donc

c'(s) T(ij) c'(t)

CF... - G" E --- w(ijt) = w(ijs) t = 1 w(ijt)

indépendant de t

d'où c'(s) = "wCiis)

et c'(0) =

(F

+ CF w(ij.) CF

F2 + CF w(ij.) et donc finalement :

Pro [p.(0(ij)) / <l,X(ijt),p.(0(i))> ]

= ( 1 - z(ij) ) ( ^(i) ) + z(Ü) X(ij w) avec z(ij) = CF w(ij.) / ( CF w(ij.) + F^ )

T(ij) w(ijt)

X(ij w)= E --- X(ijt) t = 1 w(ij.)

T(ij)

w(ij.) = E w(ijt)

t= 1

(47)

2° étape,

Nous calculons la projection orthogonale de g

2

( 0(ij) ) sur l'espace linéaire engendré par les variables < 1 , X(ijt) > c'est-à-dire

Pro [ g2(0(ij)) / <l,X(ijt)> ].

Pour calculer cette projection, il suffit de reprendre l'égalité résultante de l'étape précédente et de la projeter sur l'espace linéaire engendré par les variables < 1 , X(ijt) >. En utilisant les propriétés de linéarité et de récur­

sivité, il vient que

Pro [ \i

2

( 0(ij) ) / < 1 , X(ijt) > ]

= ( 1 - z(ij) ) Pro [ pi ( 0(i) ) / < 1 , X(ijt) > ] + z(ij) X(ij w)

3° étape.

Nous devons calculer Pro [ pi ( 9{ï) ) / < 1 , X(ijt) > ].

Pour cela, nous lui appliquons les opérations des étapes 1 et 2, c'est-à-dire

Etape 1' : Pro [ pi ( 0(i) ) / < 1 , X(ijt), p

2

( 0(ij) ) > ] Etape 2' ; Pro [ pi ( 0(i) ) / < 1 , X(ijt) > ]

pour résoudre l'étape 1', nous faisons appel à la propriété linéaire marko- vienne et nous obtenons que

Pro[pi(^i)) / <l,X(ijt),p

2

(^ij))> ]

= Pro [ pi ( 0(i) ) / < 1 , p: ( 0(ij) ) > ] .

Ce qui revient à rechercher les coefficients d(0), d(j) qui minimisent l'ex­

pression suivante

J(i)

E [ pi(^i)) - d(0) - E d(j) P2(^ij)) P

j = l

(48)

On applique la procédure de résolution classique, et on obtient

d d

--- = 0 et --- = 0

d d(0) d d(s)

J(i)

E [ p.(0(i)) - d(0) - E dO) P2(0(ij)) ] = 0 j-1

J(0

E [ p:(0(ij)) ( p.(0(i)) - d(0) - E dO) P^(0(ij)) ] = 0 j=l

ce que l'on peut réécrire comme :

po ( 1 - E d(j) ) - d(0) = 0

Cov [p

2

,pi] - d(0) po - E d(j) Cov [p

2

( 0(is) ),p

2

( 0(ij) )]

+ poM 1 - E d(j) ) - 0

ou W - d(0) po - E dO) ( dsj Œ + ) = po^ ( 1 - E d(j) ) = 0

L'on procède alors comme dans l'étape 1 en soustrayant la première équa­

tion, multipliée par po, à la seconde, et en remarquant que d(j) est égal à une constante pour tout j. On en déduit les valeurs pour d(0) et d(j) et l'on obtient la formule de crédibilité attendue :

Pro [ pi ( 0(i) ) / < 1 , X(ijt) , p

2

( 0(ij) ) > ] 1 J(i)

= ( 1 - e(i) ) po + e(i) — E p

2

( 0(ij) ) J(i) j=l

avec e(i) = J(i) / ( J(i) + Œ ) .

Références

Documents relatifs

Hormis les principales fibres de synthèse utilisées actuellement, les fibres de chrysotile présentent, de par leurs caractéristiques mé- caniques, un potentiel important d'agents

oeuvre commune. C'est la pratique surtout qui a suggéré l'idée et le fond du manuel. Là, sont réunies des remarques personnelles ti­ rées de l'expérience, rédigées sous forme

enfant ou un adolescent sur ses loisirs, il ne pensera pas à l'école, qui lui semble le plus souvent comme une contrainte, mais bien au temps dont il dispose librement après

lignes; mais on doit tenir compte du gonflement extraordinaire de la paroi anté- rieure du vajçin et du col de la vessie, qui avait disparu en grande partie après la délivrance et

résista pas longtemps à ces secousses nouvelles et sou- vent répétées, et il fut bientôt affect é du délire des ivre-.. Sa femme le fit contenir par plusieurs hommes;

Les il;l3tances I~2~4-&#34;5-6 sont beaucoup plus importantes dans le crâno ratle que dans le crâne femelle ; le gorille mâle possède donc une face plus développée que la femelle ;

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé

° Parallèlement, l'érosion des forces classiques des partemires de l'Alliance s'est poursuivie sans discontinuer pour des raisons diverses, de nature économique, de