- - -
- - -
Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository
Thèse de doctorat/ PhD Thesis Citation APA:
Keyers, B. (1995). Tarification des accidents de travail. Méthode de crédibilité hiérarchique (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des sciences, Bruxelles.
Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/212608/1/f71bfe33-d65a-48be-8dc7-54bce9a52b65.txt
(English version below)
Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université ([email protected]).
Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.
DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :
Le nom des auteurs, le titre et la référence bibliographique complète soient cités;
L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;
Le contenu ne soit pas modifié.
L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.
--- English Version ---
This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University ([email protected]).
If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.
DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.
Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:
The authors, title and full bibliographic details are credited in any copy;
The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;
The content is not changed in any way.
It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.
V2
ho1'
Année Académique 1994-1995
UNIVERSITE LIBRE DE BRUXELLES Faculté des Sciences
Professeur J.M. REESIHARD.
TARIFICATION DES ACCIDENTS DE TRAVAIL Méthode de Crédibilité Hiérarchique
Mémoire présenté par Bertrand Keyers
en vue de l'obtention du grade de
licencié en Sciences Actuarielles.
Année Académique 1994-1995
UNIVERSITE LIBRE DE BRUXELLES Faculté des Sciences
Professeur J.M. REINHARD.
TARIFICATION DES ACCIDENTS DE TRAVAIL Méthode de Crédibilité Hiérarchique
Mémoire présenté par Bertrand Keyers
en vue de l'obtention du grade de
licencié en Sciences Actuarielles.
A l’issue de ce tra\’ail,je tiens à remercier Monsieur Jean-Marie Reinhard, Professeur à l’Université Libre de Bruxelles, qui m’a autorisé d’effectuer ce mémoire sous sa direction. C’est son aide et ses conseils qui m’ont permis de mener à bien ce tra\>ail.
Je remercie aussi Monsieur Jean-Marie Maes, Directeur Développement- Contrôle-Organisation à Assubel, pour l’aide et les précieuses indications qu’il m’a fournies et sans lesquelles ce mémoire n’aurait pu voir le jour.
Enfin, je tiens à remercier ma Mère pour le soutien qu’elle m’a apporté tout au
long de mes études. Sans elle, rien n’aurait été possible.
Table des Matières :
1. Introduction. p3.
2. Les accidents du travail. p 6.
2.1. Un peu d'histoire. p6.
2.2 Actuellement. p9.
2.3 Les données. p 10
2.4 Analyse des codes NACE. P 13
2.5 La hiérarchie induite par les codes NACE. p20
Le modèle hiérarchique de Jewell. p22
3.1. Introduction. p22
3.2. Le modèle de Bühlmann-Straub. p23
3.3. Le modèle de Jewell. p28
3.3.1. Présentation du modèle et hypothèses. p 28 3.3.2. Procédures de calculs. p 33
3.3 2.1. Définitions. p 33
3.32.2. Résolution. p36
3.4. Développement du modèle de Jewell.
3.5. Conclusion.
P 47.
P 57.
4. Estimation des paramètres. p 58.
5. Le modèle à quatre niveaux. p 69.
6. Lien avec l'analyse de la variance. p 75.
6.1. Introduction. p 75.
6.2. Modèle hiérarchique. p 76.
6.3. Modède hiérarchique à quatre niveaux. p 84.
6.4. Conclusion. p91.
7. Application. p 93.
Combinaison linéaire. p 109
p 119
9. Conclusion.
Appendice 1.
Appendice 2.
Appendice 3.
Appendice 4.
Appendice 5.
Bibliographie.
Chapitre 1 : INTRODUCTION.
Nous allons effectuer dans cet ouvrage l'étude de la possible utilisation de méthodes de crédibilité dans le cadre de l'obtention d'une tarification pour les primes d'assurances contre les accidents de travail.
En effet, de nombreuses particularités, auxquelles nous consacrerons que- ques mots dans le chapitre deux, font des assurances belges contre les accidents de tavail un cas unique. L'unicité du système rend indispensable qu'on lui consacre des études spécifiques. L'étude que nous nous proposons de faire est l'une d'elles. Nous espérons montrer qu' il est possible et, sur
tout intéressant, d'introduire le concept de la crédibilité dans le calcul de ces primes d'assurance.
Pour cela, nous commencerons, dans le deuxième chapitre, par définir quelle est la situation statistique actuelle dans le domaine des accidents de travail, c'est-à-dire que nous nous poserons essentiellement les trois ques
tions suivantes :
- de quelles données dispose-t-on, et sous quelles formes celles-ci se présentent-elles,
- quelles sont les informations qu'ils nous faut en retirer, et
- finalement, quelles sont les possibilités qui nous sont offertes pour y
arriver.
Nous verrons dans ce chapitre qu'il existe de nombreuses raisons pouvant pousser à l'utilisation de méthodes de crédibilité. Cependant, la trop grande simplicité structurelle des modèles classiques (par exemple, ceux de Bühl- mann) rend ceux-ci inemployables dans un cadre pratique comme celui auquel nous nous intéressons. Nous verrons, en effet, que l'absence d'une notion de hiérarchie rend presque inutile tous les résultats que pourrait nous apporter leur utilisation. Plutôt que d'abandonner l'idée d'utiliser des notions de crédibilité, et par là même d'abandonner les avantages qu'elles peuvent apporter, nous essayerons, dans les chapitres suivants, de développer un modède de crédibilité adapté à notre problème.
Nous commencerons alors, dans le troisième chapitre, à nous intéresser à la théorie de la crédibilité et aux differents modèles qu'elle pourait nous propo
ser pour résoudre le problème de tarification que nous nous posons.
Nous présenterons en premier lieu le modèle classique de Bühlmann mais en nous arrangeant pour voir qu'il est possible de l'adapter, on pourrait dire de le compléter, afin d'y introduire cette notion de hiérarchie des données qui nous manque.
Cela nous amènera à étudier le modèle dit de Jewell, et à voir comment il serait possible de l'adapter à nos besoins. Afin de réaliser cette adaptation, nous développerons un "modèle général de Jewell", et nous en indiquerons les principales particularités. Nous verrons que l'intérêt des modèles de Jewell réside dans la présence de niveaux dont nous montrerons comment ils peuvent correspondre à la notion de hiérarchie dont nous avons besoin.
Dans le quatrième chapitre, nous résolverons l'un des problèmes posés par le développement du modèle de Jewell, celui de l'estimation optimale de ses paramètres strcturels. Nous verrons que celle-ci peut se faire par l'intermé
diaire des estimateurs dits de Sundt, et nous étudierons alors en détail ceux- ci. Nous calculerons alors finalement les estimateurs de Sundt qui seront utilisés dans le cadre de notre recherche. Nous présenterons aussi une sché
matisation de ces estimateurs permettant de les obtenir pour un nombre de
niveaux quelconque.
Dans le cinquième chapitre, nous réécrirons les résultats obtenus dans le chapitre trois sur le modèle général de Jewell, mais en les particularisant à un nombre de niveaux précis, celui dont nous avons besoin pour notre analyse.
Nous réétudierons dans ce cas particulier les résultats généraux obtenus dans les deux chapitres précédents.
Dans le sixième chapitre, nous démontrerons l'existence d'un lien très net entre la théorie de crédibilité que nous avons développé et celle de l'analyse de la variance. Nous montrerons que les deux études se basent sur des para
mètres structurels entre lesquels il est possible d'obtenir des liens étroits. En particulier, nous verrons qu'il est possible de calculer les paramètres de l'une de ces deux analyses en fonction de ceux de l'autre. Nous montrerons, alors, quels sont les avantages, tant théoriques que pratiques, qui sont apportés par l'utilisation de ce lien.
Dans le septième chapitre, nous appliquerons finalement les résultats de nos efforts au problème des assurances contre les accidents de travail et nous verrons que ceux-ci permettent d'obtenir une solution qui possède plusieurs des avantages recherchés.
Enfin, dans le huitième chapitre, nous nous réintéresserons rapidement à la possibilité d'utiliser dans nos bases de données une partie des informations que nous avions écartées. Nous y établirons aussi une règle en rapport avec les combinaisons linéaires des variables.
*
Chapitre 2 : LES ACCIDENTS DE TRAVAIL.
2.1 Un peu d'histoire.
Commençons par faire un peu d'histoire.
L'Arrêté Royal n°530, du 31 mars 1987, a confié aux assureurs un certain nombre d'obligations auparavant dévolues au Fonds des Accidents du Travail (F.A.T.). Cet arrêté n'est que le dernier en date d'une longue série, et ne fait que renforcer le côté exceptionnel du rôle tenu par les assurances contre les accidents de travail en Belgique.
n s'agit, en effet, de l'un des seuls pays européens où les assurances contre les accidents de travail sont en majorité entre les mains du secteur privé.
Certes, cela va sans dire, sous une très forte réglementation et avec de très importants liens entre les assureurs privés et la sécurité sociale. Cette situa
tion oblige cependant les assureurs belges à se créer un système de tarifica
tion spécifique, obligation que ne connaissent aucun des assureurs étrangers
Depuis plusieures années, les assureurs belges sont à la recherche d'un sys
tème intéressant.
Lors de la sortie de l'Arrêté Royal, TU P E A (Union Professionnelle des Entreprises d'Assurance) préconisait déjà une modification des bases tari
faires, afin de se replacer en accord avec la nouvelle situation.
Depuis lors, divers changements et ajouts, tant légals qu'actuariels, eurent lieu. Malgré ceux-ci, et la plupart des avis sont identiques, la tarification actuelle est fondalementalement dépassée : il y a une insuffisance des recet
tes, insuffisance accentuée encore par la recrudescence de la fréquence des accidents de travail dont les causes sont, entre autres, la haute conjoncture actuelle, la diminution de l'âge moyen des victimes, une hausse des taux d'in
capacité moyenne, etc....
Cependant, tous les avis s'accordent actuellement pour dire que l'une des causes de détérioration des résultats dans ce secteur est dûe à une tarification
"s'appuyant de manière trop importante sur les seules statistiques du risque et négligeant par là la nature du risque et sa nécessaire mutualisation " (rapport d'activité de rU.P.E.A., 1991-92). En effet, sous la pression du marché une telle pratique conduit à l'octroi de réductions aux entreprises pouvant pré
senter des statistiques favorables (mais pas forcément significatives) sans pour autant être à même de créer une contrepartie à charge des entreprises ayant une lourde sinistralité et dont la lourdeur peut être trop facilement te
nue pour exceptionnelle.
Pour la période de 1988 à 1989, le secteur a enregistré des pertes atteignant les 6 milliards de francs sur un total de primes cumulé de 45 milliards de francs, c'est à dire un peu moins de 15%. Comme on le voit, il y a là un important problème. Constatant la poursuite de cette dégradation en 1990, l'U.P.E.A. a proposé, et préconisé, une révision fondamentale des règles de tarification.
Cette révision serait, dans un premier temps, appliquée aux risques lourds.
Elle est basée sur deux grand principes.
Premièrement ; la mesure de la nature du risque se ferait par type d'activité déterminé en fonction des groupes, classes et divisions de la nomenclature NACE, qui est une nomenclature générale des activités économiques dans les Communautés Européennes.
Deuxièmement, le poids à accorder à la statistique des sinistres relevés dans une entreprise serait de plus en plus significatif lorsque l'importance de l'en
treprise augmenterait. Cette importance serait appréciée selon la masse sala
riale et, partant, selon l'effectif occupé.
Comme on peut le voir, on retrouve bien dans ce deuxième principe l'idée d'une notion de crédibilité. Rappelons que l'idée de la crédibilité est de faire intervenir, pour l'estimation d'une variable, à la fois la moyenne générale de l'ensemble des opérations et la moyenne particulière. Ces deux moyennes sont sommées pour obtenir l'estimateur, chacune s'étant vue attribuer un poids, le facteur de crédibilité.
On voit donc qu'il est possible de créer facilement un lien entre la crédibilité et certains des objectifs de la proposition de l'U.P.E.A. ,
Remarquons ici, que le fait d'utiliser un modèle avec des notions de crédi
bilité dans le domaine des accidents de travail n'est pas exceptionnel. Aux USA, par exemple, le critère de crédibilité totale est appliqué aux accidents de travail.
En dépit d'un dossier solidement étayé et des problèmes évidents existant dans ce domaine, la proposition de restructuration tarifaire de l'U.P.E.A.
reçut un avis négatif de la commission des prix, à la quasi unanimité des avis.
L'idée d'une nouvelle tarification fut cependant acceptée l'année suivante et, depuis lors, elle est en partie d'application.
Par la suite, plusieurs modifications furent apportées à l'idée de base, toutes allant dans le sens de plus grands regroupements entre les assurés. Cette idée de base est cependant restée la même.
Depuis 1991, il appartient à chaque assureur de déposer auprès du service
des Assurances du Ministère des Affaires économiques un dossier individuel
pour l'approbation de la prime commerciale, dossier qui devra ensuite être
communiqué au Service des Accidents du travail du îÆnistère de la
Prévoyance Sociale.
2.2 Actuellement.
Actuellement, on s'interroge : la réévaluation de la restructuration tarifaire a permis de constater "qu'à force de vouloir coller à tout prix aux codes NACE on en était venu à une individualisation des risques à ce point poussée qu'elle arriverait à déjouer la loi des grands nombres". La base du problème vient de ce que les codes NACE sont une classification des entreprises économiques qui, à l'origine, n'a pas été prévue pour les assurances. Il y a près de mille codes NACE, et il est évident que certains d'entre eux, surtout s'ils sont limi
tés à la Belgique, ne peuvent fournir une base statistique suffisante.
Personne ne songe pourtant à renoncer à l'utilisation des codes NACE.
Ceux-ci possèdent d'indéniables avantages, ne fut-ce qu'en permettant aux assureurs de remonter dans le temps lors de l'appréciation des risques que comportent les multiples types d'activités à couvrir. En effet, l'utilisation du code NACE est la seule formule qui permette une évaluation basée sur un historique connu. De plus, rien ne permet d'affirmer que si nous améliorions la structure que nous possédons de façon à résoudre le problème de disper
sion constaté nous n'obtiendrions pas la structure la plus adéquate.
Une première idée, est de regrouper certains codes NACE pour obtenir des ensembles homogènes capables de fournir une information statistiquement suffisante. Cependant, on peut se demander s'il ne serait pas plus intéressant d'utiliser des techniques de crédibilité plutôt que de faire du regroupement.
C'est ce que nous espérons montrer dans les chapitres suivants.
2.3 Les données.
Les données dont nous disposons sont basées sur la nomenclature NACE. Il s'agit d'une classification européenne des entreprises par type d'activité. Elle se compose de cinq chiffres : les deux premiers représentent une classe d'ac
tivité générale (agriculture, par exemple), le suivant indique un domaine pré
cis de la classe d'activité (horticulture), les deux derniers sont une classifica
tion encore plus fine du type d'activité de l'entreprise (pépinière).
Par exemple : 50 bâtiment et génie civil 501 construction d'immeuble 501.51 rejointoiement des façades.
A titre d'exemple, nous présentons dans les pages suivantes deux extraits des codes NACE européens qui montrent bien la classification qu'ils donnent aux différents types d'activités économiques.
Il est important de noter que ces codes n'ont nullement été prévus, à l'origine, pour être utilisés dans le cadre des assurances. Il s'agissait d'une classifica
tion économique ne prenant en compte que les différences entre les activités exercées, et non les différences entre des types d'assurances. Ils ne sont donc pas adaptés aux besoins spécifiques de cette branche économique.
Parmi les nombreux problèmes que cela peut poser, on peut noter les deux suivants :
n peut n'y avoir aucune homogénéité entre deux éléments appartenant à une même classe ou un même domaine.
Certains codes NACE possèdent une base à ce point réduite qu'ils ne sont plus utilisables statistiquement. Cela est dû à la trop grande pré
cision des codes NACE dans certains domaines (par exemple, la
culture des fraises possède son propre code NACE au même titre que
le commerce en gros de la viande).
01 AGRICULTURE ET CHASSE 011 Agriculture et élevage
011.1 Agriculture et élevage 2,525 0,920
011.2 Agriculture 2,525 0,920
011.3 Elevage
011.31 Elevage du grps bétail 6,682 3,031
011.32 Elevage des porcs 5,727 2,470
011.33 Aviculture 2,544 1,212
011.3 'i Elevage des chevaux 7,962 2,251
011.35 Elevage des chiens (destinés principalement à
la vente) 2,544 1,212
011.36 Elevage d’animaux à fourrure 2,544 1,212
011.37 Elevage du gibier en captivité 2,544 1,212
011.38 Apiculture 2,544 0,927
011.39 Elevage du vers à soie 2,544 0,927
012 Horticulture, fruiticulture en noriculture
012.1 Horticulture maraîchère 2,250 0,362
012.2 Fruiticulture
012.21 Culture des fraises 2,250 0,862
012.22 Culture des baies 2,250 0,362
012.23 Culture des fruits sur arbres basse tige 2,699 0,983
012.24 Culture des fruits sur arbres demi-tige 5,574 2,478
012.25 Culture des fruits sur arbres haute tige 7,962 2,251
012.3 Péoinière 2,250 1,022
012.4 Viticulture 2,250 0,362
012.5 Floriculture et production ie bulbes 2,250 0,362
012.5 Création, implantation et enrrerien de jardins et parcs
012.ôl Implantation des jardins et parcs avec entretien 2,245 1,162 012.52 Chirurgie des arbres et transplantation d’arbres
feuillus et à aiguilles 12,564 3,432
012.7 Horticulture n.d.a. 2,250 0,362
013 .Activités anne.xes à l’agriculture, à l’horncuiiure et à l’élevage
013.1 Entreprise de battage 5,077 1,849
013.2 Entreprise de pulvérisation 5,077 1,349
N ACE TP?
50 500 500
500 501 501 501
501 501
501 501 501 501, 501.
501.
501.
501.
501.
501.
501.
502
502.
502.
502.
502.
502.
502.
BATIMENT ET GENIE CIME
Bûtinient et génie civil (sans spécialisation); démolition .1 Construction de bâtiments et travaux de
génie civil (à ne pas utiliser)
.2 Démolition 14,^34 6,504
Construction d’immeubles (d’habitation et autres) .1 Entreprise générale de bâtiment
.11 Villas et autres habitations unifamiliales (y co.mpris le montage d’éléments préfabriqués
de maisons Ainifamiliales et villas) 5,j63 2,115
.12 Autres constructions de bâtiments 7,S57 2,718
.2 Entreprise de couverture (seuls les toits
inclinés) 14,130 4,248
,3 Construction de cheminées et fours 10,288 4,576
4 Entreprise d’étanchéité
41 Toits plats 7,598 3,808
42 Autres 4,538 2,115
5 Entreprise de ravalement et d’entretien de façades
51 Rejointoier.ent de façades 6,c56 2,257
52 Ravalement et entretien de façades hors
rejointoiement 6,c56 2,257
6 Entreprise d’échafaudage 10,-50 3,883
7 Entreprise spécialisée dans d’autres activités du bâtiment
71 Coffrage et ferraillage sur chantier 7,534 2,975
72 Montage d’éléments préfabriqués en béton à d’autres fins que villas et maisons unifami
liales 7,534 2,975
Génie civil : construction de routes, ponts, voies ferrées, aérodromes, etc...
1 Entreprise générale de génie civil 7,557 2,718
2 Entreprise de terrassement à l’air libre 5,7^7 3,020
3 Entreprise d’ouvrages d’art terrestres
31 Entreprise de travaux de forage, de sondage
et de fonçage de puits 7 , C41 3,394
32 Entreprise de fondation, de battage de pieux et palplanchés, de travaux de consolidation du sol par tous systèmes, de construction de ponts, viaducs, tunnels pour routas et chemins de fer 321 Entreprise de fondation, de battage de pieux
et palplanchés, de travaux de consolidation du
sol par tous systèmes, de construction de ponts,
Il y a au total près de 1000 codes NACE différents, ils sont regroupés en 287 domaines d'activité, ceux-ci étant eux-même répartis entre 49 classes.
On dispose pour chacun de ces codes NACE des taux de prime pure pour chacune des cinq années del988 à 1992, soit près de 5,000 données (mais certaines sont manquantes). On dispose de plus, à chaque fois, de la masse salariale correspondant à ce taux de prime. Ces données proviennent de 8 organismes assureurs représentant les 2/3 de l'encaissement global du marché de l'assurance.
Les accidents du travail sont, eux-mêmes divisés en deux catégories impor
tantes : les accidents avec invalidité permanente, et les accidents sans inva
lidité permanente. La définition de la frontière exacte entre ces deux classes ne sera pas présentée ici. On pourra la retrouver dans les références citées dans la bibliographie, à la fin de cet ouvrage.
Entre ces deux types d'accidents, il existe bien évidemment d'importantes différences. Cependant, comme nous allons le voir tout de suite, cette divi
sion entre accidents avec et sans invalidité permanente ne nous posera pas de problèmes.
2.4 Analyse des codes NACE .
Une analyse de variance fut effectuée par la Commission technique et finan
cière et le groupe de travail Statat pour étudier la hiérarchie créée par le sys
tème de classe du code NACE. Les principaux résultats de celle-ci sont repris dans l'appendice 3.
Un autre résultat, très important, est le lien de corrélation très fort entre les résultats avec invalidité permanente et sans invalidité permanente.
Ce lien est très bien représenté par le graphique se trouvant à page suivante.
TP P. IP
Les cas avec invalidité temporaire se retrouvent sur l'abscisse en %, ceux avec invalidité permanente sur l'ordonnée en %. Chaque point représente les résultats pour l'un des domaines du code NACE (il y a superposition de cer
tains points).
La droite de régression a été ajoutée. Son équation est :
taux de prime avec IP = 3.93 * taux de prime sans IP - I.
Pour éviter des valeurs négatives, le graphique présente une régression linéaire "forcée par zéro". Une autre possibilité, retenue par la comission d'étude actuelle, est d'utiliser le modèle suivant :
taux de prime avec IP = 2.905 taux de prime sans IP
Le coefficient 2.905 de ce modèle a été obtenu comme le rapport du taux de prime avec IP au taux de prime sans IP pour les codes NACE pris dans leur ensemble.
L'analyse de régression donne un coefficient de corrélation égal à 0.85, ce qui signifie, entre autres, que 73% de la variance observée entre taux pour les cas avec IP sont explicables par la relation entre ce taux et son homo
logue sans IP.
Comme nous l'avons vu, la classification des codes NACE n'était pas adap
tée aux besoins de l'assurance, et plusieurs modifications ont eu lieu ces der
nières années pour essayer de résoudre ce problème. Elles ont abouti à une reclassification des 287 domaines ou groupes d'activité dans 31 classes plus homogènes. C'est cette nouvelle classification que nous allons retenir dans la suite.
Commençons par analyser les avantages qu'elle nous procure.
Nous procédons aux quatre analyses de la variance dont les tableaux se trouvent sur cette page et sur la page suivante.
General Linear Modela Procedure
Dépendent Variable: TPP_IP
WeighC: SALARIS verzekerd loon 1000 F (7n)
Source DF Sum of Squares Mean Square F Value Pr > F
Model 934 8356718930.38284000 8947236.54216579 4.41 0.0001
Error 3607 7314033610.48720000 2027733.18838015
Corrected Total 4541 15670752540.87000000
R-Square C.V. Root MSE TPP_IP Mean
0.S33269 9999.99 1423.98496775 2.46214302
Source DF Type I SS
S
Mean Square F Value Pr > F
TPP IT 1
w
4471218616.46724000 4471218616.46724000 2205.03 0.0001
NA' 30 1238514680.19243000 4lj283|822.67308100 20.36 0.0001
NACE_G 277 1451772527.57984000 5241056.05624492 2.58 0.0001
NACE2 622 1161495564.13339000 1867356.21243312 0.92 0.9056
JAAR 4 33717542.00993510 8429385.50248379 4.16 0.0023
General Linear Modela Procedure
Dépendent Variable: TP?_TOT
Weight: SALARIS verzekerd loon 1000 F ,7n)
Source DF Suzi of Squares Mean Square F Value Pr > F
Model 933 11357042979.03620001 12172607.69457260 5.87 0.0001
Error 3608 7484210228.2686000: 2D74S37.64641591
\ Corrected Total 4541 18841253207.3048000:
R-Square C.V. Root MSE TPP_TOT Mean
0.602775 9999.99 1440.25610445 3.34419007
Source DF Type I SS
t
Mean Square F Value Pr > F
NACF-C 30 6754946944.48927000 225164898.14964200 108.55 0.0001
NAt 277 3077825046.5340200C H111281.75644050 5.36 0.0001-
Gensral Linear Modela Procedure Dépendent Variable: TPP_IP
Weight: SAIARIS verzekerd loon 1000 F (7n)
Source DF Sum o£ Squares Mean Square F Value Pr > F
Model 933 8323‘77429.74215000 8921519.21730135 4.38 0.0001
Error
Corrected Total
3603
4S41
R-Square
7346975111.12789000
15670‘52540.87000000
C.V.
2036301.30574498
Root MSE TPP’_IP Mean
0.531166 9999.99 1426.99029630 2. 46214302
Source DF Type I SS Mean Square F Value Pr > F
NAGE C 30
»
4‘6913f 1200.64908000 156378706.68830200 76.80 0.0001
N? 277 23077=1327.12718000 8331376.63222810 4.09 0.0001
NAGr:2 622 l|269 = = 5787.17097000 2041777.79287937 1.00 0.4768
JAAR 4 54639114.79491730 13659778.69872930 6.71 0.0001
General Linear Modela Procedure
Dépendent Weight:
Variable: TPP_IT
SALARIS verzekerd loon 1000 F (7n)
Source DF Sum of Squares Mean Square F Value Pr > F
Model 933 368919130.33866500 395411.71526116 26.73 0.0001
Error 3608 53373360.06738580 14t793.05988564
Corrected Total 4541 422292490.40605100
R-Square C.V. Root MSE TPP_IT Mean
0.873610 9999.99 121.62672357 0. 88204705
Source . DF Type I SS Mean Square F Value Pr > F
NACE_C 30 220967820.24830900* 7365'594.00827699 497.91 0.0001
277 109130821.06617200 393.'974.08327138 26.63 0.0001
NACl..: 622 30093690.67475040 ''48pT2.13934847 3.27 0.0001
JAAR 4 8726798.34943314 2^8lj699.58735828 147.48 0.0001
La première, est l'analyse de la variance pour les cas avec IP et sans IP. Elle est la correspondance de celle dont nous avons reproduit les résultats dans l'annexe 3.
On obtient les résultats suivants :
dl SC
♦
CM F
classe 30 675 22516489 20.26
groupe (classe) 277 308 1111128 4.83
code N ACE (groupe) 622 142 229758 1.11
année 4 10 2379361 11.47
erreur 3608 748 207434
total 4541 1884
pour la somme des carrés, il faut multiplier ces résultats par 10 000 000 afin d'obtenir les valeurs exactes.
Comme on peut le voir, les 31 classes, bien que moins nombreuses que pré
cédemment, expliquent 36% de la variance, contre les 31% de l'analyse pré
cédente. On peut ainsi voir que cette nouvelle classification conduit bien a une meilleure discrimination que l'ancienne et que, de plus, elle correspond à une plus grande homogénéité dans les classes. En effet, la partie de la variance expliquée par les groupes dans les classes passe de 20% à 16%.
Il apparaît aussi que la variation des codes à l'intérieur des groupes est non
significative. Le rapport F de 1,11 signifie que cette variance est presque
entièrement explicable par l'erreur "expérimentale".
Dans le cas de l'analyse ne tenant uniquement compte que des cas avec IP, on obtient des résultats similaires à ceux déjà obtenus. Par contre, si on étudie les résultats de l'analyse de la variance basée uniquement sur les cas avec IT, on s'aperçoit que celle-ci est beaucoup plus discriminante qu' au
paravant. Le modèle explique maintenant 87% de la variance. Ce résultat s'explique très facilement : les cas sans invalidité permanente ont une fré
quence beaucoup plus élevée que ceux avec invalidité permanente (la fré
quence des sinistres est 83 fois plus élevée dans un cas que dans l'autre).
Cette plus grande fréquence aboutit à une meilleure précision dans la con
naissance des taux de prime pure.
Nous procédons alors à une quatrième analyse, très semblable à la deuxième que nous avons effectuée, mais cette fois-ci nous introduisons comme varia
ble explicative du taux de prime avec IP le taux de prime sans IP. On cons
tate que le paramètre reflétant la liaison entre le taux de prime des cas avec IP et celui des taux de primes sans EP explique, à lui seul, 28% de la varian
ce. Par contre, le facteur de différence entre les classes n'explique plus que 8% au lieu des 30% précédents, et celui des différences entre groupes n'ex
plique plus que 8% au lieu des 15%.
Nous pouvons donc en déduire qu'il est possible de prédire les taux des cas avec IP par les taux des cas sans IP, par exemple en utilisant les formules de régression vues plus tôt. Une analyse sur les écarts (taux avec IP - taux sans IP) peut être faite, elle confirme les résultats obtenus.
Ceci est très important. Nous pourrons donc envisager de nous limiter à l'avenir aux cas sans IP. Cette limitation a un intérêt considérable. Les cas sans IP sont beaucoup plus nombreux et fournissent donc une base statis
tique bien supérieure à celle fournie par les cas avec EP. De plus, l'analyse des répartitions et des fréquences pour les cas avec EP montre que ceux-ci ne sont guère réguliers, au contraire des cas sans IP. D'une certaine façon les accidents avec invalidité permanente ont une nature plus "exceptiormelle"
que ceux sans invalidité permanente. Leur étude serait plus difficile. Nous voyons que, heureusement, nous pouvons nous consacrer plutôt aux don
nées fournies par les cas sans IP, qui sont, elles, plus faciles à analyser.
2.5 La hiérarchie induite par les codes NACE .
Nous voyons que les codes NACE induisent la hiérarchie suivante :
Ensemble des assurances accidents de travail
Division selon 31 classes
Division selon 287 groupes homogènes qui se répartissent entre les 31 classes
/■■ I
Ensemble des 1000 codes NACE
et nous disposons pour chaque code de 5 observations.
Il est évident qu'il faut que cette hiérarchie soit représentée dans le modèle d'analyse pour que celui-ci puisse être proche des données qu'il désire ana
lyser.
Les observations se noteront X(ijkt)
i indiquant la classe = 1 ,, 31 j indiquant le jème groupe de la classe i
= 1,
k indiquant le kème code du groupe j de la classe i
= l,...,K(ij)
t indiquant l'année d'observation = 1 ,, 5
Ce que nous allons essayer d'obtenir est une estimation des moyennes des taux pour
- les différentes classes - les différents groupes
- et les différents codes NACE;
c'est-à-dire les taux de prime pure estimés pour les classes i, pour les groupes j (dans les classes i) et pour chacun des codes NACE.
Le problème statistique est que, pour réaliser cela, nous ne disposons que de très peu de données, particulièrement dans le cas de certains codes et même parfois dans le cas de certains groupes.
L'utilisation de méthodes de crédibilité semble s'imposer d'elle-même, mais cela nous pose alors un nouveau problème. Comment tenir compte de cette hiérarchie qui soutend les codes NACE. Si, pour l'estimation d'une moyen
ne dans un code, les techniques de crédibilité classiques peuvent être suffi
santes, elles ne le seront pas pour les deux autres cas. Nous nous retrouvons donc devant la difficulté d'associer à une technique de crédibilité une notion de hiérarchie pouvant reproduire celle des codes NACE.
C'est ce que nous allons essayer de faire dans les chapitres suivants.
Chapitre 3 ; LE MODELE HIERARCHIQUE DE JEWELL.
3.1. Introduction.
Dans ce chapitre, nous aborderons les différents modèles de la théorie de la crédibilité. Nous commencerons par rappeler simplement le modèle classi
que de crédibilité, dit de Bühlmann-Straub, puis, nous présenterons un autre modèle de crédibilité auquel nous nous intéresserons plus en détail, le modè
le de crédibilité hiérarchique ou modèle de Jewell. Comme nous le verrons, ce modèle peut être vu comme un généralisation du modèle classique.
En plus de la résolution de ce modèle, qui nous sera utile pour l'étude de la tarification des accidents de travail, nous présenterons aussi les résolutions de modèles dans un cadre hiérarchique pour un cas univarié quelconque.
Nous montrerons, en outre, que la difficulté potentielle créée par l'adjonction d'une hiérarchie peut être annulée en utilisant certaines propriétés des espa
ces de Hilbert, et en développant celles-ci jusqu'à l'obtention d'un système de résolution récursif très simple à utiliser. Enfin, nous étudierons en détail ce système récursif afin de mettre en évidence ses avantages, ses inconvé
nients et, comme nous le verrons, la possibilité d'en simplifier l'usage par un
lien avec d'autres théories d'analyse.
3.2. Modèle de Bulhman-Straub.
Le modèle de crédibilité le plus connu est certainement celui dit de Bulhman- Straub.
Nous allons reprendre ici ses principaux résultats. Ceux-ci seront présentés d'une manière inhabituelle qui fera ressortir de façon évidente que ce modèle de crédibilité classique est contenu dans le modèle de crédibilité hiérarchique présenté au paragraphe suivant, modèle dont il n'est que le cas dégénéré.
Revenir à la présentation classique peut se faire sans peine.
Remarque :
Il est parfois fait référence de manière inadéquate au modèle de Bühlmann en parlant du modèle de Bühlmann-Straub et inversément. Pour éviter une con
fusion ou un ambiguité, précisons que l'unique différence entre ces deux mo
dèles vient de l'adjonction d'une pondération des variables observables (les observations) dans le modèle de Bühlmann-Straub. Nous ne développerons ici que le modèle de Bülhmann-Straub. Si l'on désire une étude du modèle de Bühlmann, il suffira de consulter certaines des références de la bibliographie.
Donc, sans détailler le modèle de Bühlmann-Straub, remettons en mémoire ses principales caractéristiques. Les notations utilisées dans ce chapitre et dans les chapitres suivants trouvent leurs définitions dans les appendices 1 et 2 se trouvant à la fin de cet ouvrage.
On dispose d'un portefeuille de risques inhomogènes.
Chaque risque est caractérisé par un paramètre de risque 6 inobservable.
Nous caractériserons la structure du modèle par plusieurs niveaux.
Le niveau 2, comprenant l’ensemble des données.
Nous avons les variables observables X(ij)
j = 1 ,...., J(i) à chaque variable est associé un poids
w(ij)
On peut voir les X(ij) comme la valeur totale des sinistres produits par un risque i durant l'année j.
Le niveau 1, comprend l'ensemble des variables aléatoires non observables c'est-à-dire
Et l'on peut interpréter 0(i) comme une "qualité de risque" pour le risque i.
et, enfin, un
niveau 0, qui ne contient qu'une unique "variable", le portefeuille en lui- même.
Nous pouvons représenter plus facilement cette structure à trois niveaux à l'aide du dessin suivant ;
0(i) i = 1,....,I
On obtient le schéma d'échantillonnage selon la procédure suivante :
- On tire les qualités de risque de la distribution de structure du portefeuille U(0) de manière indépendante, puis,
- pour chaque risque, on tire de manière indépendante les observations X(ij) de la distribution F( x / 0(i) ).
Nous avons les hypothèses suivantes :
- 6(i), X(il), X(i2),.... , X(iJ(i)) sont indépendants - les 0(i) sont indépendants et identiquement distribués - les X(ij) sont indépendants et identiquement distribués
conditionnellement à 0(i)
On définit alors les paramètres suivants :
fi = E [ X(ij) ] = E [ P ( 0(i) M ( 0(i) ) = E [ X(ij) / 0(i) ]
= E [ w(ij) Var [ X(ij) /
= Var [ P ( ff(i) ) ]
) ]
0(i) ] ]
On va alors chercher à obtenir la meilleure estimation possible au sens des moindres carrés de la valeur moyenne du risque X(ij), estimation que l'on va noter p ^ ( 6{ï) ). Bühlmann restreint la recherche aux estimations linéaires.
Il nous faut donc rechercher
( 0(i) ) — co + Cl X(il) + C2 X(i2) + ... + cw) X(iJ(i)) minimise
E [ p-(0(i)) - p(0(i)) ?.
La solution s'obtient en dérivant cette espérance par rapport aux variables c., et en égalisant cette dérivée à zéro. Nous ne reviendrons pas sur ce calcul classique.
La solution est :
w
--- fi
\v(i.) K'P
w(i.)
--- X(iw) w = vif/.;
avec
1 J(i)
X(i w) = --- E w(ij) X(ij) w(i.) j=l
Notons cependant que les calculs pour obtenir cet estimateur de crédibilité nécessitent de calculer d'abord les résultats suivants :
Cov [ X(ij), P ( 0(i) ) ] = Cov [ X(ij),X(ij') ] = d,
Bien évidemment, pour pouvoir utiliser cet estimateur de crédibilité, il faut pouvoir estimer les paramètres p , et qui sont inconnus, à partir des variables observables X(ij).
On utilise les estimations suivantes ;
A
H2A
X(ww)
1 I J(i)
--- E E w(ij) X(ij) w(.) i = 1 j = 1
1 I
= ---
2vv(i.) X(i w) w(.) i=l
1 I 1 J(i)
.. s --- E w(ij) ( X(ij) - X(i.) y
I i = 1 J(i) - 1 j = 1
w( .) 1
= —-... ( E w(i.) ( X(i.) - X( ) y- - (I-l) ) w(..)^ - E w(i.)^ i = 1
Dans ce modèle, il nous faut considérer pour les variables X(it) le schéma d'échantillonnage suivant ;
1° tirage de manière indépendante des qualités de risque 6{ï) d’une distribution U(0).
2° tirage de manière indépendante, pour chaque contrat i, des variables X(it) d'une distribution F( x / 6{\) ).
Ce schéma d'échantillonnage suppose, entre autres, que tous les paramètres de risques sont tirés du même collectif, c'est-à-dire qu'il ne permet aucune classification des risques. Or, une telle classification est souvent utile, si ce n'est indispensable, dans la pratique. Il est en effet fréquent que plusieurs paramètres de risques différents divisent le portefeuille en sous-portefeuilles.
Il est habituel, par exemple, de subdiviser les contrats d'assurances-incendie en contrats d' "assurance-incendie industriel" et contrats d' "assurance-incen
die pour maisons privées". Le type de bâtiment, ou son usage, sont aussi des paramètres de risques utilisés pour classifier de tels contrats. Des tarifs basés sur un modèle sans aucune classification des risques ont certainement leurs propres mérites. Un des exemple les plus connus d'application de ce modèle est le tarif automobile Suisse de 1963. Cependant, ils sont dans de nom
breuses situations une simplification trop extrême de la réalité et, dans d'autres, telles celle de l'étude d'une tarification pour l'assurance des acci
dents de travail, ils sont impossibles à utiliser pratiquement en raison des contraintes statistiques.
Le but de ces classifications des risques est de subdiviser les portefeuilles en des classes de contats les plus homogènes possibles, ce qui présente d'évi
dents intérêts sur le plan de l'analyse du modèle.
L'utilisation conjointe de méthodes de crédibilité et d'une classification des
risques est obtenue dans le modèle dit de Jewell ou modèle hiérarchique.
Nous allons voir que ce modèle s'obtient en introduisant dans 1e schéma de base d'autres niveaux, et nous verrons que la ditficulté de résolution ne croî
tra pas avec l'augmentation du nombre de niveaux à la condition d'appliquer une méthode de résolution récursive.
3 3. Le modèle de Jewell.
3.3.1. Présentation du modèle et Hypothèses.
Le modèle de Jewell, dit aussi modèle hiérarchique de crédibilité, a été développé particulièrement dans les deux articles suivants :
- Premièrement, dans Jewell, W.S. "The use of Collateral Data in Credibility Theory", Giomale dell'Instituto Italiano degli Attuari, 1975, 38, pp. 1-16.
- Puis, dans Bühlmann, H., Jewell, W.S. "Hierarchical Credibility Revisited"; Mitteilungen der V.S.V.M., 1987, Heft 1, pp. 35-64.
La structure de ce modèle est carctérisée par différents niveaux, le nombre de ces niveaux dépendant du problème traité.
A titre d'exemple suit une représentation graphique d'un modèle à trois ni
veaux:
ffl tOf
O
Citer»
1.
ntcor 2
♦
rtlt Or
'b. XCc\t5
diagramme ... arbre hiérarchique à trois niveaux
Chacun de ces niveaux représente une classification des observations. Le dernier niveau (le niveau n) sera celui des observations, le niveau initial, c'est-à-dire le niveau 0, sera celui du portefeuille dans son intégralité. Cha
cun des niveaux représentera l'un des degrés de la classification envisagée par la hiérarchie et sera représenté soit par une variable inobservable caractéri
sant les propriétés de l'un des éléments de la classification, soit par une va
riable représentant l'information dont on dispose sur la caractéristique de cet élément. Ce sont ces variables que nous allons essayer d'estimer.
C'est à partir de cet arbre que nous définirons des caractéristiques telles que ascendants et descendants d'une variable.
Jevvell a développé dans ses articles les modèles à deux et à trois niveaux. Je reprendrai ici l'étude du modèle à trois niveaux, puis développerai celle-ci pour obtenir celle du modèle à un nombre quelconque de niveaux n dans le paragraphe 4 de ce chapitre.
Soit un portefeuille de N contrats pouvant être classés en I sous-portefeuilles (ou classes).
Le sous-portefeuille i est composé de J(i) contrats.
(avecJ(l) + J(2) +.... +J(I) = N )
Chaque sous-portefeuille est caractérisé par un paramètre de risque 0(i) tiré d'une distribution de structures décrivant l'hétérogénéité entre les différentes classes du portefeuille. On dit aussi parfois que 0 ( i ) est un paramètre qui traduit la "qualité" du sous-portefeuille i.
Chaque contrat est caractérisé par un paramètre de risque 0(ij) tiré d'une dis
tribution de structure décrivant l'hétérogénéité entre les différents contrats d' une même classe.
Ces variables 0(i) et 0(ij) sont, bien entendu, des variables inobservables.
On dispose pour le contrat ( i, j ) de T(ij) observations.
Soit X(ijt) les variables observables avec i = 1,... , I désignant la classe
j = 1,..., J(i) désignant le contrat dans la classe i
t = l,..., T(ij) désignant la période d'observation
Soit w(ijt) le poids attribué à la variable X(ijt)
(Par exemple, ce poids pourrait être le nombre de sinistres observés pour le contrat] de la classe i au cours de la période d'observation t.)
Nous avons donc :
les classes 1,..., i,... , I
les contrats (i, j) avec i = 1,, I et j = 1 ,... , J(i)
les variables de structures
0(1),... ,0(1)
0(ij) avec i = 1 ,... , I et j = 1 , ..., J(i)
les variables observables et les poids qui leurs sont associés
X(ijt) et w(ijt)
aveci = 1 , ... , I , j = 1 ,..., J(i) et t = 1 , ... , T(ij).
Le contrat (i,j) est caractérisé par les variables 0(ij), X(ijl), X(ij2), ..., X(ijT(ij)).
La classe i est, elle, caractérisée par l’ensemble des variables
0(i), 0(il), 6(i2), ... , 0(iJ(i))
X(ill),... , X(iJ(i)T(ij)).
Nous avons donc
I sous-portefeuille
i= 1 i = 2 i =
B{ 1 ) 0(2) 0(
J(i) contrats pour chaque portefeuille
6(12) 0(lJ(i))
et finalement T(ij) observations pour chaque contrat
X(lll) X(121)
X( 112) X( 122) X(113)
X(!2T(12)) X( llT(ll))
Nous avons donc procédé à une réduction de l'information pour chacun des niveaux (réduction qui est évidemment exhaustive).
Dans la suite, nous utiliserons parfois le vocable : variable du niveau n.
Nous désignerons par cela les variables, ou l'une des variables, aléatoires observables du niveau n. Cette appellation sera précisée dans le paragraphe suivant dans un cas général à n niveaux.
Nous faisons alors les cinq hypothèses suivantes :
Hyp 1. Les classes i sont indépendantes les unes des autres.
Hyp 2. Pour chaque classe i, conditionnellement à 0(i), les contrats (i,j) sont
indépendants.
Hyp 3. Pour chaque classe i et chaque contrat conditionnellement à (0(i), 0(ij)), les observations X(ijl),... , X(ijT(ij)) sont
indépendantes;
de plus, la distribution de X(ijt) ne dépend que de 0(ij), c'est-à-dire que
P ( X(ijt) <= X / 0(i),0(ij) ) = P ( X(ijt) <= X / 0(ij) ) .
Hyp 4. Les variables aléatoires 0(i) sont iid de fonction de structure U( . );
pour 0(i) donné, les variables aléatoires 0(ij) sont iid de fonction de structure U'( . / 0(i) ).
Hyp 5. Pour tout i,j,t les fonctions suivantes existent (et ne dépendent pas des indices de leurs variables).
au niveau des contrats :
P2(0(ij)) = E[X(ijt) / 0(ij)]
O " ( 6>(ij) ) = Var [ X(ijt) / e(ij) ] w(ijt) au niveau des classes :
p.(0(i)) = E[p2 (0(ij)) / 0(i)]
F. M0(O) = E[aH0(ij)) / 0 {\) ] G. ^ ( d{i) ) = Var [ p. ( 0(ij) / 0(i) ] au niveau du portefeuille :
po