• Aucun résultat trouvé

Thèse CIFRE. Développement de modèles statistiques pour l analyse et la prévision des données du secteur des services à la personne.

N/A
N/A
Protected

Academic year: 2022

Partager "Thèse CIFRE. Développement de modèles statistiques pour l analyse et la prévision des données du secteur des services à la personne."

Copied!
5
0
0

Texte intégral

(1)

Page 1 sur 5

Thèse CIFRE

Développement de modèles statistiques pour l’analyse et la prévision des données du secteur des services à la personne.

Entreprise d’accueil : Jean-Charles Grollemund(1) Assi N’GUESSAN(2), Fabrice IRACI(1,3), Alain KOUTOUAN(1) (1) GROUPE IRCEM, 261 Avenue des Nations Unies, 59100 Roubaix, France

Tel : +33 (0) 3 20 45 53 45 – jcgrollemund@ircem.fr, firaci@ircem.fr , akoutouan@ircem.fr

(2) École Polytechnique Universitaire de Lille et Laboratoire Paul Painlevé : UMR CNRS 8524, Avenue Paul Langevin, Université de Lille 1 – Villeneuve d’Ascq Cedex, France.

Tel : +33 (0) 3 28 76 74 57 – assi.nguessan@polytech-lile.fr

(3) Laboratoire CLERSE UMR CNRS 8019, Université de Lille 1 : Sciences et Technologique - Villeneuve d’Ascq Cedex, France.

Résumé - Le développement du secteur des services à la personne a toujours été sensible aux environnements économiques et politiques : l’importance de la récession économique en 2009 a eu raison de la résistance du secteur. En plus de cet environnement économique peu avenant, la suppression de l’exonération de 15 points de charges patronales en 2011 a provoqué une croissance du secteur en berne. Le groupe IRCEM, acteur incontournable des services à la personne en France a, entre autre, en charge la prévision du développement du secteur des services à la personne : en particulier la prévision de la masse salariale des emplois de la famille.

Cette mission s’appuie sur une base de données interne de plus de 13 millions de personnes en France métropolitaine et sur les compétences scientifiques du service prospective économique de la direction Actuariat et Finances.

Cette mission nécessite d’être approfondie puisque l’IRCEM doit faire face à de nouveaux challenges : Des données de plus en plus volumineuses (données en grande dimension, big data…)

Des données socio-économiques externes qui impactent directement ou indirectement le secteur d’activités

Prise en comptent du suivi longitudinal de la carrière de chaque salarié du secteur Estimation et évaluation de l’impact des aides et/ou modifications fiscales

Tous ces challenges nécessitent d’améliorer et d’approfondir les modèles et outils existants et d’en proposer d’autres afin qu’en particulier les acteurs de la protection sociale des emplois de la famille puissent continuer à s’appuyer sur l’expertise de l’IRCEM pour les aider à orienter et mieux gérer l’ensemble des dispositifs qui vise à protéger les individus des conséquences financières liées aux risques du secteur de la profession.

Dans ce contexte, la thèse consistera à développer des méthodes statistiques applicables à l’analyse de l’activité du secteur des services à la personne, et notamment à la masse salariale, ainsi que d’explorer de nouveaux modèles (de prévision) prenant en compte la spécificité et la complexité des données disponibles.

Mots clés: Emplois familiaux, modélisation, modèles mixtes, processus SARIMA vectoriel, données longitudinales, big data, masse salariale, Estimation, Sélection de modèles, Prévision, impact fiscal.

(2)

Page 2 sur 5 1. Problématique et formulation scientifique

11. Contexte et objectifs

source : http://ra2013.ircem.eu/index.php/category/chiffres-cles/

Le Groupe IRCEM est le groupe de protection sociale (ensemble des dispositifs qui vise à protéger les individus des conséquences financières liées aux « quatre risques » : la famille, la vieillesse, les accidents du travail / maladies professionnelles, la maladie / maternité / invalidité) des emplois de la famille, salariés de la famille, employeurs et retraités de ce secteur d’activité en France.

Le Groupe IRCEM concerne plus de 3,6 millions d’employeurs en France, plus de 4 000 associations prestataires et entreprises privées de services à la personne, 1.6 million de salariés, plus de 600.000 retraités, et emploie à son siège de Roubaix et dans ses agences régionales 500 collaborateurs salariés.

Plus d’un foyer sur cinq est concerné par le Groupe IRCEM en France : près de 6 millions de personnes (salariés, particuliers-employeurs et retraités) bénéficient des services du Groupe IRCEM en France. Avec une moyenne de 2,2 personnes par foyer en 2011 (Tableau de l’économie française, INSEE, 2014), ce sont ainsi plus de 13 millions de personnes (sur 64 millions en France métropolitaine) concernées par l’activité du Groupe IRCEM, devenu un acteur incontournable du secteur des services à la personne.

Le Service Prospective économique de la direction Actuariat et Finances a, entre autre, en charge la prévision du développement du secteur des services à la personne. Cette mission s’appuie sur une base de données interne. Cette base de données de la profession est obtenue par intégration des informations envoyées par les centres de gestion de ACOSS (Agence Centrale des Organismes de Sécurité Sociale) et de la CNAV (Caisse Nationale d’Assurance Vieillesse). Quatre étapes d’extraction

(3)

Page 3 sur 5

sont alors nécessaires pour produire les chiffres de la profession. Ces chiffres sont, par la suite, utilisés à un niveau agrégé mais sont aussi disponibles également à un niveau désagrégé pour un suivi longitudinal de la carrière professionnelle des salariés du secteur (graphique ci-dessous).

1.2 Formulation et méthodologie scientifique

La richesse de la base de données permet d’envisager le développement d’une famille de modèles de prévisions plus large : modèles à correction d’erreur, modèles à équations simultanées, modèle de séries temporelles vectorielles, modèles longitudinaux micro-économétriques, etc. Ces modèles peuvent être déclinés à des niveaux annuels ou trimestriels mais aussi à des niveaux agrégés ou désagrégés (employés, tranche d’âge, …). Hormis la prévision proprement dite, ces modèles peuvent avoir d’autres finalités. Ils peuvent par exemple avoir vocation à estimer l’impact fiscal sur le développement du secteur. Les données socio-économiques telles que l’allocation de garde d’enfants à domicile (AGED), le taux de chômage des femmes (TCHOF), le SMIC ou le PIB impactent directement ou indirectement l’activité économique du secteur de la profession ; en particulier la masse salariale des emplois de la famille. Aussi, la famille des modèles utilisés actuellement pour expliquer l’évolution dynamique de la masse salariale des emplois de la famille repose sur des modèles SARIMA ( Auto-Régressif Intégré Moyenne Mobile Saisonnier ) qui incluent les variables (facteurs) explicatives telles que l’AGED, le TCHOF, le SMIC et le PIB. Ces modèles sont construits à un niveau agrégé de la masse salariale et de façon univariée. Ils ne tiennent pas comptent de l’évolution simultanée de la masse salariale et des variables (ou facteurs) exogènes. De même, la disponibilité des données (chiffres) à un niveau désagrégé (salarié individuel par exemple) n’est pas exploitée pour une meilleure prise en compte du suivi longitudinal de chaque salarié dans la prévision de la masse salariale. La thèse consistera à développer :

 Des modèles et méthodes statistiques applicables à l’analyse et à la prévision de la masse salariale pour différents secteurs d’activités de la profession

 Des modèles de prévision vectoriels (simultanés) de la masse salariale et des variables explicatives (exogènes)

 Des approches longitudinales pour analyser les impacts de certaines mesures et de certaines variables exogènes sur la prévision de la masse salariale ou d’autres variables d’intérêt

0 2000 4000 6000 8000 10000 12000 14000

W1T90S W1T91S W1T92S W1T93S W1T94S W1T95S W1T96S W1T97S W1T98S W1T99S W1T00S W1T01S W1T02S W1T03S W1T04S W1T05S W1T06S W1T07S W1T08S W1T09S W1T10S W1T11S W1T12S W1T13S W1T14S

Masse salariale trimestrielle

Suivi longitudinal de la carrière professionnelle de 28 salariés

(4)

Page 4 sur 5

 Des algorithmes de traitements rapides et automatisés des données du secteur de la profession.

Elle permettra à l’IRCEM, en particulier au service prospective économique, de suivre l’évolution de certains indicateurs de la profession et de poursuivre et d’approfondir les travaux d’analyse économiques de la prévision de la masse salariale dans la continuité de ce qui a déjà été entrepris.

Cette thèse permettra également de jeter les bases d’un cadrage scientifique général pour une prévision robuste de la masse salariale et une évaluation de l’effet de certaines modifications règlementaires. Plusieurs modèles statistiques peuvent être applicables mais les plus couramment utilisés actuellement reposent sur des modèles SARIMA qui incorporent l’évolution temporelle de facteurs exogènes tels que l’AGED, le TCHOF, le SMIC et le PIB. Pour un instant t(année ou trimestre par exemple), le modèle de prévision de la masse salariale yt est un modèle

Q s

D P q d p

SARIMA( , , )( , , ) dont l’équation générique s’écrit :

t s

Q t d D s s

P(B )

(B)  y  (B )

(B)w

(1)

s est la saisonnalité (s=4 pour des données trimestrielles), B est l’opérateur retard

(B(yt) yt1) , (B) et (B) sont des polynômes de degré respectif p et q de la composante non saisonnière de la masse salariale yt, (Bs) et (Bs)sont des polynômes de degré P et Q de la composante saisonnière de la masse salariale yt, d (1B)d,Ds (1Bs)D avec d et

D les ordres de différenciation relative aux composantes non saisonnière et saisonnière et wt un processus indépendant identiquement distribué souvent supposé de loi gaussienne . Cette première famille de modèles ne prend pas en compte les variables (ou facteurs) exogènes ci-dessus et leurs inter-corrélations, aussi la méthodologie d’approche est donc de définir et d’estimer une (ou des) fonctionnelle(s) f de la forme



 

  

f PIBt t

SMICt t f

TCHOF t f

AGED t f

dy D B s Bs f P

yt

( ),

), 4 3(

), 2(

), 1(

, )

( )

( (2)

où les fj (j 1,,4)sont des fonctions supplémentaires liées directement aux facteurs exogènes qu’il faudrait estimer en même temps que la fonction principale f et

tune forme stochastique qui prendra en compte les incertitudes. Puisque les variables de l’expression (2) sont mesurées aux mêmes instants t, on peut donc les considérer comme un vecteur de dimension 5. Le problème (2) peut alors être étendu à une approche vectorielle à l’aide des processus SARIMA multivariés prenant en compte les aspects longitudinaux de la masse salariale. La modélisation du type (2) pourra alors être complétée par une famille de modèle SARIMA vectoriel :



 

  

Et

Yt d D B s Bs F P

Yt ( )

( ) , (3)

Yt

yt0,yt1,yt2,yt3,yt4,yt5

T , avec yt0 masse salariale, yt1AGEDt , yt2TCHOFt ,

t

t SMIC

y3  , yt4PIBt et Etun vecteur stochastique qui prendra en compte les incertitudes.

L’estimation et l’identification de la fonctionnelle Fet des paramètres sous-jacents restent un

(5)

Page 5 sur 5

problème scientifique ouvert. D’autres approches de modélisation pourront être abordées en fonction des informations auxiliaires disponibles et du contexte socio-économique. Les résultats pourront être adaptés au niveau désagrégé (salariés, secteurs d’activités, employeurs, …) pour une analyse longitudinale de la masse salariale du secteur.

Le travail de thèse offrira un cadre idéal pour une expérimentation dans le secteur des emplois familiaux.

2 Références bibliographiques de base

[1] Anderson T.W. (1994). The Statistical analysis of times, John Wiley

[2] Burnham K.P., Anderson D.R. (2002). Model selection and multimodel inference: a practical information-theoretic approach, 2nd Edition, Springer-Verlag.

[4] Lardic S., Mignon V. (2002). Econométrie des séries temporelles macroéconomiques et financières, Economica

[5] N’Guessan A. (2006). Approches statistiques de l’évaluation d’une mesure : cas de la sécurité routière. Habilitation à Diriger des Recherches, H529, Université de Lille 1, France

[7] Verbeke G., Molenberghs G. (2000). Linear Mixed Models for longitudinal data, Springer Verlag, New York.

[8] Zeger S.L., Liang K.Y. (1992), An overview of methods for the analysis of longitudinal data, Statistics in Medecine, 11, pp. 1825-1839.

[9] Zhang J.T., Wu H. (2006), Nonparametric Regression Methods for longitudinal Data Analysis, Mixed Effects Modeling Approaches, John Wiley.

[10] Mackinnon M.J., Glick N. (1999). Data mining and Knowledge discoverey in databases : an overview, Austral. & New Zealand J. Statist. 41 (3), 255 – 275.

3 – Encadrement et retombée scientifiques 3.1 Encadrement scientifique

La thèse sera encadrée sur le plan académique (universitaire) par un chercheur statisticien du Laboratoire de mathématiques Paul Painlevé, UMR CNRS 8524, de l’Université de Lille :

Assi N’GUESSAN , Maître de Conférences, Habilité à Diriger des Recherches en sciences mathématiques.

L’encadrement industriel au sein de l’IRCEM sera assuré par :

Jean-Charles GROLLEMUND, Actuaire de l’Université Louis Pasteur de Strasbourg, Directeur général de l’IRCEM

Alain KOUTOUAN, Actuaire de l’Université Libre de Bruxelles, Directeur Actuariat et Finances Fabrice IRACI, Docteur en sciences économique de l’Université Paris 13, Responsable du Service de la prospective économique.

3.2 Retombées scientifiques

Sur le plan scientifique, il s’agira essentiellement de publications scientifiques internationales (revues techniques et de vulgarisation, conférences, …) et de rapports d’avancement des travaux. Pour la recherche concernant le secteur du service à la personne, la thèse fournira un cadre méthodologique plus élargi qui permettra à l’IRCEM et en particulier le service prospective économique de poursuivre ses travaux d’analyse et de prévision afin d’améliorer ses connaissances sur ses bases de données et d’aider les responsables dans le choix des approches les plus pertinentes à mettre en place en matière de service à la personne. De plus, le groupe IRCEM à travers ce projet scientifique, pourra mettre en place un groupe de travail traitant en particulier des méthodes d’évaluation des impacts fiscaux et de la prévision des masses salariales. Une partie des résultats de ce travail sera donc largement utilisée dans ce cadre.

Références

Documents relatifs

• Dans l’enquête BDF, il est probable que les dépenses liées au travail « au noir » fassent l’objet d’une sous-déclaration. • Dans l’enquête ERFS, les ménages

Audition devant le Conseil Economique, Social et Environnemental (CESE) CNIS - 6 septembre

L’Ircem transmet chaque année à la Dares des données relatives au 2 ème trimestre : effectifs salariés, nombre de particuliers employeurs, ainsi que pour l’ensemble de

… Poursuivre les études à partir des volets sociaux (cf. DADS grand format et fichier « Particuliers employeurs – périodes anonymisées »). … Mobiliser d’autres sources

On pourrait ajouter d’autres caractéristiques assez spécifiques mais qui dépassent les SP: la volatilité des emplois (doc préparatoire p. 20) qui est liée aux

Les représentants de fédérations professionnelles médicales, paramédicales et médico-sociales découvrent les offres et tendances à intégrer dans leurs pratiques

Pour faire suite à cette recommandation, le président du Cnis, Jean-Pierre Duport, a décidé, en accord avec Raoul Briet, président de la commission du Cnis « Emploi,

En revanche les comptables ou régisseurs doivent accepter de recevoir les titres CESU TSP en règlement de prestations, fournies par des collectivités territoriales