• Aucun résultat trouvé

Fouille de données textuelles et systèmes de recommandation appliqués aux offres d'emploi diffusées sur le web

N/A
N/A
Protected

Academic year: 2021

Partager "Fouille de données textuelles et systèmes de recommandation appliqués aux offres d'emploi diffusées sur le web"

Copied!
203
0
0

Texte intégral

(1)

HAL Id: tel-01519304

https://tel.archives-ouvertes.fr/tel-01519304

Submitted on 6 May 2017

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

sur le web

Julie Séguéla

To cite this version:

Julie Séguéla. Fouille de données textuelles et systèmes de recommandation appliqués aux offres d’emploi diffusées sur le web. Informatique et langage [cs.CL]. Conservatoire national des arts et metiers - CNAM, 2012. Français. �NNT : 2012CNAM0801�. �tel-01519304�

(2)

CONSERVATOIRE NATIONAL DES

ARTS ET MÉTIERS

École Doctorale Informatique, Télécommunication et Électronique Laboratoire CEDRIC du CNAM - Équipe MSDMA

THÈSE DE DOCTORAT

présentée par :

Julie SEGUELA

soutenue le :

3 mai 2012

pour obtenir le grade de : Docteur du Conservatoire National des Arts et Métiers Discipline / Spécialité : Informatique / Data mining & apprentissage

Fouille de données textuelles et systèmes de

recommandation appliqués aux ores d'emploi

diusées sur le web

THÈSE dirigée par

M. SAPORTA Gilbert Professeur, Conservatoire National des Arts et Métiers RAPPORTEURS

M. LEBART Ludovic Directeur de recherches, CNRS, TELECOM-ParisTech

M. VIENNET Emmanuel Professeur, Université Paris 13 EXAMINATEURS

M. ARTIERES Thierry Professeur, Université Pierre et Marie Curie

M. CRUCIANU Michel Professeur, Conservatoire National des Arts et Métiers

M. FONDEUR Yannick Chercheur, Centre d'Études de l'Emploi

M. LECHEVALLIER Yves Directeur de recherches, INRIA

(3)
(4)

Remerciements

Je souhaite tout d'abord remercier mon directeur de thèse, le professeur Gilbert Saporta, pour sa disponibilité tout au long de ces trois années, ses conseils avisés, son ouverture d'es-prit, et pour avoir su me donner conance aux moments cruciaux de ce projet.

En avril 2009, Stéphane Le Viet et Gautier Machelon, co-fondateurs de la société Multiposting, m'ont fait conance pour mener à bien ce projet. Je souhaite les remer-cier de m'avoir permis de vivre cette expérience, de laquelle je sors grandie tant sur le plan professionnel que sur le plan humain. En arrivant il y a trois ans, je n'imaginais pas apprendre autant sur la vie d'entreprise et les relations humaines.

Je remercie chaleureusement mes deux rapporteurs, Emmanuel Viennet et Ludovic Lebart, pour le temps qu'ils ont consacré à l'étude de mes travaux et leurs précieuses critiques et remarques. Je remercie Michel Crucianu et Yannick Fondeur, pour leurs conseils et le temps qu'ils m'ont accordé tout au long de ces trois années, depuis les comités de thèse jusqu'à la soutenance nale. Je remercie également Thierry Artières et Yves Lechevallier, pour avoir accepté de faire partie du jury, le temps qu'ils ont consacré à mon manuscrit et le regard neuf qu'ils y ont apporté.

J'exprime toute ma gratitude à Alizée, Elise, Elsa, Matthieu, l'autre Matthieu, Julien, Willy, Oliver, Virginie et Marie qui n'ont cessé de m'encourager durant ces trois années. Vous avez su me redonner le sourire dans les moments diciles. Merci Ndeye pour tous ces bons moments. Une pensée pour Anne, tiens bon car le jeu en vaut la chandelle.

Emilie, Tila, merci d'avoir accompagné mes journées de votre bonne humeur et de votre générosité. NC, je garde en mémoire ces innombrables soirées passées devant nos écrans, tes innombrables coups de main spontanés, merci pour ta générosité. Gui, merci pour ta disponiblité, ta gentillesse, ton écoute et ta patience ! Tous les deux, merci pour vos relectures et merci d'avoir été là tout simplement.

Simon, depuis qu'on se connaît tu as toujours été à mon écoute, dans les bons moments comme dans les moments diciles. Merci pour ta présence, ta patience, ton soutien et ta compréhension durant ces derniers mois de thèse.

Enn, un grand merci à ma petite famille, qui m'a soutenue depuis le début et qui a toujours fait en sorte de me rendre les choses plus faciles. Sachez que pendant tout ce temps, je n'ai cessé de penser à vous malgré la distance...

(5)
(6)

Résumé

L'expansion du média Internet pour le recrutement a entraîné ces dernières années la multiplication des canaux dédiés à la diusion des ores d'emploi. Dans un contexte éco-nomique où le contrôle des coûts est primordial, évaluer et comparer les performances des diérents canaux de recrutement est devenu un besoin pour les entreprises. Cette thèse a pour objectif le développement d'un outil d'aide à la décision destiné à accompagner les recruteurs durant le processus de diusion d'une annonce. Il fournit au recruteur la perfor-mance attendue sur les sites d'emploi pour un poste à pourvoir donné. Après avoir identié les facteurs explicatifs potentiels de la performance d'une campagne de recrutement, nous appliquons aux annonces des techniques de fouille de textes an de les structurer et d'en extraire de l'information pertinente pour enrichir leur description au sein d'un modèle ex-plicatif. Nous proposons dans un second temps un algorithme prédictif de la performance des ores d'emploi, basé sur un système hybride de recommandation, adapté à la problé-matique de démarrage à froid. Ce système, basé sur une mesure de similarité supervisée, montre des résultats supérieurs à ceux obtenus avec des approches classiques de modélisa-tion multivariée. Nos expérimentamodélisa-tions sont menées sur un jeu de données réelles, issues d'une base de données d'annonces publiées sur des sites d'emploi.

Mots clés : Fouille de textes, extraction des connaissances, systèmes de recommanda-tion, ores d'emploi, recrutement sur Internet

(7)
(8)

Abstract

Last years, e-recruitment expansion has led to the multiplication of web channels dedica-ted to job postings. In an economic context where cost control is fundamental, assessment and comparison of recruitment channel performances have become necessary. The purpose of this work is to develop a decision-making tool intended to guide recruiters while they are posting a job on the Internet. This tool provides to recruiters the expected perfor-mance on job boards for a given job oer. First, we identify the potential predictors of a recruiting campaign performance. Then, we apply text mining techniques to the job oer texts in order to structure postings and to extract information relevant to improve their description in a predictive model. The job oer performance predictive algorithm is based on a hybrid recommender system, suitable to the cold-start problem. The hybrid system, based on a supervised similarity measure, outperforms standard multivariate models. Our experiments are led on a real dataset, coming from a job posting database.

Keywords : Text mining, knowledge discovery, recommender systems, job postings, e-recruitment

(9)
(10)

Table des matières

Introduction 21

1 Le marché du recrutement sur Internet 29

1.1 Internet et le marché du recrutement . . . 29 1.1.1 Présentation des acteurs du marché . . . 29 1.1.2 Des besoins d'amélioration pour la procédure de recherche des

can-didats . . . 30 1.2 Problématiques associées à la recherche de candidats sur Internet . . . 32 1.3 Présentation de Multiposting.fr et positionnement . . . 35 1.3.1 Processus de diusion d'une ore d'emploi via Multiposting.fr . . . . 35 1.3.2 Intérêts de l'utilisation de la plate-forme de diusion Multiposting.fr 36 1.3.3 Les axes d'amélioration identiés pour l'outil . . . 36 1.4 Comparatif des solutions concurrentes . . . 37

2 Indicateurs de performance d'une campagne de recrutement 45

2.1 Évaluation de la performance d'une campagne de recrutement : état de l'art 45 2.1.1 Indicateurs post-embauche . . . 46 2.1.2 Indicateurs pré-embauche . . . 46 2.1.3 Apparition d'Internet et évolution des indicateurs de performance . . 47 2.2 Proposition d'indicateurs de performance . . . 50

(11)

2.2.1 Présentation des données enregistrées par l'outil . . . 51

2.2.2 Indicateurs de performance proposés . . . 53

2.2.3 Indicateur de la performance relative . . . 55

2.2.4 Discussion . . . 56

2.3 Synthèse . . . 57

3 Les facteurs explicatifs potentiels de la performance d'une campagne de recrutement 61 3.1 Les facteurs explicatifs de la performance d'une campagne dans la littérature 61 3.1.1 Le message transmis . . . 62

3.1.2 Le type de poste proposé . . . 63

3.1.3 Le recruteur . . . 63

3.1.4 Le job board . . . 64

3.1.5 Le calendrier . . . 64

3.2 Propositions de facteurs explicatifs . . . 65

3.2.1 Processus de candidature et facteurs explicatifs . . . 65

3.2.2 Les facteurs inexibles . . . 67

3.2.3 Les facteurs exibles . . . 73

3.3 Synthèse . . . 84

4 Fouille de textes appliquée aux ores d'emploi et extraction des connais-sances 85 4.1 Présentation d'une ore d'emploi sur Internet . . . 85

4.2 État de l'art . . . 88

4.2.1 État de l'art des techniques de fouille de textes . . . 88

4.2.2 Aperçu des travaux eectués sur les ores d'emploi . . . 98

(12)

TABLE DES MATIÈRES

4.3.1 Objectifs poursuivis . . . 100

4.3.2 Les tables de correspondance entre nomenclatures . . . 100

4.3.3 Algorithmes de classication . . . 103

4.3.4 Évaluation d'un système de classication : critères de performance . 104 4.3.5 Approche proposée . . . 105

4.3.6 Expérimentations . . . 110

4.3.7 Conclusions sur le système de catégorisation . . . 121

4.4 Extraction de mots-clés pertinents . . . 122

4.4.1 Extraction de prédicteurs candidats pour contribuer à l'explication de la performance des ores . . . 122

4.4.2 Sélection des mots-clés à introduire dans le modèle de prédiction . . 123

4.5 Synthèse . . . 126

5 Modélisation de la performance d'une ore d'emploi 127 5.1 Introduction . . . 127

5.1.1 Contexte . . . 127

5.1.2 Complexité des données et problématiques rencontrées . . . 128

5.2 Systèmes de recommandation . . . 129

5.2.1 Aperçu de l'état de l'art . . . 129

5.2.2 Application innovante et cas particulier de système de recommandation133 5.3 Modélisation de la performance d'une annonce diusée sur un site d'emploi 134 5.3.1 Approches standards . . . 135

5.3.2 Système hybride de recommandation . . . 137

5.4 Expérimentations . . . 141

5.4.1 Description des données . . . 141

(13)

5.4.3 Enrichissement de la description des annonces . . . 146

5.4.4 Relevance feedback . . . 147

5.5 Illustration des résultats et discussion . . . 147

5.6 Synthèse . . . 150

6 Applications pour Multiposting.fr 153 6.1 Les données . . . 153

6.1.1 Présentation de la base de données . . . 153

6.1.2 Enrichissement de la base de données existante . . . 157

6.2 Impact des facteurs explicatifs et interprétation . . . 162

6.2.1 Contribution des facteurs à la prédiction de la performance . . . 162

6.2.2 Interprétation de l'impact des facteurs . . . 164

6.3 Processus de diusion d'une ore d'emploi : accompagnement et aide à la décision . . . 166

6.3.1 Processus initial de diusion d'une ore d'emploi . . . 166

6.3.2 Nouvelles fonctionnalités . . . 169

6.3.3 Mise en application des résultats . . . 170

Conclusion et perspectives 177

Bibliographie 179

Annexes 193

A Nomenclature fonction des ores d'emploi 195

(14)

Liste des tableaux

1.1 Comparaison des solutions de recrutement concurrentes . . . 43

3.1 Indicateurs de conjoncture fournis par l'INSEE . . . 68

3.2 Indicateurs de conjoncture fournis par le Pôle Emploi / la DARES . . . 69

3.3 Indicateur de conjoncture fourni par Keljob.com . . . 69

3.4 Indicateur de conjoncture fourni par Apec.fr . . . 69

3.5 Indicateur de conjoncture fourni par Monster.fr . . . 69

3.6 Indices d'image et d'attractivité des entreprises . . . 72

4.1 Analyse sémantique latente et analyse des correspondances : comparaison . 97 4.2 Exemple de confrontation de deux nomenclatures fonction issues de deux sites d'emploi généralistes . . . 102

4.3 Répartition des annonces entre les catégories de fonctions . . . 110

4.4 Résultats obtenus au sein de chaque fonction pour la prédiction des métiers 119 4.5 Distribution des fonctions observées sur les fonctions prédites (% en colonne, les valeurs inférieures à 1% n'apparaissent pas) . . . 119

4.6 Principales confusions entre métiers au sein de diérentes fonctions : métier observé → métier prédit (fonction si diérente) . . . 120

4.7 Comparaison des termes retenus avec chaque méthode de sélection (50% des termes sont conservés à partir du score obtenu) . . . 124

(15)

4.8 Liste des 20 termes présents dans le titre ayant les contributions les plus fortes selon le VIP-75% et valeurs associées . . . 125 4.9 Liste des 20 termes présents dans le descriptif ayant les contributions les

plus fortes selon le VIP-75% et valeurs associées . . . 125 5.1 Résultats obtenus avec la régression PLS (S1) . . . 143 5.2 Valeur(s) retenue(s) (×σd) pour les fonctions gaussienne et exponentielle

dans les approches S2 et S3 . . . 143 5.3 Forces et faiblesses des approches proposées . . . 148 5.4 MAE et MAE obtenus avec les diérentes approches pour les sites d'emploi

étudiés (* : estimation par le recommandeur moyen) . . . 149 6.1 Contributions (%) des groupes de variables à la prédiction de la performance,

et score de contribution moyenne indiqué entre parenthèses (* : nombre moyen de variables retenues) . . . 163 6.2 Facteurs explicatifs ayant les plus forts impacts, valeurs du VIP et signes

des coecients associés pour deux sites d'emploi . . . 165 A.1 Liste des fonctions et sous-fonctions de la nomenclature nale des ores

d'emploi : Architecture, Création, Services administratifs et BTP . . . 195 A.2 Liste des fonctions et sous-fonctions de la nomenclature nale des ores

d'emploi : Commercial / Vente, Stratégie & Management, Édition & Écriture, Ingénierie & Recherche, Comptabilité & Finance et Gestion de projet . . . 196 A.3 Liste des fonctions et sous-fonctions de la nomenclature nale des ores

d'emploi : Hôtellerie, Restauration, Juridique, Logistique & Transport, Marketing, Installation & Maintenance, Production & Opérations, Qua-lité / Inspection, Formation / Éducation, Ressources Humaines et Santé 197

(16)

LISTE DES TABLEAUX

A.4 Liste des fonctions et sous-fonctions de la nomenclature nale des ores d'emploi : Informatique & Technologies, Sécurité, Services clientèle et Autres . . . 198

(17)
(18)

Table des gures

1.1 Acteurs du marché du recrutement et portails de diusion . . . 30

1.2 Rôle des portails de diusion dans le processus de recrutement . . . 31

1.3 Part des postes à pourvoir ayant donné lieu à la publication d'une ore sur Internet en 2006 et 2009 (sur 100 recrutements cadre, source : étude APEC) 32 1.4 Problématiques du e-recrutement et interactions . . . 34

1.5 Étapes de la diusion d'une ore d'emploi avec Multiposting.fr . . . 35

2.1 Processus de recherche d'emploi et de candidature sur Internet . . . 48

2.2 Illustration des diérents taux de conversion envisageables . . . 50

2.3 Actions de candidature enregistrées dans l'outil Multiposting.fr . . . 52

2.4 Chronologie du processus de recrutement et indicateurs de performance . . 58

2.5 Structure des indicateurs de performance issus des données enregistrées . . . 59

3.1 Représentation schématique du processus de candidature et intervention des facteurs potentiels . . . 66

3.2 Répartitions des annonces postées (candidature par e-mail) et CV reçus en fonction du créneau horaire . . . 78

3.3 Répartitions des annonces postées (candidature par URL) et clics de redi-rection en fonction du créneau horaire . . . 78

3.4 Eectifs des annonces postées (candidature par e-mail ou URL) en fonction du créneau horaire . . . 79

(19)

3.5 Retours journaliers moyens par annonce en fonction du nombre de jours de

diusion et du créneau horaire de diusion . . . 80

3.6 Répartitions des annonces postées et candidatures en fonction du jour de la semaine . . . 81

3.7 Eectifs des annonces postées (candidature par e-mail ou URL) en fonction du jour de la semaine . . . 82

3.8 Retours journaliers moyens par annonce en fonction du nombre de jours de diusion et du jour de diusion . . . 83

4.1 Exemple d'ore sur le site d'emploi Monster.fr . . . 87

4.2 Vue d'ensemble du processus de préparation des textes . . . 88

4.3 Vue d'ensemble du système de catégorisation . . . 109

4.4 Processus d'évaluation de l'erreur dans le système de catégorisation . . . 109

4.5 Matrice des corrélations sur les 100 premiers axes issus de l'AC et de la LSA (la couleur du pixel indique le dégré de corrélation entre les axes correspon-dants : de bleu foncé pour une forte corrélation à blanc pour une corrélation nulle) . . . 112

4.6 Qualité de la classication en fonction de la méthode de représentation du texte et de la mesure de dissimilarité entre documents . . . 113

4.7 Qualité de la classication en fonction du nombre de termes conservés et de la méthode de sélection (représentation TF) . . . 115

4.8 Qualité de la classication en fonction de la méthode de représentation et du nombre de dimensions conservées . . . 116

4.9 Représentation des 23 catégories de fonctions dans le plan rappel × précision (taille des bulles proportionnelle à l'eectif de la catégorie) . . . 117

5.1 Nombre cumulé moyen de CV reçus au cours de la vie d'une annonce sur un site d'emploi . . . 129

(20)

TABLE DES FIGURES

5.2 Nombre journalier moyen de CV en fonction du nombre de jours de diusion sur un site d'emploi . . . 130 5.3 Les sites d'emploi représentés sur les plans (nombre d'annonces, écart-type

du nombre de CV reçus) et (nombre d'annonces, nombre moyen de CV reçus)134 5.4 Vue d'ensemble du système hybride de recommandation . . . 137 5.5 MAE obtenu avec les systèmes S2 et S3, en fonction du paramètre de

variance (écart-type e.t.) dans les fonctions de similarité gaussienne et ex-ponentielle (représentation TF) . . . 144 5.6 MAE obtenu avec les systèmes S2 et S3, en fonction de la méthode de

représentation du texte et de la mesure de similarité . . . 145 5.7 Comparaison des meilleurs algorithmes de chaque approche (la fonction de

similarité retenue est indiquée entre parenthèses) . . . 146 5.8 MAE obtenu avec les descripteurs du texte seuls et avec l'ajout de variables

descriptives (la fonction de similarité retenue est indiquée entre parenthèses) 147 5.9 MAE obtenu avec ou sans relevance feedback . . . 148 5.10 Généraliste 4 : représentation des résultats obtenus pour l'échantillon de

test sur le plan engendré par les deux premières composantes PLS. Figure de gauche : rendement journalier réel (taille du cercle proportionnelle à la valeur). Figure de droite : lissage à partir des valeurs prédites par S3, courbes de niveau associées et rendement journalier réel. . . 151 6.1 Répartition des annonces Multiposting entre les diérentes ores proposées 154 6.2 Évolution du nombre d'annonces multidiusées (ore classique) et du nombre

moyen de supports utilisés (hors écoles et associations d'anciens) . . . 154 6.3 Répartition des annonces Multiposting selon le nombre de diusions . . . . 155 6.4 Proportion d'annonces avec rediusion, ajout de site(s), et recours aux écoles155 6.5 Nombre moyen de supports utilisés pour une annonce multidiusée (avec ou

(21)

6.6 Répartition des annonces selon le type de recruteur et le secteur d'activité des entreprises . . . 157 6.7 Répartition des annonces selon le type de contrat, le niveau d'études requis,

le niveau d'expérience requis et la région administrative . . . 158 6.8 Diusion d'une ore d'emploi via l'interface Multiposting.fr : étape 1 . . . . 167 6.9 Diusion d'une ore d'emploi via l'interface Multiposting.fr : étape 2 . . . . 168 6.10 Nouveau processus de diusion d'une ore d'emploi : étape 1 . . . 171 6.11 Nouveau processus de diusion d'une ore d'emploi : étape 2 . . . 172 6.12 Nouveau processus de diusion d'une ore d'emploi : étape 3 . . . 173

(22)

Introduction

Contexte et objectifs des travaux

Depuis les deux dernières décennies, l'utilisation d'Internet pour le recrutement s'est condérablement développée. La démocratisation d'Internet a entraîné un accroissement si-multané du nombre de canaux de recrutement et du volume de personnes pouvant être atteintes par ce média-là. Nos travaux s'inscrivent dans le cadre du recrutement via les ca-naux Internet, et en particulier les sites web de recherche d'emploi (job board) en France. Les recruteurs en recherche de main d'oeuvre ont à disposition un grand nombre de sup-ports web pour diuser leurs ores d'emploi1 : sites généralistes (Monster.fr, Apec.fr, Pôle Emploi, etc.), sites spécialisés (eFinancial spécialisé dans les métiers de la Finance, Les Jeudis spécialisé dans la fonction Informatique, L'Étudiant spécialisé dans les stages et emplois étudiants, etc.), blogs (Developpez.com, etc.), réseaux sociaux (Viadeo, LinkedIn, etc.), sites web d'écoles et associations d'anciens élèves. Parmi les sites généralistes les plus populaires auprès des recruteurs, seuls les sites emploi de l'APEC2 et de Pôle Emploi3 per-mettent une diusion gratuite des ores. La diusion des ores est également payante sur une grande partie des sites spécialisés. Pour une entreprise, le coût annuel des recrutements peut donc être très élevé. En conséquent, il est devenu indispensable pour les recruteurs d'évaluer et d'analyser les performances des diérents supports utilisés, an de pouvoir choisir objectivement les supports à utiliser lors de la diusion d'une ore d'emploi. La performance d'une ore d'emploi est généralement mesurée par le nombre de candidatures reçues en réponse à cette ore.

1. Dans le document, les termes ore d'emploi et annonce d'emploi seront utilisés indiéremment pour faire référence au descriptif d'un poste à pourvoir publié sur un site d'emploi.

2. Association Pour l'Emploi des Cadres (www.apec.fr) 3. www.pole-emploi.fr

(23)

Aujourd'hui, un certain nombre d'outils propriétaires sont mis à disposition des en-treprises an de faciliter le processus de recrutement, depuis la mise en ligne de l'annonce jusqu'à la gestion des candidatures reçues. Dans cette thèse, nous nous intéressons à l'étape de diusion de l'annonce, et à l'accompagnement du recruteur au cours de cette phase. Les principaux acteurs du marché des solutions de diusion d'annonces fournissent des outils pour l'analyse de la performance de ces dernières. Cependant, la plupart de ces outils sont limités en ce qui concerne l'aide à la décision, car ils se concentrent sur l'analyse de la per-formance obtenue à l'issue de la diusion de l'annonce (post-campagne de recrutement). Ces limites se justient par l'existence de barrières au traitement et à l'analyse automa-tique des ores d'emploi. En eet, la multitude des sites d'emploi entraîne une multitude de structures spéciques à ces derniers. Il n'existe pas aujourd'hui de structure uniforme admise par l'ensemble des acteurs du domaine des ressources humaines pour l'information contenue dans les ores d'emploi4.

Dans ce contexte, nos travaux ont pour double objectif :

 l'analyse, par la structuration de l'information, des performances des ores d'emploi sur les supports Internet ;

 la mise au point d'un algorithme prédictif de cette performance.

Ces travaux donneront lieu au développement d'un outil d'aide à la décision destiné aux recruteurs, qui s'intégrera au cadre d'un outil propriétaire de multidiusion d'annonces : Multiposting.fr5. Grâce à l'algorithme développé, nous pourrons fournir au recruteur une estimation de la performance attendue sur les diérents supports lors de la diusion d'une nouvelle ore d'emploi. Ses choix seront ainsi facilités, mais il sera également averti sur le nombre approximatif de candidatures qu'il peut attendre. Pour mener à bien cet objectif, notre approche nécessitera l'automatisation des procédés utilisés d'un point de vue global. À notre connaissance, il n'existe pas dans la littérature de corpus d'ores d'emploi pouvant être exploité librement. Par ailleurs, ces travaux étant menés dans le cadre d'une

4. Le consortium HR-XML (http://www.hr-xml.org/) vise à promouvoir l'échange de données relatives à la gestion des ressources humaines au niveau mondial, notamment par la promotion d'un vocabulaire standard XML. Cependant, il n'est pas adopté par l'ensemble des acteurs du domaine des ressources humaines.

(24)

INTRODUCTION

convention CIFRE6 pour répondre aux besoins de la société Multiposting, nous mènerons nos expérimentations sur une extraction de la base de données détenue par la société.

Problématiques rencontrées

Pour répondre aux objectifs évoqués précédemment, nous sommes confrontés à des problé-matiques liées à la spécicité des données que nous traitons. Nous avons à disposition un historique d'ores d'emploi publiées sur des sites, stocké sous forme de base de données. Les données enregistrées sont les informations sur les ores et le nombre de candidatures obtenues sur les diérents supports utilisés. Pour répondre au principal objectif de la thèse, il nous faut identier l'ensemble des facteurs explicatifs potentiels de la performance d'une annonce d'emploi. Toutes les informations souhaitées n'étant pas disponibles en base de données, nous devons réaliser des traitements et des transformations sur les données ini-tiales, et avoir recours à des données provenant de sources externes.

De plus, parmi les informations disponibles sur les ores, certaines sont structurées et d'autres non structurées. Les informations structurées concernent les caractéristiques gé-nérales de l'ore comme le type de contrat, le niveau d'études requis ou encore l'expérience souhaitée. Les informations non structurées font référence au descriptif de l'annonce d'em-ploi, rédigé sous forme d'un texte libre. Au sein de l'algorithme prédictif, nous devrons exploiter simultanément ces données structurées et non structurées. Par ailleurs, le traite-ment de données textuelles implique de travailler sur des données de très grande dimension (plusieurs milliers de descripteurs).

Enn, nous devrons également être attentifs aux problématiques liées à la dimension temporelle des annonces. En eet, la performance nale est déterminée par un ux de candidatures reçues durant la période de présence en ligne de l'annonce.

6. Les conventions CIFRE (conventions industrielles de formation par la recherche) sont nancées par le ministère de l'Enseignement supérieur et de la Recherche qui en a coné la mise en ÷uvre à l'ANRT (Association nationale de la recherche et de la technologie).

(25)

Contributions

Les problématiques énoncées plus haut nous ont conduits à proposer une méthodologie adaptée à la complexité des données à traiter. L'approche que nous proposons permet en eet de gérer simultanément des données structurées et non structurées au sein d'un algo-rithme à but prédictif. Elle permet également de gérer un très grand nombre de variables explicatives, parfois largement supérieur au nombre d'observations.

Dans cette thèse, nous introduisons un algorithme prédictif qui peut être interprété comme un cas particulier de système de recommandation, à savoir un système où les re-commandations doivent être faites dans un contexte de démarrage à froid (les items sont nouveaux et n'ont encore jamais été notés par un utilisateur). La problématique de dé-marrage à froid est encore aujourd'hui un thème de recherche actif dans la littérature. L'approche que nous proposons est un système hybride, permettant de répondre à cette problématique grâce à l'usage des données de contenu.

Une partie de nos contributions concernent l'analyse des ores d'emploi. Cette thèse fournit une revue de la littérature des facteurs pouvant avoir une inuence sur la per-formance des ores d'emploi. L'analyse du processus de candidature sur Internet nous permet de proposer de nouveaux facteurs explicatifs. Notre application permet nalement de mettre en évidence l'impact d'une partie de ces facteurs.

Des techniques de fouille de textes sont comparées à travers diérentes applications aux annonces d'emploi (catégorisation, prédiction). Nous mettons en évidence les techniques qui permettent d'obtenir les meilleurs résultats selon les objectifs poursuivis.

Nous proposons une méthode pour la structuration des ores d'emploi du point de vue du métier associé au poste grâce à une nomenclature établie au préalable. Nos expérimen-tations montrent l'existence de vocabulaires spéciques aux diérents métiers permettant une réduction considérable de la dimension du problème par la sélection des termes.

Enn, ces travaux ont donné lieu au développement d'un module d'aide à la décision ve-nant compléter la solution classique de multidiusion proposée par la société Multiposting.

(26)

INTRODUCTION

Organisation du document

Le chapitre 1 est une introduction au marché du recrutement sur Internet, à travers la présentation des diérents acteurs qui le composent et des mécanismes qui le régissent. La solution de multidiusion d'annonces Multiposting.fr y est également présentée, et un comparatif avec les principales solutions concurrentes est établi.

Dans le chapitre 2, nous présentons un aperçu des indicateurs de performance d'une campagne de recrutement cités dans la littérature. Nous introduisons un ensemble d'in-dicateurs apparus avec le développement d'Internet pour le recrutement, et mettons en évidence les interactions entre ces derniers. La présentation des statistiques enregistrées par la société Multiposting permet nalement de statuer sur l'indicateur de performance que nous étudierons.

Le chapitre 3 débute avec un état de l'art des facteurs explicatifs de la performance d'une campagne de recrutement, par la revue de la littérature du domaine du management des ressources humaines. Nous proposons ensuite un ensemble de facteurs explicatifs en complément ou en alternative à ceux cités en début de chapitre, en nous focalisant davan-tage sur l'accessibilité des données dans la pratique. Ce chapitre présente également une étude sur l'impact du jour et de l'heure de diusion de l'annonce.

Le chapitre 4 introduit les méthodes usuelles de la fouille de textes, ainsi qu'un aperçu des études menées spéciquement sur les ores d'emploi. Nous avons ensuite recours à ces méthodes pour obtenir une structuration uniforme des ores d'emploi du point de vue du métier (ou de la fonction) proposé. Des expérimentations menées dans des cadres supervisés et non supervisés sont présentées. Enn, nous proposons une méthode pour extraire l'infor-mation pertinente du texte (à travers un ensemble de mots-clés) an d'enrichir l'ensemble des facteurs explicatifs utilisés en entrée de l'algorithme prédictif.

Le chapitre 5 est consacré à la modélisation de la performance d'une ore d'emploi. Après avoir exposé les problématiques liées à la complexité des données que nous traitons, nous introduisons le lecteur aux systèmes de recommandation et présentons notre problème en tant que cas particulier de système de recommandation. Nous proposons deux variantes d'un système hybride permettant de prédire la performance d'une ore sur un site d'emploi

(27)

donné. Ses résultats sont comparés dans le cadre d'expérimentations à ceux obtenus avec des approches standards de modèle multivarié. La exibilité de notre approche nous permet d'améliorer la qualité des résultats à l'aide d'un système de retour de pertinence.

Enn, le jeu de données étudié est décrit dans le chapitre 6 à travers des statistiques descriptives. Nous y présentons également les données créées et obtenues à partir de sources externes pour enrichir la description des annonces. Les résultats obtenus sont illustrés à travers la contribution des facteurs explicatifs d'un point de vue global et sur des sites utilisés comme exemples. Le chapitre s'achève par la présentation du nouveau processus de multidiusion d'une annonce avec l'outil Multiposting.fr.

Liste des publications

Conférences internationales

 J. Séguéla et G. Saporta. A semi-supervised hybrid system to enhance the recom-mendation of channels in terms of campaign ROI. In CIKM'2011 : 20thACM

Confe-rence on Information and Knowledge Management, pages 2265-2268, octobre 2011, Glasgow, Royaume-Uni (communication poster).

 J. Séguéla et G. Saporta. A comparison between latent semantic analysis and cor-respondence analysis. CARME'2011 : International conference on Corcor-respondence Analysis and Related Methods, février 2011, Rennes, France.

 J. Séguéla et G. Saporta. Automatic categorization of job postings. COMPSTAT'2010, 19th International Conference on Computational Statistics, août 2010, Paris, France

(communication poster).

 J. Séguéla, G. Saporta et S. Le Viet. e-Recrutement : recherche de mots-clés perti-nents dans le titre des annonces d'emploi. In JADT'2010 : 10esJournées

internatio-nales d'Analyse statistique des Données Textuelles, pages 975-982, juin 2010, Rome, Italie (communication poster).

(28)

INTRODUCTION

Conférences nationales

 J. Séguéla. Système pour la catégorisation automatique des ores d'emploi en une typologie de fonctions. In EGC'2011 : 11eConférence Internationale Francophone sur

l'Extraction et la Gestion des Connaissances, RNTI-E-20, pages 515-526, janvier 2011, Brest, France, Prix du meilleur article jeune chercheur.

 J. Séguéla et G. Saporta. Modèles de comptage appliqués aux décisions de candida-ture aux ores d'emploi sur le web. JDS'2010 : 42esJournées de Statistique, mai 2010,

Marseille, France. Workshop

 J. Séguéla et G. Saporta. A hybrid recommender system to predict online job oer performance. SDA'2011 : Theory and Application of High-dimensional Complex and Symbolic Data Analysis in Economics and Management Science, octobre 2011, Pékin, Chine.

Article soumis dans une revue avec comité de lecture

 J. Séguéla et G. Saporta. A hybrid recommender system to predict online job oer performance. Revue des Nouvelles Technologies de l'Information, numéro spécial.

(29)
(30)

Chapitre 1

Le marché du recrutement sur

Internet

1.1 Internet et le marché du recrutement

1.1.1 Présentation des acteurs du marché

Le marché du recrutement est composé de trois principaux acteurs :

 l'entreprise (ou recruteur), qui souhaite trouver le candidat correspondant le mieux au prol recherché ;

 le candidat, qui recherche un emploi adapté à son prol et à ses goûts ;

 les intermédiaires, qui interviennent sur la mise en relation des deux premiers acteurs. Les intermédiaires du marché du travail peuvent intervenir de deux manières diérentes [Fondeur et Tuchszirer 2005] : soit en tant que support d'information totalement neutre, soit en orientant l'ore et la demande (au moment de la dénition du besoin ou au mo-ment de la mise en relation). Les intermédiaires sur le marché du travail sont les cabinets de recrutement, les agences d'intérim, les agences de communication RH, la presse, les inter-médiaires institutionnels (ANPE, Apec), etc. Depuis les deux dernières décennies, un autre type d'intermédiaire est apparu : les job boards (ou sites web de recherche d'emploi). D'une manière plus générale, de nombreux canaux permettent la publication d'ores d'emploi sur Internet : nous les appelons portails de diusion (job boards, sites web d'écoles, réseaux sociaux, sites web carrière d'entreprises, etc.). Il existe donc deux types d'intermédiaires : les intermédiaires dits traditionnels et les portails de diusion.

(31)

Figure 1.1  Acteurs du marché du recrutement et portails de diusion

Comme le montre la gure 1.1, certains intermédiaires traditionnels du marché de l'emploi peuvent interagir avec les portails de diusion pour le compte d'une entreprise. En eet, l'entreprise peut coner son recrutement à un cabinet ou à une agence, qui pourra entre autres utiliser les portails de diusion comme un moyen pour trouver des candidats corres-pondant au prol recherché. L'entreprise peut également faire le choix d'entrer directement en contact avec les portails de diusion pour obtenir des candidatures.

La gure 1.2 présente plus en détail la nature des interactions entre : ceux que nous appellerons les recruteurs (entreprises, cabinets de recrutement ou agences d'intérim), les candidats et les portails de diusion.

1.1.2 Des besoins d'amélioration pour la procédure de recherche des candidats

Une entreprise peut avoir recours à de nombreux moyens pour trouver des candidats à un poste : ANPE, Apec, presse écrite, Internet, forums et salons, cabinets de recrutement, cooptation, ou encore candidatures spontanées. Malgré la diversité des canaux utilisés (trois canaux ou plus dans 55% des recrutements), les entreprises éprouvent des dicultés pour recruter. En eet, parmi les procédures de recrutement ayant abouti, l'employeur estime tout de même que le recrutement a été dicile pour 30% des embauches sous contrat à

(32)

1.1. INTERNET ET LE MARCHÉ DU RECRUTEMENT

Figure 1.2  Rôle des portails de diusion dans le processus de recrutement durée indéterminée (pour 20% des embauches sous contrat à durée déterminée). Et près d'une fois sur deux, l'employeur attribue la diculté de recrutement à une pénurie de main-d'÷uvre dans sa région (qui se traduit par un manque de candidats sur le poste à pourvoir)1.

Pour les recrutements de cadres sous contrat CDI, c'est la diusion d'une annonce sur Internet qui a permis d'approcher le candidat retenu dans 30% des cas où ce canal est utilisé. Ce chire peut paraître satisfaisant par rapport à celui des autres canaux : un taux d'ecacité2 à 14% pour les candidatures spontanées, 39% pour l'APEC, ou encore 17% pour l'ANPE3. Toutefois, il reste susamment bas dans l'absolu pour soulever la question de la bonne utilisation des supports à disposition sur le canal Internet.

Depuis l'arrivée des job boards, l'utilisation du média Internet pour le recrutement ne cesse de se développer. Entre 2006 et 2009, la part des postes cadre à pourvoir ayant donné lieu à la publication d'une annonce sur Internet a augmenté de 16 points (cf. gure 1.3). En 2009, Internet s'avère être un média incontournable pour le recrutement avec 82% des ores d'emploi cadre qui y sont publiées. L'expansion du média Internet pour le recru-tement a entrainé une multiplication des canaux permettant de trouver des candidats :

1. Les données citées dans ce paragraphe sont issues des résultats de l'enquête OFER, 2005 [voir Garner et Lutinier 2006a,b].

2. Nous entendons par taux d'ecacité la proportion de recrutements ayant eectivement abouti grâce au canal lorsque celui-ci est utilisé.

(33)

sites généralistes (ex. : Monster.fr, Apec.fr), sites spécialisés (ex. : FinancialCareers.fr, Lesjeudis.com), réseaux sociaux et blogs (ex. : Viadeo, Facebook), sites web d'écoles et d'associations d'anciens, CVthèques, etc. Aussi, il est de plus en plus dicile pour les re-cruteurs de faire un choix entre ces diérents canaux, d'où la nécessité de pouvoir évaluer et comparer leurs ecacités respectives dans le cadre d'une campagne de recrutement.

Figure 1.3  Part des postes à pourvoir ayant donné lieu à la publication d'une ore sur Internet en 2006 et 2009 (sur 100 recrutements cadre, source : étude APEC)

1.2 Problématiques associées à la recherche de candidats sur

Internet

Aujourd'hui, la principale préoccupation des recruteurs est de dénicher les meilleurs can-didats pour un poste donné. Les problématiques sous-jacentes sont présentées ci-dessous. Obtenir un volume important de retours. Pour avoir une chance de trouver de bons candidats, il faut recevoir un minimum de réponses à une annonce passée. Les re-cruteurs sont donc particulièrement attentifs au rendement des job boards qu'ils utilisent, c'est-à-dire au volume de candidatures qu'ils reçoivent en réponse à une annonce diu-sée. Cependant, un gros volume de retours implique forcément un gros volume de bruit (candidatures non qualiées pour le poste à pourvoir), et un travail de tri plus important. Toutefois, c'est en diusant largement son annonce que le recruteur a des chances de

(34)

ren-1.2. PROBLÉMATIQUES ASSOCIÉES À LA RECHERCHE DE CANDIDATS SUR INTERNET

contrer des candidats atypiques, avec un prol intéressant. En restreignant la visibilité de son annonce, le recruteur peut passer à côté d'un candidat qui correspondrait au poste. Recevoir des candidatures qualiées. Il est important de recevoir un grand nombre de CV, mais il est nécessaire qu'une bonne proportion de CV qualiés y soit associée. Le bruit peut apparaître au niveau des annonces d'emploi (les candidats sont face à une abondance d'ores qu'ils ne peuvent pas toujours discriminer de manière pertinente), ou au niveau des candidatures. En eet, avec le développement du e-recrutement, il est de plus en plus facile de postuler en ligne (parfois un simple clic sut pour envoyer un CV, donc non spécique à l'ore choisie). De plus, dans une conjoncture dicile pour les chômeurs, ces derniers ont tendance à candidater à un maximum de postes, pas toujours adaptés à leur prol, car on ne sait jamais.

Diminuer les temps de traitement des candidatures. Plus le volume de candida-tures reçues est grand, plus les temps de traitement associés seront importants, et par suite les coûts qui y sont liés. Si la part de CV qualiés est faible (et réciproquement la part de bruit élevée), les coûts inutiles seront d'autant plus forts.

Être visible auprès des candidats passifs et des prols rares. Les candidats en poste sont une des cibles privilégiées des recruteurs. Une des problématiques du recruteur consiste donc à être visible auprès de ces candidats au comportement passif, n'ayant pas de démarche active de recherche d'emploi. Pour cela, le choix des supports de diusion de l'annonce est primordial. Il l'est d'autant plus lors d'une mauvaise conjoncture sur le marché de l'emploi car les individus en poste sont moins mobiles, de peur de se trouver au chômage au cas où l'expérience tournerait mal dans la nouvelle entreprise. Les annonces d'emploi doivent également être susamment visibles pour atteindre des prols rares ou atypiques, d'où l'importance du choix des supports de diusion.

Optimiser le budget alloué au processus de recherche des candidats. Une pro-blématique actuelle majeure des recruteurs est d'optimiser le rendement des annonces pu-bliées, ainsi que les coûts liés au processus de recherche des candidats (qu'il s'agisse des

(35)

coûts liés à la publication, au traitement des retours, ou aux logiciels de recrutement). D'une manière générale, on constate une volonté d'automatisation des processus liés au recrutement an d'obtenir une diminution des coûts à diérentes étapes. La gure 1.4 présente sous forme synthétique les problématiques évoquées ci-dessus et les interactions qui les lient.

Figure 1.4  Problématiques du e-recrutement et interactions

Augmenter le volume et la qualité des candidatures reçues permet d'agir positivement sur l'objectif d'optimisation des coûts. En revanche, l'augmentation des temps de traitement a une inuence négative sur l'optimisation des coûts. De plus, l'augmentation de la visibilité et du volume agit indirectement et de manière négative sur le rendement des annonces. En eet, deux phénomènes en sont la cause :

 l'augmentation de la visibilité de l'annonce et du volume de candidatures reçues entraine une dégradation de la qualité globale des candidatures reçues et par suite une diminution du rendement ;

 l'augmentation du volume de candidatures reçues entraine une augmentation des temps de traitement et par suite une augmentation des coûts liés au processus de recrutement.

(36)

1.3. PRÉSENTATION DE MULTIPOSTING.FR ET POSITIONNEMENT

1.3 Présentation de Multiposting.fr et positionnement

Multiposting.fr est une plate-forme française de multidiusion d'ores d'emploi sur Internet en activité depuis septembre 2008. En France4, c'est la première technologie qui permet aux recruteurs de diuser une annonce d'emploi sur un grand nombre de supports (sites d'emploi, sites d'écoles, blogs, réseaux sociaux, etc.) avec une seule saisie du contenu de l'annonce. Elle ore actuellement ses services à plus de 400 clients, principalement en France [Multiposting.fr 2011].

1.3.1 Processus de diusion d'une ore d'emploi via Multiposting.fr

La gure 1.5 donne une représentation simpliée des diérentes étapes suivies par le recru-teur lorsqu'il diuse une annonce d'emploi via l'outil Multiposting.

Choix des

sites l'annonceSaisie de

Analyse de la performance Validation de la saisie Etape 1 Etape 2 Etape 3 Etape 4

Hors processus de diffusion

Annonce diffusée

Figure 1.5  Étapes de la diusion d'une ore d'emploi avec Multiposting.fr La première étape est consacrée au choix des sites : le recruteur coche sur l'interface les sites sur lesquels il souhaite diuser son annonce. La deuxième étape est dédiée à la saisie de l'annonce (champs communs à remplir systématiquement et champs spéciques dont

4. A l'international, deux concurrents sont identiés au moment de la création de l'entreprise : eQuest (États-Unis) et Broadbean (Royaume-Uni).

(37)

la liste est déduite des sites sélectionnés à l'étape précédente). La troisième étape permet de vérier les informations saisies et de valider la diusion de l'annonce. A l'issue de cette étape, l'annonce est envoyée sur les diérents sites choisis. Une quatrième étape (hors du processus de diusion) peut être considérée : l'analyse de la performance des campagnes de recrutement menées. En eet, à la n d'une campagne, le recruteur peut observer les rendements obtenus sur les diérents sites et mettre à prot ses conclusions lors des futures campagnes.

1.3.2 Intérêts de l'utilisation de la plate-forme de diusion Multiposting.fr

Grâce à ses fonctionnalités, Multiposting.fr constitue une aide pour les recruteurs visant à améliorer leur procédure de recrutement sur Internet à diérents niveaux :

 Relativement à une procédure habituelle de recrutement, l'outil permet d'augmen-ter le nombre de candidatures reçues en fournissant l'accès à de nouveaux supports Internet gratuits non utilisés jusqu'à présent par le recruteur.

 L'outil permet d'augmenter la visibilité auprès des candidats qualiés grâce à la possibilité de diuser sur des sites spécialisés, des sites d'écoles ou d'associations d'anciens, ou encore des blogs choisis en adéquation avec le prol recherché.

 Poster une annonce sur un site d'emploi est une procédure chronophage, qui doit de plus être répétée autant de fois qu'il y a de sites utilisés. L'outil permet de réduire de manière importante le temps passé à poster l'annonce grâce à un processus simple et automatique de multidiusion : une seule saisie sut pour éventuellement plusieurs dizaines de sites utilisés.

 Enn, Multiposting.fr propose le suivi de la performance des annonces et des sites utilisés (via le décompte des candidatures reçues). L'étude de ces résultats permet l'optimisation du budget alloué à la campagne de recrutement grâce à l'identication des sites ayant les meilleurs/moins bons rendements.

1.3.3 Les axes d'amélioration identiés pour l'outil

La section précédente évoque la plus-value apportée par Multiposting.fr relativement à une utilisation classique des sites d'emploi. Cependant, ces fonctionnalités présentent certaines

(38)

1.4. COMPARATIF DES SOLUTIONS CONCURRENTES

limites qui permettent d'identier des axes d'amélioration. En eet, que l'objectif soit de gagner en volume ou en qualité des candidats, le choix des sites à utiliser est laissé au recruteur, accompagné de l'expertise des commerciaux de Multiposting.fr. Aujourd'hui, ce choix n'est donc pas guidé par des critères objectifs, mais lié à des avis plus ou moins subjectifs, aux préférences des recruteurs. Bien que le système de multidiusion propose le suivi de la performance des annonces diusées et des sites utilisés, à nouveau, l'analyse et l'interprétation des résultats est laissée à la charge du recruteur qui ne dispose pas d'outil pour le guider dans ses futurs choix.

Les constats précédents mettent en évidence la nécessité de construire un outil d'aide à la décision, s'intégrant harmonieusement avec le système existant, et guidant le recruteur à travers les diérentes étapes de la diusion d'une annonce.

1.4 Comparatif des solutions concurrentes

Dans cette section, nous faisons un état de la concurrence des outils de recrutement intelli-gents disponibles sur le marché. Les informations reproduites ici sont celles communiquées par les sociétés concernées via leur site Internet, des communiqués de presse, etc., et sont donc limitées en fonction de la stratégie de communication de ces diérentes sociétés. Chaque sous-section est dédiée à une société et à la présentation de l'outil (ou des outils) qu'elle propose. Nous nous concentrons sur l'étude de l'outil à travers ses fonctionnalités, ses avantages et inconvénients, et éventuellement ses divergences en termes de nalité par rapport à l'outil Multiposting.fr.

eQuest

La société eQuest se présente comme le leader mondial de la diusion d'annonces d'emploi sur Internet [eQuest 2011a]. Cette société ore ses services à plus de 20 000 entreprises dans le monde et assure la distribution de plus de 250 millions d'annonces chaque année [eQuest 2011b]. eQuest propose des outils approfondis pour le suivi de la performance des campagnes de recrutement dans le but d'améliorer celle des prochaines campagnes. Deux outils sont proposés : Chameleon [eQuest 2011c] et TRAQ24 [eQuest 2011d].

(39)

Chameleon est l'outil assurant la distribution des annonces d'emploi auprès des job boards, réseaux sociaux, associations d'élèves, etc. Quatre fonctionnalités sont disponibles :

 JobTracker. Cet outil permet de collecter et acher en un seul rapport les statistiques de performance des annonces sur chaque job board utilisé (nombre d'achages de l'ore, nombre de candidats ayant cliqué pour candidater, taux de conversion des achages en clics pour candidater, coût par clic) et ainsi aider à allouer le budget aux job boards les plus performants. JobTracker permet d'évaluer et comparer l'ecacité des job boards sur la base d'une liste de critères (entité, catégorie, titre unique, poste, pays, ville).

 Spendometer. Lors de la diusion d'une annonce, l'outil recherche dans la base de données les annonces diusées pour des postes similaires dans la même localisation au cours des 30 derniers jours et identie le job board pré-sélectionné par le re-cruteur ayant reçu les plus mauvaises (ou le moins de) candidatures. Spendometer recommande alors de désélectionner ce site an de diminuer les coûts de recrutement.  Post Scheduler. Il permet de planier la diusion de l'annonce à une date future et ainsi la faire apparaître en tête de liste des sites d'emploi au moment où les candidats potentiels sont les plus nombreux sur Internet.

 Post Conrmation. Informe de la mise en ligne et de la visibilité des annonces sur les sites d'emploi.

TRAQ24 est un outil avancé permettant le suivi en temps réel des métriques sur les dif-férents job boards, depuis la visualisation des ores au recrutement. Sept fonctionnalités sont proposées :

 Ticker. Permet le suivi des statistiques de performance des annonces en temps réel (achages et clics par heure depuis les dernières 24 heures).

 Dashboard. Une page résumant l'ensemble des statistiques sur les annonces postées à travers tableaux et graphiques. Pour une période donnée, l'ensemble des métriques suivies (nombre de postings, nombre d'achages, nombre de candidatures, nombre de recrutements) sont visibles au sein d'un graphique pour le niveau d'agrégation choisi (année, trimestre, mois, semaine, jour). Il présente les répartitions des candidats selon le job board source, la fonction du poste, la localisation, le secteur et l'utilisateur.

(40)

1.4. COMPARATIF DES SOLUTIONS CONCURRENTES

On y trouve les fonctionnalités My Leaderboard et eQuest Leaderboard.

 My Leaderboard. Fournit au recruteur les taux de succès des diérents job boards par rapport aux données de son entreprise. Permet d'analyser les résultats par localisa-tion, fonction du poste, secteur et utilisateur. Indique également la provenance des candidats recrutés.

 eQuest Leaderboard. Cette fonctionnalité permet au recruteur de comparer les taux de succès de son entreprise à ceux des autres utilisateurs de TRAQ24, et constitue une aide pour la mise en place des prochaines campagnes de recrutement.

 Track by unique job. Permet d'analyser la performance des postes de manière indi-viduelle sur chacun des job boards utilisés. Comme sur le Dashboard, les métriques sont visibles à l'aide d'un graphique à diérents niveaux d'agrégation. Le recruteur peut comparer sa performance à celle des autres entreprises pour le même type de poste et la même localisation5.

 Google API mapping. Permet de décompter les achages et clics de candidature en fonction de la provenance (pays, région), et de les représenter sur une carte.

 Search on specic job skills. Cette fonctionnalité permet d'analyser la performance des job boards relativement à un ensemble de compétences ou postes grâce à un outil de recherche personnalisé.

TRAQ24 a été lancé en septembre 2011 et se présente comme un complément de Chameleon au niveau des analyses statistiques proposées. Le principe proposé consiste à se baser sur l'analyse de la performance de ses campagnes passées (comparaison des métriques entre les job boards et à celles des autres recruteurs) pour en déduire des indications sur les actions à mener pour améliorer les prochaines campagnes de recrutement. Cependant, seul Spendometer suggère des actions à mener en direct lors de la diusion d'une nouvelle annonce, et cela concerne la suppression du job board payant le moins performant. Il n'y a pas d'indication en direct sur les job boards qui devraient eectivement être utilisés. eQuest Leaderboard permet l'estimation de la performance d'une annonce à partir de l'historique des utilisateurs de TRAQ24 en se basant sur le type de poste et la localisation. Le nombre de critères pris en compte est donc très limité et nous ne disposons pas d'informations sur

5. Nous pouvons supposer que cette fonctionnalité a recours à la même méthodologie que celle employée par Spendometer.

(41)

la méthodologie employée garantissant l'absence de biais dans les statistiques délivrées. De plus, la pertinence de l'estimation vis-à-vis des besoins du recruteur n'est pas évidente. En eet, ce type d'estimation est préconisé à la fois pour évaluer la performance attendue sur des job boards donnés (Spendometer) et pour comparer la performance de l'ore du recruteur à celle des autres recruteurs (Track by unique job), ce qui paraît contradictoire.

Broadbean

La société Broadbean ore ses services à 33 000 utilisateurs à travers 55 pays [Broadbean 2011a] et propose plusieurs outils dédiés aux ressources humaines : multidiusion d'ores d'emploi, gestion des candidatures, recherche dans des bases de CV, recrutement sur les réseaux sociaux Facebook et Twitter. Des outils sont disponibles pour aider à contrôler le budget et analyser la performance des campagnes de recrutement dans une optique d'optimisation [Broadbean 2011b].

Une première fonctionnalité oerte par Broadbean est l'enregistrement d'une sélection automatique des portails d'emploi et réseaux sociaux en fonction du type de poste diusé [Broadbean 2011c]. Broadbean propose également des rapports d'activité permettant de suivre le nombre d'ores publiées et le nombre de candidatures reçues sur chaque job board. Les rapports permettent également de comparer la qualité globale des candidatures reçues sur les diérents portails. Enn, les statistiques fournies dans les rapports de suivi donnent des indications sur les job boards à utiliser en fonction du secteur et du type de poste à pourvoir [Broadbean 2011d], mais nous ne disposons d'aucun détail concernant la méthodologie employée.

Bien que les rapports d'activité fournissent une aide à la décision, le nombre de critères pris en compte pour la mise en évidence des job boards à utiliser est très restreint (secteur et type de poste). Omettre les autres facteurs pouvant inuencer la performance des ores peut biaiser l'estimation donnée au recruteur. De plus, il n'est pas proposé d'outil de recommandation permettant de guider les choix du recruteur en direct lorsqu'il diuse son annonce.

(42)

1.4. COMPARATIF DES SOLUTIONS CONCURRENTES

RFlex

RFlex est une solution de gestion du recrutement, de la mobilité et des compétences qui ore ses services à plus de 200 entreprises réparties dans 70 pays [RFlex 2011]. Lors d'un communiqué de presse datant du 23 avril 2010, RFlex fait part du lancement d'un outil d'optimisation de sourcing [Exclusive RH 2010]. En se basant sur une suite de métriques (nombre de candidatures reçues, nombre d'entretiens obtenus, nombre de personnes re-crutées), l'outil Prols.net permet d'évaluer le retour sur investissement de chaque site d'emploi. Prols.net agrège l'ensemble des ores d'emploi des clients et des candidatures reçues métier par métier, an de présenter au moment de la diusion de l'annonce les statistiques des quatre sites emploi les mieux positionnés pour le poste à pourvoir. L'outil se base sur des associations de métiers6, et les données sont mises à jour sur un trimestre glissant.

Nous pouvons mettre en évidence plusieurs inconvénients à cette méthode. D'abord, seul le métier proposé est pris en compte dans l'estimation du ROI des diérents sites d'emploi ce qui ne permet pas de fournir une évaluation précise de la performance que le recruteur peut attendre (de nombreux autres facteurs peuvent inuencer le nombre de retours provenant d'un site). De plus, le système qui consiste à associer manuellement des nomenclatures provenant de diérentes sources n'est pas pleinement satisfaisant car certains sites fournissent des catégories de métiers très larges qui ne permettent pas d'apprécier nement le type de poste à pourvoir.

Aktor Interactive

Aktor Interactive est une agence de Communication de recrutement et de Marketing RH présente sur les principaux marchés européens. Début 2010, le rapprochement des sociétés Kioskemploi et Aktor Interactive donne naissance à Kioskemploi-Aktor HR Software, lo-giciel de recrutement et de gestion des Ressources Humaines [Groupe Aktor 2011]. C'est cette solution qui nous intéresse et que nous décrivons dans cette section.

Kioskemploi-6. un an de travail de mapping des métiers et des prols réalisé, [Exclusive RH 2010]. Notre connais-sance du domaine nous permet de supposer qu'une typologie de métiers a été dénie par RFlex, puis que les nomenclatures des métiers des diérents sites d'emploi et/ou les titres de postes ont été associés manuellement à la typologie de métiers établie.

(43)

Aktor HR Software propose des logiciels de gestion des candidatures et deux logiciels de diusion d'annonces et d'analyse de la performance : Robopost et Jobstats. Ces derniers per-mettent de publier facilement des annonces et des publicités de recrutement sur plusieurs job boards simultanément et d'analyser les performances des campagnes de recrutement [Kioskemploi-Aktor HR Software 2011]. Robopost est l'outil qui permet de multidiuser les annonces sur Internet. Il fournit des statistiques par annonce, par job board, par période, etc., et permet au recruteur de dénir des rapports personnalisés pour mesurer l'ecacité de ses campagnes et améliorer la performance des campagnes futures. L'outil Jobstats per-met de visualiser les statistiques de performance (achages, clics, ratio clics/achages) au cours du temps par job board et par poste. Ici encore, le recruteur doit analyser les rapports fournis pour en déduire des actions à mener pour les futures campagnes, mais il n'est pas guidé au moment de la diusion de son annonce. De plus, le recruteur n'a pas accès à des statistiques agrégées sur l'ensemble des clients pour évaluer la performance attendue sur les diérents sites, ou pour se comparer aux autres recruteurs.

Remarque 1 Des travaux de thèse ont été nancés par Aktor Interactive [Kessler 2009] mais concernent des recherches sur le traitement automatique des ores (détection des diérentes parties d'une ore d'emploi, distinction entre CV et lettre de motivation) et la détection de candidatures correspondant à une ore d'emploi. Nous détaillerons l'aspect pertinent de ces recherches par rapport à nos travaux dans la section 4.2.2.

Autres solutions

D'autres solutions orent un service de multidiusion d'annonces ainsi que des outils per-mettant l'analyse des performances mais communiquent très peu sur ces derniers. Nous pouvons retenir :

 Ubiposting [Ubiposting 2011],  Kimladi [Kimladi 2011],

(44)

1.4. COMPARATIF DES SOLUTIONS CONCURRENTES

Synthèse

Le tableau 1.1 synthétise les informations obtenues suite à nos recherches pour les quatre principaux concurrents du marché du point de vue de l'ore d'outils d'aide à la décision pour les recruteurs. Les colonnes du tableau indiquent l'outil de recrutement concerné tandis que les lignes présentent les fonctionnalités identiées. L'outil que nous développons est appelé outil prédictif MP.

eQuest Bro db ean RFlex Kiosk emploi  Aktor HR Ob jectif outil pr édictif MP

Met à disposition des outils de rapport statistique pour l'analyse de la performance des annonces pos-tées

× × × × ×

Permet la comparaison de ses propres performances à celles des autres recruteurs

× ×

Fournit une estimation de la performance attendue pour un type de poste sur les diérents job boards sur la base de statistiques agrégées

× × ×

Prend en compte un grand nombre de critères (perti-nents) pour estimer la performance d'une campagne

×

Fournit des recommandations au recruteur au mo-ment de la diusion d'une nouvelle annonce

× × ×

Table 1.1  Comparaison des solutions de recrutement concurrentes

Notre objectif est de développer un outil d'aide à la décision mettant à disposition du recruteur toutes ces fonctionnalités dans le but de fournir une solution complète répondant aux attentes et modes de fonctionnement variés des diérents recruteurs.

(45)
(46)

Chapitre 2

Indicateurs de performance d'une

campagne de recrutement

2.1 Évaluation de la performance d'une campagne de

recru-tement : état de l'art

Pour pouvoir introduire la notion de performance d'une campagne de recrutement, il est nécessaire de dénir au préalable les objectifs de recrutement. En eet, l'évaluation d'une campagne se fait en comparant les résultats obtenus aux objectifs initiaux de l'organisation, comme le suggèrent Breaugh and Starke [2000] via leur représentation de l'organisation du processus de recrutement (la première phase y est la dénition des objectifs, et la dernière phase l'évaluation des résultats).

Pendant longtemps, le principal objectif des recruteurs était d'attirer le plus grand nombre de candidatures. Rynes [1991] suggère de considérer un plus large éventail d'indi-cateurs, et propose notamment un ensemble d'indicateurs évalués post-embauche. Ainsi, nous identions deux types d'indicateurs permettant d'évaluer les résultats d'une cam-pagne : les indicateurs pré-embauche (calculés avant le recrutement) et les indicateurs post-embauche. Nous commençons par présenter les indicateurs post-embauche pour -nir par les indicateurs pré-embauche, de manière à nous rapprocher progressivement des indicateurs plus intimement liés à notre problématique.

(47)

2.1.1 Indicateurs post-embauche

Des indicateurs évaluant le(s) recrutement(s) eectué(s) peuvent être étudiés. Nous avons : la performance des nouveaux employés, leur satisfaction vis-à-vis du poste, et le taux de rétention un an après les nouvelles embauches [Rynes 1991]. Mais d'autres indicateurs pou-vant être mesurés les premiers jours suipou-vant l'embauche sont également intéressants : le coût du recrutement, la durée pour pourvoir le(s) poste(s), le nombre d'individus embauchés, et la diversité des nouveaux employés [Breaugh 1992].

L'enquête Ore d'emploi et recrutement1, réalisée en France par le Ministère du Travail en 2005, suggère de prendre en compte un certain nombre d'indicateurs pour étudier l'e-cacité des procédures de recrutement des entreprises françaises. L'étude du dictionnaire des données nous suggère en eet de prendre en compte des indicateurs mesurés post-embauche. Certains peuvent être mesurés immédiatement après le recrutement : la durée totale du processus de recrutement (entre la diusion du besoin et le choix d'un candidat), le coût externe total du recrutement, le coût interne en termes de durée (cumul du temps passé par des personnes de l'établissement), le niveau estimé de diculté du recrutement (jugé sur trois niveaux). D'autres sont mesurés six mois après la prise de fonction du salarié : le candidat recruté est-il toujours présent dans l'établissement (si départ, le candidat est-il parti plus tôt que prévu), le recruteur choisirait-il le même candidat ?

2.1.2 Indicateurs pré-embauche

Comme évoqué ci-dessus, un indicateur pré-embauche majeur est le nombre d'individus qui candidatent au poste [Wanous 1992; Williams et al. 1993]. Mais d'autres indicateurs comme la qualité des candidatures reçues ou leur diversité sont également d'intérêt pour le recruteur [Williams et al. 1993]. La diversité peut concerner l'âge, l'origine ethnique ou encore l'origine géographique des candidats.

1. L'enquête Ore d'emploi et recrutement (OFER) s'adresse aux établissements du secteur privé d'au moins un salarié ayant recruté ou essayé de recruter au moins un salarié (hors intérim) au cours des douze mois précédant la collecte de l'enquête. L'enquête porte sur le dernier recrutement eectué. Ses objectifs sont d'améliorer la connaissance de l'organisation des procédures de recrutement du côté des entreprises, d'en apprécier l'ecacité, et d'améliorer la compréhension des notions de dicultés et d'échec du recrutement (http://www.travail-solidarite.gouv.fr).

(48)

2.1. ÉVALUATION DE LA PERFORMANCE D'UNE CAMPAGNE DE RECRUTEMENT : ÉTAT DE L'ART

L'enquête OFER citée précédemment suggère également de prendre en compte des indicateurs pré-embauche : le nombre de candidatures examinées par le recruteur (si examen des candidatures), la satisfaction du recruteur vis-à-vis de l'ensemble des candidatures reçues, le nombre de candidatures retenues à l'issue du premier tri (si premier tri avant entretien), le nombre de candidats ayant passé des entretiens individuels, et le nombre de candidats jugés intéressants qui se sont désistés.

2.1.3 Apparition d'Internet et évolution des indicateurs de performance

Les indicateurs évoqués jusqu'à présent peuvent être mesurés quel que soit le moyen utilisé pour trouver des candidats. Cependant, les mesures des indicateurs de performance ont évolué de manière importante avec l'expansion du média Internet pour recruter, et ce à deux niveaux diérents.

2.1.3.1 Évolution de la performance due au média Internet

Tout d'abord, les valeurs des indicateurs de performance qui étaient mesurées avant l'appa-rition du e-recrutement ont été profondément modiées. Ainsi, les principaux changements sont :

 L'augmentation de la visibilité des annonces en touchant une audience plus large [Bartram 2005; Laabs 1998; Pin et al. 2001; Zusman and Landis 2002; Veger 2006] et par suite l'augmentation du volume des candidatures reçues, parfois même de manière trop importante [Brooke 1998; Galanaki 2002], rendant impossible le traitement manuel. En particulier, l'e-recrutement permet d'atteindre une audience plus large de candidats passifs [Politt 2004; Veger 2006].

 La diminution des coûts de recrutement [Bartram 2005; Pin et al. 2001; Veger 2006].  La réduction de la durée du processus de recrutement [Bartram 2005; Pin et al. 2001; Veger 2006]. Les gains de temps apparaissent à trois niveaux : au moment de la diusion de l'ore (publication quasi-immédiate et automatique en ligne), au ni-veau de la réception des candidatures (les individus peuvent postuler immédiatement suite à la publication de l'ore et ce 24h/24), et au niveau du traitement des candi-datures (elles peuvent être traitées électroniquement grâce à des logiciels de gestion

(49)

des ressources humaines).

 L'augmentation du volume de candidatures non pertinentes [Fondeur et Tuchszirer 2005; Kaydo and Cohen 1999]. En éliminant un certain nombre de barrières à l'entrée du marché du travail, Internet a apporté une plus grande transparence et entrainé un fort accroissement du taux d'informations non pertinentes (ou bruit, Fondeur et Tuchszirer 2005; Fondeur 2006). Ce bruit apparaît au niveau de l'accès aux ores d'emploi (lié à la qualité du moteur de recherche du site d'emploi), et au niveau des choix des candidats qui peuvent postuler à des ores non adaptées à leur prol étant donné le faible coût de l'acte de candidature.

2.1.3.2 Naissance de nouveaux indicateurs de performance

De plus, le développement du recrutement sur Internet ainsi que les mécanismes de dif-fusion et de candidatures aux annonces d'emploi sur ce média ont donné naissance à de nouvelles mesures d'intérêt, intimement liées au processus de navigation sur les sites d'em-ploi. Dans un premier temps, nous présentons le processus complet de recherche d'emploi et de candidature sur Internet (cf. gure 2.1).

Figure

Figure 1.1  Acteurs du marché du recrutement et portails de diusion
Figure 1.2  Rôle des portails de diusion dans le processus de recrutement durée indéterminée (pour 20% des embauches sous contrat à durée déterminée)
Figure 1.3  Part des postes à pourvoir ayant donné lieu à la publication d'une ore sur Internet en 2006 et 2009 (sur 100 recrutements cadre, source : étude APEC)
Figure 2.1  Processus de recherche d'emploi et de candidature sur Internet
+7

Références

Documents relatifs