• Aucun résultat trouvé

Partie VI. Applications

E. Analyse d’offres d’emploi et de CV (Ubiq RH)

1.

Objectif

Les offres d’emploi et CV disponibles en ligne constituent un matériau potentiellement très riche, disponible en temps réel. Son analyse est rendue difficile en raison de la masse d’informations à analyser, de la variété des supports de publication en ligne, de la faible standardisation des formats

180 Un moteur de recherche à facettes affiche des données structurées extraites du texte, en les regroupant par

catégories. La figure 55 montre sur la gauche de la capture d’écran les thématiques calculées (motifs et rayons) et sur la droite les entités nommées (marques, concurrents, produits, concepts…) qui constituent les différentes facettes dans le cas d’espèce.

d’annonce, de l’absence de référence à des nomenclatures communes et du caractère souvent implicite des contenus. L’analyse sémantique offre un moyen de traiter rapidement des volumes importants de documents RH.

Après avoir été originellement conçue pour traiter les avis de consommateurs, la solution Ubiq a été adaptée au domaine RH par l’équipe Proxem pour analyser des offres d’emploi et des CV. Ubiq RH permet aussi de chercher les CV correspondant le mieux à une offre ou les meilleurs postes pour un profil donné. Un point à souligner est que le code des deux versions est quasiment identique, l’adaptation au domaine se faisant par simple paramétrage. La figure 57 montre l’interface d’Ubiq dans ce contexte : on voit à gauche les taxonomies correspondant aux métiers et aux compétences. La figure 58 détaille les informations extraites suite à l’analyse d’un CV.

Figure 57 : Interface d’Ubiq permettant la recherche dans les documents RH

148

2.

Adaptation d’Ubiq au domaine RH

a)

Adaptation des analyseurs

Différents types d’ambiguïté sont présents dans les documents RH. Un nom propre comme Orange peut désigner une ville (où habite un candidat, où un poste est à pourvoir…), une entreprise (celle qui recrute, ou bien une expérience citée dans un CV) ou encore un patronyme. Un nom de métier désigne des réalités différentes en fonction du secteur : par exemple, on recrute des architectes en informatique et dans le BTP. Plusieurs villes portent le même nom : Evry peut être le chef-lieu du département 91 ou une autre ville du département 89. Un nombre, 50000 par exemple, désigne en fonction du contexte un code postal ou une rémunération.

La démarche d’acquisition de connaissances présentée au chapitre C a été appliquée en s’appuyant sur un corpus d’approximativement 100 000 CV et 50 000 offres. Au final, les informations extraites ici par Ubiq sont : les métiers, les compétences sous-jacentes, les talents, les expériences, les compétences linguistiques, les diplômes, les types d’entreprise, les types de poste, les secteurs, les habilitations, les éléments de rémunération ainsi que les lieux. Ces travaux d’adaptation au domaine RH ont contribué aux publications (Loth et al., 2010) et (Chaumartin, 2012).

En ce qui concerne l’identification des métiers, nous avons dû prendre en compte une difficulté dans l’analyse de certaines offres. Le composant de reconnaissance d’entités nommées extrait les métiers cités, mais on peut en trouver plusieurs dans une même offre ; en effet, si le poste à pourvoir apparaît toujours explicitement (« entreprise de BTP recrute un conducteur de travaux »), l’offre peut aussi mentionner un rattachement hiérarchique (« sous l’autorité du directeur régional, vous… »). Nous avons alors mis en œuvre le composant d’extraction de relations (Cf V.C, page 106) pour gérer ce second cas181, de façon à ne pas confondre le profil recherché avec son supérieur direct. La figure 59 montre des exemples de résultats obtenus.

Figure 59 : Exemples de détection de rattachement hiérarchique dans des offres d’emploi

181 Avec des patrons morphosyntaxiques comme :

 sous la (responsabilité | conduite | direction | coordination | autorité) du respX:anyNoun

Pour finir sur l’adaptation des analyseurs au domaine RH, rappelons que la méthode d’apprentissage par exploration des énumérations a donné ici de bons résultats. En effet, les offres et les CV présentent souvent des énumérations (comme les listes de compétences ou de diplômes).

b)

Etude de référentiels existants

Notre objectif était de disposer d’un référentiel complet sur les métiers et les compétences sous- jacentes. Nous avons étudié certaines nomenclatures des métiers utilisées dans le monde professionnel. Certaines sont internationales (ISCO-08 – International Standard Classification of

Occupations182 du Bureau International du Travail), d’autres nationales (ROME – Répertoire

Opérationnel des Métiers et des Emplois183 du Pôle Emploi ; annuaire des métiers184 de l’APEC ; FAP- 2009 – nomenclature des Familles Professionnelles185 de l’INSEE). Cette étude nous a permis de constater que ces nomenclatures officielles intègrent rarement d’une façon directe les compétences recherchées dans les offres d’emploi ou citées dans les CV. Cela a conduit l’équipe Proxem, lors de la phase d’adaptation des analyseurs, à acquérir les compétences et talents associés à un métier donné avec une approche semi-supervisée.

3.

Similarité entre documents exploitant la taxonomie

Grâce aux informations extraites lors de l’analyse sémantique, Ubiq dispose d’une connaissance fine des métiers et des compétences sous-jacentes. Cela permet de trouver les meilleurs profils correspondant à une offre ou, d’une façon symétrique, les annonces correspondant le mieux à un CV donné.

Une partie importante de l’analyse sémantique d’un document RH consiste à reconnaître des entités nommées à l’intérieur d’un document. Elles sont organisées en arborescence et forment une taxonomie du domaine RH. L’exploitation de cette taxonomie, avec la prise en compte de la distance entre deux concepts, permet d’améliorer sensiblement la pertinence des résultats lors des recherches effectuées par les candidats ou les recruteurs.

Par exemple, un CV qui contient une seule fois le mot « Java », mais plusieurs termes comme « JSP », « Struts » et « Hibernate » (technologies liées à Java) sera correctement identifié comme étant celui d’un profil expérimenté dans le domaine Java. De même, dans le domaine informatique, une compétence .NET est (toutes choses égales par ailleurs) plus proche d’une compétence Java qu’une compétence COBOL.