• Aucun résultat trouvé

5.5 Traitement des données liées aux Ressources Humaines

5.5.2 Méthode de classement automatique des candidats

Le protocole expérimental suivi diffère de ceux déjà présentés dans ce chapitre car nous n’avons pas effectué de classification automatique de textes. Une telle tâche a en effet été menée précédemment avec ces données mais n’a pas révélé de résultats probant.

Ainsi, nous proposons d’effectuer une comparaison des candidatures avec les offres d’em- ploi. Nous obtenons alors un classement des candidatures en fonction de leurs pertinences vis-à-vis des offres d’emploi.

Nous disposons d’un corpus fourni par la société Aktor contenant 14 offres d’emploi avec des thématiques différentes (emplois en comptabilité, commercial, informatique, etc) as- sociées aux réponses des candidats (1917 candidatures). Chaque candidature est identifiée comme pertinente ou non pertinente par un expert.

Nous construisons à partir de ce corpus une matrice de co-occurrences termes/documents afin d’obtenir une représentation vectorielle des offres d’emploi et des candidatures. Nous pouvons finalement mesurer la proximité des offres avec les candidatures en utilisant trois mesures de proximité : le cosinus [Salton, 1971], la mesure de Minkowski [Sokal, 1977] et la mesure Okabis [Bellot & El-Bèze, 2001]. Notons que ces mesures, plus complexes, ont le même comportement que la mesure cosinus [Kessler et al., 2008a]. Après avoir calculé la proximité des candidatures aux offres d’emploi sur la base des différentes mesures, nous pouvons établir un classement des candidatures.

Afin de mesurer la qualité de ce classement, nous employons les Courbes ROC (Receiver Operating characteristic) [Ferri et al., 2002], fréquemment utilisée afin de mesurer la qual- ité des fonctions de rang. La méthode des courbes ROC met en relation dans un graphique le taux de faux positifs (c’est-à-dire les candidatures non pertinentes) en abscisse et le taux de vrais positifs (c’est-à-dire les candidatures pertinentes) en ordonnée. La surface sous la courbe ROC ainsi créée est appelée AUC (Area Under the Curve). Nous nous sommes appuyés sur cette métrique dans nos expérimentations. Notons que cette approche sera appliquée également dans le chapitre7, dans lequel nous détaillerons davantage le principe des courbes ROC.

5.5.3 Expérimentations

Nous résumons ici les résultats expérimentaux obtenus en utilisant différents de- scripteurs. Notons que nous ne détaillerons pas dans cette section l’ensemble des ré- sultats expérimentaux obtenus, ces derniers étant décrits dans [Kessler et al., 2009] et [Kessler et al., 2008a]. Nous avons évalué le terme, sous sa forme fléchie ou lemmatisée. Ce dernier a été pondéré suivant sa fréquence ou bien son tf-idf. Nous avons également utilisé les descripteurs fondés sur les catégories lexicales avec diverses pondérations sur les noms verbes et adjectifs. Les résultats des AUC en utilisant ces différents descrip- teurs sont obtenus en calculant une moyenne des AUC obtenus avec chaque mesure de similarité. Chaque descripteur obtient des résultats similaires autour de 0,64. Ainsi, le modèle présenté dans ce chapitre ne semble pas adapté aux données syntaxiquement pau- vres comme des CV. Notons par ailleurs que les n-grammes de caractères utilisés dans le

modèle HYBRED ont obtenu des valeurs d’AUC plus faibles au cours de nos expérimen- tations. Nous n’avons ainsi pas évalué l’approche HYBRED avec ces données, la jugeant non adaptée.

Nous nous sommes alors intéressés à la structure des CV et des lettres de motivation (LM). Nous cherchons alors à déterminer où se situe l’information contenue dans les CV et les LM. Nos expérimentations ont montré, en effectuant un découpage par tiers des CV et LM, que l’information était contenue dans le second tiers du CV et dans le premier tiers des LM. En effet, avec uniquement le second tiers du CV, les AUC obtenues sont relativement proches de celles obtenues avec la totalité des candidatures. Notons que ces travaux sont en cours et que d’autres expérimentations seront prochainement effectuées. Une dernière méthode a été utilisée afin d’améliorer les AUC précédemment obtenues, le modèle présenté dans ce chapitre ne donnant pas de résultats satisfaisants. La méthode testée, nommée Relevance Feedback ou retour de pertinence proposée par [Spärck-Jones, 1970] est une approche classique de reformulation de requête afin d’améliorer les résultats obtenus au préalable. Par exemple, un ensemble de résultats faisant suite à une requête est analysé par un utilisateur, qui va reformuler sa requête en prenant compte des résultats. Notons que cette approche a déjà été employée dans le domaine des Ressources Humaines. En effet, [Rafter et al., 2000] proposent un sys- tème de Relevance Feedback afin de guider l’internaute dans sa recherche d’emploi à partir d’informations extraites du site d’emploi JobFinder26. Dans notre cas, cette ap-

proche va permettre de prendre en compte les choix du recruteur lors de l’évaluation de quelques candidatures. En d’autres termes, cette approche permet d’introduire les con- naissances de l’expert dans le modèle de sélection de candidatures. Cette méthode per- met en quelque sorte d’effectuer un apprentissage sur les données positives. Ainsi, nous effectuons un tirage aléatoire de quelques candidatures (de une à six dans nos expéri- mentations) parmi l’ensemble des candidatures étiquetées comme pertinentes. Celles-ci sont finalement ajoutées à la Mission (description de l’offre), produisant un espace vecto- riel enrichi par les termes (descripteurs) jugés pertinents par le recruteur. L’approche de “Relevance Feedback” a permis d’améliorer nos résultats d’AUC [Kessler et al., 2009].

5.6 Synthèse

Nous avons présenté dans ce chapitre une méthode d’extraction de descripteurs per- tinents adaptée aux données complexes. Ce type de données peut être défini comme des données textuelles écrites dans une langue naturelle, mais ne respectant pas ou peu une grammaire décrivant cette langue. La méthode d’extraction de descripteurs proposée dans

ce chapitre a été mise en place afin de répondre aux contraintes du modèle SelDe. Rap- pelons en effet que SelDe ne peut être appliqué sur des données complexes car notre modèle est fondé sur les relations syntaxiques contenues dans un corpus. Le modèle de sélection de descripteurs de ce chapitre propose l’extraction de termes appartenant à des catégories lexicales préalablement fixées. Ces termes sont extraits en employant un éti- queteur grammatical qui s’appuie sur une approche statistique. Ainsi, notre modèle est assez robuste aux données complexes.

Nous avons évalué la qualité de ce modèle dans diverses expérimentations sur différents types de données complexes. Nous avons expérimenté les données suivantes.

1. Données syntaxiquement mal formulées et mal orthographiées (corpus formé d’arti- cles de blogs).

2. Données bruitées ou incomplètes (corpus formé de documents numérisés par recon- naissance OCR).

3. Données dépourvues de syntaxe (corpus de Ressources Humaines contenant des CV).

Notons que pour les deux premières expérimentations, notre tâche fut de classer automatiquement des articles dans des catégories définies en employant une approche avec apprentissage supervisé. La dernière tâche quant à elle, consiste à sélectionner des candidats (sur la base de CV et de lettres de motivations) pertinents par le biais de mesures de proximité, sans apprentissage.

• Le modèle proposé dans ce chapitre a donné des résultats encourageants lors de nos premières expérimentations. Ainsi, il nous semble adapté aux données syntaxique- ment mal formulées.

• Les résultats de la deuxième expérimentation avec le modèle se sont révélés moins pertinents. Alors, une approche nommée Hybred a été définie consistant à combiner l’approche des catégories lexicales avec des descripteurs de type n-grammes de caractères. Cette approche a donné des résultats encourageants. Ainsi, nous proposons avec des données bruitées et/ou incomplètes d’utiliser l’approche Hybred.

• La dernière expérimentation fut l’occasion de proposer une nouvelle approche, le Relevance Feedback, les autres approches ne s’étant pas révélées probantes. Bien qu’améliorant les résultats des autres méthodes, le Relevance Feedback produit des résultats assez mitigés, nous invitant à travailler sur de nouvelles pistes, consistant à intégrer des connaissances sur les CV.

• Notons pour finir que nous n’avons pas appliqué l’approche LSA au cours des expérimentations menées sur les données textuelles complexes. En effet, les contraintes imposées par les applications industrielles empêchent l’utilisation d’approches trop coûteuses en termes de temps d’exécution.

Après avoir expérimenté la sélection de descripteurs adaptés aux données textuelles complexes, nous revenons dans la section suivante sur la sélection de descripteurs fondée sur la syntaxe. Rappelons en effet que le modèle SelDe ne traite pas les objets complémentaires entre verbes, fournissant une information supplémentaire. Le chapitre suivant propose de traiter ces objets en présentant un nouveau modèle.

Chapitre 6

SelDeF : la sélection de descripteurs

avec filtrage

Sommaire

6.1 Vers un nouveau modèle . . . 153