• Aucun résultat trouvé

CHAPITRE 5 PRÉSENTATION DES RÉSULTATS

5.3 Expériences et résultats

5.3.1 Discussion de l’hyperparamètre p ∗

Dans la modélisation des coûts, nous ajustons premièrement un modèle logistique qui permet de déterminer si un coût est nul ou non. Le modèle logistique prédit alors des probabilités. Généralement, on fixe un seuil à 0,5 c’est-à-dire qu’une observation sera classée dans une classe si la probabilité prédite est inférieure à 0,5 et dans l’autre classe sinon. Le choix de cette valeur suppose que les deux classes sont équilibrées dans l’ensemble d’apprentissage, c’est-à-dire que nous avons autant d’observations pour l’une que pour l’autre. Or dans notre cas, nous n’avons pas cet équilibre.

est aux alentours de 0,1 avec pour certains jeux de données une prédiction maximale inférieure à 0,5. On remarque donc que si nous choisissons un p∗ élevé alors nous prédisons beaucoup de 0 tandis qu’avec une valeur faible, nous en prédisons moins.

La proportion de 0 prédite est très importante car elle se retrouve dans la prédiction des taux de clics. En effet, lors de l’étape de classification dans le modèle de prédiction des taux de clics, nous avons une relation forte entre la variable de réponse région (qui représente les classes) et la variable coût. En effet toutes les observations prédites à coût nul ont automatiquement un taux de clic également nul. Or nous avons des faux positifs parmi ces valeurs nulles prédites. Nous considérons un jeu de données auquel nous appliquons notre modèle global pour des valeurs de p∗ de 0,05, 0,1, 0,25 et 0,5. Nous traçons alors les nuages de points des valeurs prédites en fonction des valeurs réelles. Nous obtenons la figure 5.1 qui permet d’observer l’effet du paramètre p∗ sur la prédiction des taux de clics. En noir (points carrés), nous avons nos valeurs prédites et en rouge (points ronds) nous avons les valeurs réelles qui suivent naturellement la première bissectrice. L’effet du paramètre p∗ se voit au niveau de l’origine. Les points noirs d’abscisse 0 représentent les prédictions des observations avec un taux de clic nul. Tous les points d’ordonnée strictement positives sont des prédictions erronées et plus l’ordonnée est élevée plus la prédiction est mauvaise. Plus la valeur de p∗ augmente plus leur nombre baisse puisque plus de 0 sont prédits à l’étape des coûts. A contrario, le nombre de points le long de la droite des abscisses augmentent avec p∗; ce qui signifie que des observations non nulles sont prédites à 0. Il y a donc un compromis à trouver.

La valeur de p∗ peut être fixée en discutant avec les professionnels du domaine. En effet, quelle erreur ces personnes considèrent-elles la plus grave ? Es-ce que l’on veut s’assurer qu’une observation à taux de clics nul soit bien prédite à 0 ; dans ce cas une valeur élevée de

p∗ est nécessaire. Ou alors on ne veut surtout pas passer à côté d’une observation qui a un taux de clic non nul ; dans quel cas une petite valeur de p∗ est préférable. Malheureusement ne disposant pas de ces personnes ressources, nous optons pour une autre méthode.

Nous souhaitons prédire le maximum d’observations nulles possibles sans toutefois avoir trop de faux positifs. En gros nous souhaitons maximiser le rappel et la précision (voir section 3.1.3). Pour ce faire nous utilisons la F-mesure qui est la moyenne harmonique de ces deux quantités. La F-mesure admet un paramètre α (équation 3.12) qui permet d’accorder plus d’importance à une l’une ou l’autre des quantités. Dans notre cas, de grandes valeurs de

p∗ donnent un rappel élevé. Ainsi si nous donnons la même importance aux deux termes, nous obtenons des p∗ grands. Nous décidons (arbitrairement) donc d’accorder trois fois plus d’importance à la précision en fixant donc la valeur de α à 1/3.

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 p=0.05

taux de clics réels

taux de clics prédits

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 p=0.1

taux de clics réels

taux de clics prédits

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 p=0.25

taux de clics réels

taux de clics prédits

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 p=0.5

taux de clics réels

taux de clics prédits

Figure 5.1 Nuage de points des taux de clics prédits en fonction des taux de clics réels pour différentes valeurs de p∗, le seuil de classification du modèle logistique des coûts pour un même jeu de données.

des valeurs de p∗ comprises entre 0,05 et 0,5 avec un pas de 0,025. Avec cette méthode, nous pouvons maintenant calculer la valeur optimale de p∗ pour chaque jeu de données en utilisant une méthode de validation croisée de type 10-fold cross validation.

La validation croisée est assez coûteuse en temps de calcul puisque nous devons ajuster le modèle 10 fois. Ainsi nous avons cherché à voir si nous pouvons considérer une même valeur quelque soit le jeu de données. Nous considérons donc 50 jeux de données créés à partir du jeu de données C, puis nous calculons la valeur de p∗ optimale. Le tableau ci-dessous récapitule les valeurs obtenues.

Tableau 5.1 Tableau récapitulatif des valeurs optimales de p∗ obtenues sur les 50 jeux de données.

min 1er quartile médiane moyenne 3ème quartile max

0,1 0,125 0,1375 0,14 0,1875 0,2

On note des valeurs comprises entre 0,1 et 0,2 avec une médiane à 0,1375 et une moyenne de 0,14. Dans la suite de nos expériences, nous considérons p= 0, 1375 pour tous les jeux de données.

L’hyperparamètre p∗ fixé, il nous reste à déterminer le nombre de classes à utiliser dans notre modèle.