• Aucun résultat trouvé

La préparation des données est importante. Elle intègre la collecte, le traitement et la sélection des données à traiter. Nous présentons dans les paragraphes suivants les opéra- tions effectuées sur les données à notre disposition.

4.5.1 Collecte et extraction des données

La première étape consiste à cibler les données issues des bases de données. Dans notre cas, nous avons ciblé les données de jeux joués et homogènes. Toutes les parties sé- lectionnées ont été réalisées sur le même scénario de marché avec les mêmes événements économiques et évidemment sur le même moteur de simulation.

Dans un second temps, nous devons extraire de ces bases de données les variables représentant les décisions des participants. L’objectif de notre démarche n’est pas de pré- dire le vainqueur d’une partie ou plus généralement d’anticiper la performance finale d’une entreprise au regard de ses décisions passées. Notre souhait est de connaître les dé- cisions futures d’une équipe pour en prédire l’impact sur le marché. C’est pourquoi, nous avons sélectionné uniquement les variables décisionnelles impactant le marché.

Nous disposons donc au départ de fichiers disjoints. La figure4.4présente une série de données collectées pour lesquelles chaque jeu a été déroulé respectivement sur k,l et

n tours de jeu. Pour chaque jeu, le nombre d’équipes n’est pas non plus garanti. Sur cette

même figure nous présentons p, q et m équipes.

Ainsi, l’hétérogénéité s’est manifestée comme cité ci-dessous :

— Le nombre d’équipes inscrites : Les parties comportent de 4 à 10 équipes.

— Le nombre de tours joués : Les parties ont été jouées sur une période variant entre 6 et 10 tours.

Jeu Equipe Cycle Variable 1 Variable 2 Variable i Jeu 1 1 …1 k …1 k p …1 k Jeu 2 1 …1 l …1 l q …1 l Jeu j 1 …1 n …1 n m …1 n

FIGURE4.4 – Données brutes extraites

4.5.2 Linéarisation des données

Chaque jeu joué se compose d’un ensemble de données classées par cycle, équipe, produit et zone de jeu. Ces données exportées doivent être linéarisées afin de disposer d’une ligne par équipe regroupant toutes les décisions des cycles joués. Chaque ligne représentera donc toutes les décisions concurrentielles prises au cours du jeu par une équipe pour le produit considéré.

Nous obtenons ainsi une matrice présentant autant de lignes que d’équipes inscrites. Le nombre de colonnes de la matrice correspond au nombre de variables décisionnelles étudiées sur un tour multiplié par le nombre de tours de jeu joués.

Pour rappel, les variables sont :

— Prix pour le prix du produit,

— Publicité pour le budget publicitaire alloué spécifiquement au produit,

— Commission pour la commission des commerciaux sur le produit,

— NbFV pour l’effectif de la force de vente,

— DP pour le délai de paiement imposé au client.

Une colonne pourra ainsi porter le nom suivant : Prix_Cyclekpour le prix donné sur le

cycle k.

La figure4.5présente cette transformation.

L’information contenue dans la variable jeu n’est pas conservée car l’appartenance d’une équipe à un jeu n’offre pas d’information complémentaire sur le comportement de cette équipe.

Nous ajoutons toutes les équipes de toutes les parties sélectionnées à la matrice géné- rale.

FIGURE4.5 – Linéarisation des décisions

4.5.3 Sélection des données

Nous sélectionnons les variables comprises entre les cycles n et p soit£n,..., p¤. Nous nommerons cet intervalle : « fenêtre ».

Le premier cycle de jeu ne sera jamais intégré à la sélection de données afin d’éviter les erreurs de compréhension des règles du jeu des participants.

Dans le même esprit, nous ne retenons pas non plus le dernier tour de jeu. Celui-ci est régulièrement le théâtre d’optimisations communément appelées stratégie de fin de jeu. Ces comportements, bien souvent non cohérents sur le long terme, visent à améliorer rapidement les performances des entreprises pilotées au détriment d’un développement futur et pérenne.

Enfin, nous maintiendrons une largeur de sélection de données suffisante pour une prédiction efficace. Ainsi, chaque fenêtre contiendra au moins trois cycles de décisions comme indiqué dans la figure4.6. Cette sélection assure un suivi et une cohérence du comportement des équipes.

FIGURE4.6 – Fenêtre de sélection de variables

4.5.4 Pré-traitement des données

Nous souhaitons éliminer toutes les variables non significatives ou statistiquement hors norme de la matrice précédemment générée.

Nous procédons dans un premier temps à la suppression des colonnes dont l’écart- type est nul pour éliminer les variables sans intérêt, ne permettant pas de différencier les

comportements.

Nous avons souhaité extraire tous les individus qui présentaient des caractères anor- maux. Ces comportements proviennent d’incompréhensions des règles du jeu ou d’une tentative de déstabilisation de l’univers économique. Ils se caractérisent par des décisions marginales.

Nous exploitons une technique de détection des outliers sur chaque variable et calcu- lons le Scor eZ de chacune d’elles. Nous considérerons que si un individu présente une variable statistiquement « anormale » alors il sera écarté de la matrice à traiter et donc du traitement.

Identification des outliers par le Score Z

Ainsi pour chaque valeur yi de la variable y, le Score Z de la variable (zi) s’obtient par

la formule (avecσy l’écart-type de y) : zi=

yi− ¯y

σy

(4.1)

Iglewicz et Hoaglin proposent d’exploiter le score Z évolué (IGLEWICZ et HOAGLIN

[1993]). Il se traduit par la formule :

mi=

0.6745(yi− ¯y)

MADy

(4.2)

où MADy est la déviation absolue de la médiane. Elle se calcule par la formule sui-

vante : MADy= Mediane( ¯ ¯yi− ¯y ¯ ¯) (4.3)

Iglewicz and Hoaglin ont montré qu’une valeur misupérieure à 3, 5 obtenue pour une

seule variable d’un individu i indique que l’individu est très probablement un outlier. Ainsi, la première variable en dehors de l’intervalle de tolérance entraine l’exclusion com- plète de l’équipe.

4.5.5 Centrage des données

Afin d’annihiler l’effet de grandeur des variables à traiter, nous centrons l’ensemble des variables de la matrice en appliquant :

x0i= xi− mi n(x)

max(x) − mi n(x) (4.4)

Notons que nous devrons réaliser, dans la phase d’exploitation, l’opération inverse. Ainsi, nous stockerons pour chaque variable les informations nécessaires à l’opération.

4.6 Datamining : Partitionnement des équipes par cluste-