1 Introduction
L’objectif de ce travail est de proposer une classification des séries temporelles de production pétrolière annuelle de 1960 à 2008 pour les principaux pays producteurs [données www.bp.com].
On dispose d’un échantillon de n courbes échantillonnées traduisant l’évolution temporelle des pro- ductions de pétrole (Mtep) par pays et l’on souhaite regrouper ces courbes en k classes tel que le nombre k de classes soit beaucoup plus petit que n. Une fois ces classes trouvées, il sera possible d’en étudier certaines caractéristiques telles que la situation géographique des pays qui les constituent, la détermination d’un représentant de chaque classe, la distribution des maximums de production par classe. L’originalité de cette étude, s’il y en a une, consiste à effectuer la classification à partir de données filtrées où ne sera conservée que l’information relative à la forme des courbes.
US US IT Italy SYR Syria SUD Sudan
CAN Canada KAZ Kazakhstan EAU Em. Arab. Un. TUN Tunisia
MEX Mexico NOW Norway YEM Yemen OAF Other Africa
ROM Romania MID Other Mid. East
ARG Argentina RUS Russia AUS Australia
BRA Brazil TRK Turkmenistan ALG Algeria BRU Brunei
COL Colombia UK United Kingdom ANG Angola CHI China
ECU Ecuador UZB Uzbekistan CAM Cameroon IND India
PER Peru TCH Chad IDO Indonesia
TRT Trin. & Tob. IRA Iran CON Rep. of Congo MAL Malaysia
VEN Venezuela IRQ Iraq EGY Egypt THA Thailand
OCA Other S. & Cent. Am. KUW Kuwait GUE Guinee Equ. VIT Vietnam
OMN Oman GAB Gabon OAP Other Asia Pacif.
AZE Azerbaijan QAT Qatar LIB Libya
DK Denmark ARS Saudi Arabia NIG Nigeria
Figure 1: Liste des abbréviations et noms des pays producteurs. Les pays qui n’apparaissent pas dans l’analyse n’ont pas été pris en compte (données manquantes).
2 Analyse de la forme des courbes
Avant d’effectuer l’opération de classification, nous allons procéder à trois opérations distinctes.
La première consiste à modifier les données initiales de manière à ne conserver que les caractéris-
tiques qui décrivent la forme des courbes. Nous entendons par forme d’une courbe, l’ensemble des
caractéristiques d’une courbe lorsque l’effet lié à sa taille globale est éliminé. En d’autres termes,
l’étude comparative de la forme des courbes doit être effectuée en s’affranchissant des effets liés
aux quantités effectives de pétrole extrait qui constituent le caractère le plus structurant entre les
pays sur la durée d’étude. En effet, comparer la courbe de production de l’Arabie Saoudite à celle
de la Roumanie sans effectuer une transformation d’échelle, reviendrait à dire que ces courbes sont
différentes par le simple fait que les quantités extraites ne sont pas du même ordre de grandeur. Il
va donc falloir choisir une transformation permettant de normaliser les données relativement à cet
effet de taille.
La seconde transformation consiste à représenter ces données normalisées sous la forme de courbes continues. Cette opération se justifie par la nature même des données : des séries tem- porelles sont des courbes échantillonnées. Le fait de chercher une expression fonctionnelle pour une série temporelle, c’est à dire de replonger cet objet dans un espace de courbe auquel il appartient initialement, permet de prendre en compte, dans la suite des analyses, le lien qui existe entre des données ponctuelles indicées par le temps. En effet, la plupart des méthodes d’analyse exploratoire des données donnent des résultats invariants sous l’action d’une permutation des variables. Par exemple, permuter les variables explicatives dans une régression linéaire multiple ne change pas les résultats de l’analyse. Dans le cas de séries temporelles, l’ordre des variables doit être respecté puisqu’il correspond à un ordre temporel. Enfin, travailler sur des données fonctionnelles permet de comparer des objets qui n’ont pas forcément été échantillonné aux mêmes temps.
La dernière opération consiste à résumer l’information contenue dans ce nuage de n courbes normalisées en un petit nombre de facteurs, non corrélés deux à deux, qui permettront d’expliquer les variations de forme communes à l’ensemble des pays producteurs de l’échantillon considéré. La méthode statistique choisie pour effectuer cette analyse de la variabilité entre la forme des courbes repose sur une démarche exploratoire multidimensionnelle. Elle est une extension de l’Analyse en Composantes Principales qui prend en compte le fait que des données peuvent être consid- érées comme des fonctions (données fonctionnelles). Elle fait partie du vaste champ de méthodes mathématiques développées dans le cadre de l’Analyse de Données Fonctionnelles (Ramsay & Sil- verman,2005).
2.1 S’affranchir de l’effet d’échelle
Une manière classique de s’affranchir de l’effet d’échelle entre chaque courbe de production est de ramener l’écart entre la valeur minimale de production et la valeur maximale sur l’intervalle [0, 1].
Soit une courbe échantillonnée { y (t
1) , ..., y (t
p) } où y (t
j) représente une valeur de production an- nuelle de pétrole d’un pays donnée avec p = 49 sur la période τ = [1960, 2008]. Soit respectivement,
y
m= min
j=1,...,p
{ y (t
j) } et y
M= max
j=1,...,p
{ y (t
j) } ,
la valeur minimale de production et sa valeur maximum. L’opération de normalisation consiste à effectuer une transformation linéaire telle que la nouvelle série de données { z
1, ..., z
p} soit constituée des valeurs
z
j= 1 V
m(y
j− y
m) , j = 1, ...p
où V
M= y
M− y
mest l’amplitude de production. Une fois les données normalisées, on va ef- fectuer une dernière opération de centrage vertical qui consiste à placer chaque série temporelle de manière symétrique autour d’un axe arbitraire commun à toutes les courbes, comme on le ferait naturellement en comparant deux objets. Un choix subjectif consiste à centrer chaque courbe sur l’axe des abcisses. Ceci revient à oter à la série temporelle sa valeur moyenne m =
1pP
pj=1
z (t
j).
L’analyse de la forme des courbes peut maintenant être poursuivie à partir d’un échantillon de n séries temporelles normalisées (Fig. 2) de la forme
{ Z (t
1) , ..., Z (t
p) } = { z (t
1) − m, ..., z (t
p) − m } .
1970 1980 1990 2000
0200040006000800010000
time
raw data (MTep)
1970 1980 1990 2000
0.00.20.40.60.81.0
time
normalized data
1970 1980 1990 2000
-0.50.00.5
time
normalized data
Figure 2: Procédure de normalisation des séries temporelles. Partant des données brutes de pro- duction (en gris, à gauche, courbe moyenne noire), les variations sur la verticale sont ramenées sur l’intervalle [0, 1] (au milieu). Les courbes échantillonnées sont alors centrées autour de l’axe des abscisses (à droite). On peut maintenant comparer les formes.
2.2 Des données sous forme de courbes
Considérons une de ces séries temporelles normalisées { Z (t
1) , ..., Z (t
p) } . A partir de ces données ponctuelles, on cherche à reconstituer la courbe normalisée de la production, notée Z (t) sous la forme
Z (t) = X
q k=1α
kφ
k(t) + ε (t)
où les a
k, k = 1, ...q, q ≤ p sont les coefficients associés à la décomposition dans une base de fonctions φ
1, ...φ
qchoisie d’avance. Ces coefficients composent la partie déterministe de la série temporelle contrairement à ε (t) qui est considéré comme un résidu négligeable. La base choisie est ici une base de B-splines, polynômes de degré 3 par morceau, avec des contraintes de continuité sur un certain nombre de noeuds. C’est une manière raisonnable de reconstituer chaque courbe en introduisant une certaine forme de régularité (les données initiales sont lissées), comme en atteste la figure 3.
D’autres choix sont également valides (séries de Fourier, polynômes, ...). L’estimation des coef- ficients de la décomposition est effectuée par régression polynomiale usuelle.
2.3 Analyse en composante principale sur les coefficients
Supposons maintenant que l’on dispose d’une expression fonctionnelle pour l’ensemble des pays considérés. Cet ensemble de données formé par les coefficients de la décomposition dans la base choisie, va former un échantillon de n courbes { Z
1, ..., Z
n} où chaque Z
i(t) est maintenant une fonction du temps t, ce dernier prenant ses valeurs continument sur l’intervalle τ = [1960; 2008].
Les courbes Z
i, i = 1, ..., n présentent des conditions de régularité suffisantes pour pouvoir être
dérivées plusieurs fois (propriétés des splines). L’analyse de la variabilité entre ces courbes est
1970 1980 1990 2000
-0.6-0.4-0.20.00.20.40.6
time
normalized values
1 111 1 11 11 1 11 11 1 1111
111 1 11 11 1111 11
1 1
11 111
1 111
2 2 22 2 22 22 2 22 2 2
2 2
2 22
2 22
2 222 2
2 2 2
2 2 2
2 22
2 22
2222 2
3 3 3
3 3 33 33 333
33 333 3 33
3 333333
333333 33 3 3
3 33 3
3 33
Figure 3: Exemple d’ajustement splines sur 3 séries temporelles normalisées. Le nombre de vecteurs de base conditionne la régularité des courbes et permet de donner une expression analstique à chaque courbe échantillonnée.
effectuée par Analyse en Composante Principale Fonctionnelle (ACPF). Un ensemble de facteurs explicatifs, communs à toutes les courbes, non corrélés deux à deux et pouvant être rangés par ordre d’importance est obtenu par diagonalisation de l’opérateur de variance-covariance estimé entre les courbes de l’échantillon (pour plus de détails voir Ramsay & Silverman, 2005, Nerini et. al., 2007, 2009). Il s’agit en fait de résoudre le problème aux valeurs propres suivant :
Z
τ
V (s, t) ξ
k(s) ds = λ
kξ
k(t) , t ∈ τ , k = 1, 2, ...
où V (s, t) est la fonction de variance-covariance entre courbes, ξ
kest la fonction propre associée à la valeur propre λ
k. Dans notre cas, nous utilisons l’avantage d’avoir représenté ces courbes dans une base puisqu’il suffit d’effectuer cette opération de diagonalisation sur la matrice de variance- covariance entre coefficients de la décomposition : le problème aux valeurs propres précédent, posé dans un espace de courbes, est ramené à un problème classique en dimension finie (k = 1, ..., q). Le lien fonctionnel entre variables est conservé via l’introduction d’une métrique qui dépend de la base de fonctions initialement choisie.
A la suite de cette décomposition, chaque observation (pays) peut être représentée comme une
combinaison linéaire des facteurs explicatifs précédemment déterminés. Les pays peuvent alors être
projetés dans un sous-espace de faible dimension (généralement un plan factoriel) où les relations
de distance entre objets initiaux (courbes) sont conservées au mieux. On peut également associer
une proportion d’information résumée par ces sous-espaces (pourcentage d’inertie) relativement à
l’information (au sens de la variance).contenue dans le nuage de points initial. Enfin, il est possible
d’interpréter les positions relatives des objets (pays) dans ces sous-espaces en associant à chaque
facteur (axe principal) une source de variabilité de leur forme.
2.4 Résultats
En ACPF, on va retrouver, comme en ACP classique, un positionnement des objets dans un espace factoriel de dimension donnée qu’il va falloir interpréter en fonction d’un positionnement simultané des variables entre elles (Fig. 4). Or, lorsqu’une ACP est réalisée sur des variables qui correpondent à des coefficients de base, les représentations graphiques usuelles sont difficiles à interpréter. Que dire de la corrélation/covariance entre le coefficient de la décomposition du 5eme vecteur de base à celui du 10ème? On en sait rien. On peut par contre reconstituer la courbe qui correspond à ces nouvelles variables, combinaison linéaire des coefficients initiaux : il suffit pour cela de multiplier les vecteurs propres de la décomposition précédente par les fonctions de base φ
1, ..., φ
ppour reconstituer ce que l’on appelle une fonction propre. Pour avoir une idée de ce qu’est un facteur principal associé à un axe d’inertie, une représentation classique consiste à regarder l’effet de la fonction propre associée à une valeur propre donnée sur une courbe. Un choix pertinent est de considérer l’effet d’une perturbation engendrée par la fonction propre ξ
jsur l’indicidu le plus proche de tous les individus, c’est à dire la courbe moyenne Z définie comme
Z (t) = 1 n
X
n i=1Z
i(t) , t ∈ τ .
Considérons par exemple, le premier facteur de l’ACPF représenté sur la figure 4 et tâchons de comprendre pourquoi les pays producteurs sont associés à un certain ordre le long de cet axe factoriel.
-3 -2 -1 0 1
-1.5-1.0-0.50.00.51.01.5
PCA for oil curves
PCA scores 1 ( 53.8 %)
PCA scores 2 ( 22.3 %)
US
CAN
MEX ARG
BRA COL
ECU
PER TRT
VEN
OCA DK
ITNOW
ROM
UK IRA
IRQ KUW
OMN QAT
ARSEAU SYR MID
ALGANG
CAM TCH
EGY GAB LIB
NIG SUD
TUN
AUS BRU
CHI IND
IDO
MAL THA
VIT
OAP
1970 1980 1990 2000
-0.4-0.20.00.20.4
PCA function 1 (Percentage of variability 53.8 )
time
Harmonic 1
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
---
---
Figure 4: Représentation simultanée des individus sur le premier plan factoriel et effet de la première
fonction propre (courbes - et +) sur l’individu moyen (courbe pleine) lors d’un déplacement le long
de l’axe 1. Les individus présentant une forte contribution négative le long de ce premier axe (ROM,
MID, IRQ, US) présenteront essentiellement un pic de production dans les années 70. A l’opposé, es
individus projetés positivement sur cet axe (NOW, IT MAL, IND) présenteront une forme proche
de la courbe +.
Si l’on range dans l’ordre croissant les individus en considérant leur coordonnée factorielle le long de l’axe horizontal, on obtient la série rangée suivante :
ROM, US, MID, TRT, LIB, KUW, VEN, IRA, IRQ, TUN, BRU, PER, IDO, TCH, QAT, NIG, SUD, ARS, OCA, ANG, ALG, AUS, GAB, CAN, EAU, CAM, THA, ARG, BRA, COL, OMN, ECU, CHI, VIT, EGY, OAP, UK, SYR, DK, IT, MEX, IND, MAL, NOW. Plus des pays seront en opposition sur cet axe, plus leurs formes seront différentes. Pour savoir quel facteur modifie leur forme, nous représentons l’effet de la fonction propre associé à cet axe de la manière suivante.
Imaginons que l’on déplace l’individu moyen (point de coordonnées (0, 0) sur la figure 4, panneau gauche, ou courbe pleine sur le panneau droit), le long du premier axe, vers sa partie négative.
La déformation engendrée par la fonction propre associée à la plus grande valeur propre peut être représentée comme une courbe (courbe "-" sur la figure 4, panneau droit)
Z
(−)(t) = Z (t) − cξ
1(t) , t ∈ τ .
De la même manière, un déplacement de l’individu moyen le long de la partie positive de l’axe 1 déformerait cet individu pour obtenir la courbe (Fig. 4, courbe "+", panneau droit) suivante :
Z
(+)(t) = Z (t) + cξ
1(t) , t ∈ τ .
Le paramètre réel c permet de contrôler la magnitude de la déformation. Il est choisi de manière arbitraire à titre illustratif. Si l’on compare maintenant ce facteur de déformation au rang des pays sur le premier axe factoriel, on s’aperçoit que le premier facteur de l’ACPF, qui résume environ 54% de la variance de l’échantillon, oppose les vieux pays producteurs de pétrole, ayant passé leur pic dans les années 1970, aux pays "jeunes", c’est à dire à ceux dont la production pétrolière est en pleine croissance.
Examinons maintenant la seconde fonction propre dont l’effet est représenté de la même manière que précédemment (Fig. 5, panneau gauche). Le deuxième axe factoriel qui résume 22.3 % de vari- ance expliquée, oppose des pays présentant un plateau de production entre 1985 et 2000 (courbe "-"), aux pays qui présentent une croissance de production avec un maximum secondaire de production dans les années 1970 (courbe "+").
Si l’on résume maintenant ce que l’on vient de présenter, tout pays peut donc être représenté comme une combinaison linéaire des facteurs que nous venons d’expliciter (et des suivants). Con- sidérons le cas des US par exemple. Dans le premier plan factoriel, ce pays est représenté comme un point situé dans le cadrant inférieur gauche de la figure 4 : ses deux coordonnées principales sont négatives. Il s’agit donc d’un pays dont la courbe de production pétrolière a passé son maximum de production dans les années 70 (premier axe) mais qui présente également un plateau de production à partir des années 80 (deuxième axe). Si l’on considère la totalité des observations, ces deux in- formations résument à elles seules 22.3 + 53.8 = 76.1% de la variabilité identifié sur l’ensemble des pays. On peut de la même manière reconstituer la production de chaque pays dans un espace de petite dimension, avec plus ou moins de succés, selon qu’un pays est bien représenté par les sources identifiées de variabilité, ce qui est le cas des US dans le premier plan factoriel.
3 Classification des courbes
Une fois l’ACPF effectuée, une classification dans l’espace des k premières composantes principales
est effectuée. Le fait de travailler dans l’espace des premières composantes principales au lieu
d’effectuer la classification sur le nuage initial permet de rendre les résultats plus robustes. Les
1970 1980 1990 2000
-0.4-0.20.00.20.4
PCA function 2 (Percentage of variability 22.3 )
time
Harmonic 2
++++++++++++++++++++++++++++++++++++++++
++++++
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
----------------------------------------------------------------------
1970 1980 1990 2000
-0.4-0.20.00.20.4
PCA function 3 (Percentage of variability 9 )
time
Harmonic 3
+++++++++++++++++++++++++++++++++++++++++++++++
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
------------------
---------------------------------------------------- ----------
Figure 5: Seconde et troisième fonctions propres dont l’effet est représenté comme une déformation de l’individu moyen. Le deuxième axe (22.3 % de variance expliquée) oppose des pays présentant un plateau de production entre 1985 et 2000 (courbe "-"), aux pays qui présentent une croissance de production avec un maximum secondaire de production dans les années 1970.
résultats seraient peu variables sous l’action d’une perturbation du nuage initial parce que l’on s’est débarrassé des composantes principales de faible variance susceptibles de n’être associées qu’à des caractéristiques propres d’individus isolés. Le résultat de la classification proposée est issu de l’utilisation conjointe de méthodes de classifications non-supervisées et supervisées et de l’utilisation d’un critère usuel (silhouette plot) pour déterminer un nombre de classes satisfaisant. Il faut noter que les résultats présentés ci-dessous ne sont qu’une possibilité parmi d’autres.
3.1 Résultats
A partir de l’arbre hiérarchique (Fig. 6), nous avons choisi de partitionner l’échantillon de courbes initial en quatres classes.
La figure 7 présente les individus pour chacune de ces classes. On remarque immédiatement
que sur les quatres classes, 3 classes présentent des courbes ayant déjà passé leur maximum de production. Seule la classe 2 regroupe des pays où l’exploitation des réserves de pétrôle a soit débuté, soit connu un rebon à partir des années 1990 (ARS, CAN, NIG, ALG, BRUN, QAT,...).
Un autre élément ramarquable concerne la classe 3 qui regroupe les pays dont le maximum de production a été atteint en moyenne en 2000. C’est la classe la plus homogène du point de vue de la variabilité de forme et c’est également celle qui contient le plus grand nombre d’individus.
Pour aller plus en avant, revenons maintenant dans l’espace des données initiales. La classifica-
tion des formes nous permet d’identifier des courbes appartenant à 4 classes distinctes, classification
effectuée à partir des formes, sans se soucier de l’effet taille déjà évoqué ci-dessus. La figure 8
représente les courbes initiales dans chaque classe. Il est intéressant de constater que les principaux
pays producteurs sont groupés dans les classes dont la forme indique une baisse de production (voir
US ROM MID VEN IRA KUW LIB PER IDO TUN TRT IRQ BRU CAN OCA ANG ALG ARS NIG QAT SUD TCH BRA THA DK VIT MEX IND MAL ARG OMN SYR OAP COL IT NOW ECU EAU CHI GAB AUS UK EGY CAM
02468
hierarchical clustering, 3 factors, Ward criterion
Height
Figure 6: Arbre de classification hiérarchique. 4 classes sont retenues en coupant l’arbre à la hauteur 4. Les branches qui tombent permettent d’identifier les pays appartenant à la même classe.
classe 3 notamment : CHI, MEX, EAU, NOW, UK). Dans la classe 2, si l’on enlève l’Arabie Saoudite (ARS) les volumes de pétrôle extrait sur les pays en croissance de production restent modérés.
Un dernier point intéressant concerne l’estimation, par classe, des distributions de maximum de production. Les courbes de la figure 9 présentent, pour chaque classe, une estimation à noyau de la densité des maximums de production. La classe 1 regroupe les pays ayant passé leur production maximum au cours des années 1970. La classe 2 montre que la distribution des maximums est concentrée autour de la dernière mesure (2008). La plupart des pays qui la constitue n’ont pas encore passé leur pic global de production. La classe 3 fait clairement apparaître des pays dont le maximum de production se situe autour des années 2000 et la dernière classe isole des individus ayant atteint leur production maximum en 1980. Ceci corrobore les résultats obtenues sur la figure 7.
4 Références
Ramsay, J. O. & B. W. Silverman (2005), Functional Data Analysis, Springer, New York.
Nerini, D. & B. Ghattas (2007), Classifying densities with regression trees : an application in oceanography, Comp. Stat. & Data. Anal., 101
Nerini D., Monestiez, P. & C. Manté (2010) Cokriging for Functional Data, J. Mult. Anal.
1970 1980 1990 2000
-0.4-0.20.00.20.40.6
Class 1
time
oil
1970 1980 1990 2000
-0.50.00.5
Class 2
time
oil
1970 1980 1990 2000
-0.6-0.4-0.20.00.20.40.6
Class 3
time
oil
1970 1980 1990 2000
-0.8-0.6-0.4-0.20.00.20.40.6
Class 4
time
oil
Figure 7: Représentation des individus dans chacune des classes. Les courbes noires représentent
l’individu type de chaque classe (moyenne des courbes). Du point de vue de leur forme, 3 des 4
classes ont passé leur pic de production.
1970 1980 1990 2000 2010
0200040006000800010000
Class 1
time (y)
oil production (Mtep)
US
VEN
ROM IRA
KUW
MID LIB
1970 1980 1990 2000 2010
0200040006000800010000
Class 2
time (y)
oil production (Mtep)
CAN
BRA
OCADK QAT
ARS
ALGANG
T CH NIG
SUDVITT HA
1970 1980 1990 2000 2010
0100020003000
Class 3
time (y)
oil production (Mtep)
MEX
COLARG ECU
IT NOW
UK
OMN
SYR EAU
CAM EGY
GAB AUS CHI
IND MAL
OAP
1970 1980 1990 2000 2010
0500100015002000250030003500
Class 4
time (y)
oil production (Mtep)
PERT RT IRQ
T UN BRU
IDO
Figure 8: Représentation des individus de chaque classe en utilisant les données brutes (courbes
noires = représentant de chaque classe). Les principaux pays producteurs de pétrôle sont groupés
dans la classe 3.
1950 1960 1970 1980 1990 2000 2010 2020
0.000.050.100.150.20
max production distribution, Class 1
N = 7 Bandwidth = 1.215
Density
1950 1960 1970 1980 1990 2000 2010 2020
0.000.050.100.150.200.25
max production distribution, Class 2
N = 13 Bandwidth = 0.8654
Density
1950 1960 1970 1980 1990 2000 2010 2020
0.000.020.040.06
max production distribution, Class 3
N = 18 Bandwidth = 2.872
Density
1950 1960 1970 1980 1990 2000 2010 2020
0.000.050.100.15
max production distribution, Class 4
N = 6 Bandwidth = 1.471
Density