1 Introduction L’objectif de ce travail est de proposer une classi

(1)

1 Introduction

L’objectif de ce travail est de proposer une classification des séries temporelles de production pétrolière annuelle de 1960 à 2008 pour les principaux pays producteurs [données www.bp.com].

On dispose d’un échantillon de n courbes échantillonnées traduisant l’évolution temporelle des pro- ductions de pétrole (Mtep) par pays et l’on souhaite regrouper ces courbes en k classes tel que le nombre k de classes soit beaucoup plus petit que n. Une fois ces classes trouvées, il sera possible d’en étudier certaines caractéristiques telles que la situation géographique des pays qui les constituent, la détermination d’un représentant de chaque classe, la distribution des maximums de production par classe. L’originalité de cette étude, s’il y en a une, consiste à eﬀectuer la classification à partir de données filtrées où ne sera conservée que l’information relative à la forme des courbes.

US US IT Italy SYR Syria SUD Sudan

CAN Canada KAZ Kazakhstan EAU Em. Arab. Un. TUN Tunisia

MEX Mexico NOW Norway YEM Yemen OAF Other Africa

ROM Romania MID Other Mid. East

ARG Argentina RUS Russia AUS Australia

BRA Brazil TRK Turkmenistan ALG Algeria BRU Brunei

COL Colombia UK United Kingdom ANG Angola CHI China

ECU Ecuador UZB Uzbekistan CAM Cameroon IND India

PER Peru TCH Chad IDO Indonesia

TRT Trin. & Tob. IRA Iran CON Rep. of Congo MAL Malaysia

VEN Venezuela IRQ Iraq EGY Egypt THA Thailand

OCA Other S. & Cent. Am. KUW Kuwait GUE Guinee Equ. VIT Vietnam

OMN Oman GAB Gabon OAP Other Asia Pacif.

AZE Azerbaijan QAT Qatar LIB Libya

DK Denmark ARS Saudi Arabia NIG Nigeria

Figure 1: Liste des abbréviations et noms des pays producteurs. Les pays qui n’apparaissent pas dans l’analyse n’ont pas été pris en compte (données manquantes).

2 Analyse de la forme des courbes

Avant d’eﬀectuer l’opération de classification, nous allons procéder à trois opérations distinctes.

La première consiste à modifier les données initiales de manière à ne conserver que les caractéris-

tiques qui décrivent la forme des courbes. Nous entendons par forme d’une courbe, l’ensemble des

caractéristiques d’une courbe lorsque l’eﬀet lié à sa taille globale est éliminé. En d’autres termes,

l’étude comparative de la forme des courbes doit être effectuée en s’affranchissant des effets liés

aux quantités eﬀectives de pétrole extrait qui constituent le caractère le plus structurant entre les

pays sur la durée d’étude. En eﬀet, comparer la courbe de production de l’Arabie Saoudite à celle

de la Roumanie sans eﬀectuer une transformation d’échelle, reviendrait à dire que ces courbes sont

diﬀérentes par le simple fait que les quantités extraites ne sont pas du même ordre de grandeur. Il

va donc falloir choisir une transformation permettant de normaliser les données relativement à cet

eﬀet de taille.

(2)

La seconde transformation consiste à représenter ces données normalisées sous la forme de courbes continues. Cette opération se justifie par la nature même des données : des séries tem- porelles sont des courbes échantillonnées. Le fait de chercher une expression fonctionnelle pour une série temporelle, c’est à dire de replonger cet objet dans un espace de courbe auquel il appartient initialement, permet de prendre en compte, dans la suite des analyses, le lien qui existe entre des données ponctuelles indicées par le temps. En eﬀet, la plupart des méthodes d’analyse exploratoire des données donnent des résultats invariants sous l’action d’une permutation des variables. Par exemple, permuter les variables explicatives dans une régression linéaire multiple ne change pas les résultats de l’analyse. Dans le cas de séries temporelles, l’ordre des variables doit être respecté puisqu’il correspond à un ordre temporel. Enfin, travailler sur des données fonctionnelles permet de comparer des objets qui n’ont pas forcément été échantillonné aux mêmes temps.

La dernière opération consiste à résumer l’information contenue dans ce nuage de n courbes normalisées en un petit nombre de facteurs, non corrélés deux à deux, qui permettront d’expliquer les variations de forme communes à l’ensemble des pays producteurs de l’échantillon considéré. La méthode statistique choisie pour eﬀectuer cette analyse de la variabilité entre la forme des courbes repose sur une démarche exploratoire multidimensionnelle. Elle est une extension de l’Analyse en Composantes Principales qui prend en compte le fait que des données peuvent être consid- érées comme des fonctions (données fonctionnelles). Elle fait partie du vaste champ de méthodes mathématiques développées dans le cadre de l’Analyse de Données Fonctionnelles (Ramsay & Sil- verman,2005).

2.1 S’aﬀranchir de l’eﬀet d’échelle

Une manière classique de s’aﬀranchir de l’eﬀet d’échelle entre chaque courbe de production est de ramener l’écart entre la valeur minimale de production et la valeur maximale sur l’intervalle [0, 1].

Soit une courbe échantillonnée { y (t

1

) , ..., y (t

p

) } où y (t

j

) représente une valeur de production an- nuelle de pétrole d’un pays donnée avec p = 49 sur la période τ = [1960, 2008]. Soit respectivement,

y

m

= min

j=1,...,p

{ y (t

j

) } et y

M

= max

j=1,...,p

{ y (t

j

) } ,

la valeur minimale de production et sa valeur maximum. L’opération de normalisation consiste à eﬀectuer une transformation linéaire telle que la nouvelle série de données { z

1

, ..., z

p

} soit constituée des valeurs

z

j

= 1 V

m

(y

j

− y

m

) , j = 1, ...p

où V

M

= y

M

− y

m

est l’amplitude de production. Une fois les données normalisées, on va ef- fectuer une dernière opération de centrage vertical qui consiste à placer chaque série temporelle de manière symétrique autour d’un axe arbitraire commun à toutes les courbes, comme on le ferait naturellement en comparant deux objets. Un choix subjectif consiste à centrer chaque courbe sur l’axe des abcisses. Ceci revient à oter à la série temporelle sa valeur moyenne m =

¹_p

P

p

j=1

z (t

j

).

L’analyse de la forme des courbes peut maintenant être poursuivie à partir d’un échantillon de n séries temporelles normalisées (Fig. 2) de la forme

{ Z (t

1

) , ..., Z (t

p

) } = { z (t

1

) − m, ..., z (t

p

) − m } .

(3)

1970 1980 1990 2000

0200040006000800010000

time

raw data (MTep)

1970 1980 1990 2000

0.00.20.40.60.81.0

time

normalized data

1970 1980 1990 2000

-0.50.00.5

time

normalized data

Figure 2: Procédure de normalisation des séries temporelles. Partant des données brutes de pro- duction (en gris, à gauche, courbe moyenne noire), les variations sur la verticale sont ramenées sur l’intervalle [0, 1] (au milieu). Les courbes échantillonnées sont alors centrées autour de l’axe des abscisses (à droite). On peut maintenant comparer les formes.

2.2 Des données sous forme de courbes

Considérons une de ces séries temporelles normalisées { Z (t

1

) , ..., Z (t

p

) } . A partir de ces données ponctuelles, on cherche à reconstituer la courbe normalisée de la production, notée Z (t) sous la forme

Z (t) = X

q k=1

α

k

φ

_k

(t) + ε (t)

où les a

k

, k = 1, ...q, q ≤ p sont les coeﬃcients associés à la décomposition dans une base de fonctions φ

₁

, ...φ

_q

choisie d’avance. Ces coeﬃcients composent la partie déterministe de la série temporelle contrairement à ε (t) qui est considéré comme un résidu négligeable. La base choisie est ici une base de B-splines, polynômes de degré 3 par morceau, avec des contraintes de continuité sur un certain nombre de noeuds. C’est une manière raisonnable de reconstituer chaque courbe en introduisant une certaine forme de régularité (les données initiales sont lissées), comme en atteste la figure 3.

D’autres choix sont également valides (séries de Fourier, polynômes, ...). L’estimation des coef- ficients de la décomposition est eﬀectuée par régression polynomiale usuelle.

2.3 Analyse en composante principale sur les coeﬃcients

Supposons maintenant que l’on dispose d’une expression fonctionnelle pour l’ensemble des pays considérés. Cet ensemble de données formé par les coeﬃcients de la décomposition dans la base choisie, va former un échantillon de n courbes { Z

1

, ..., Z

n

} où chaque Z

i

(t) est maintenant une fonction du temps t, ce dernier prenant ses valeurs continument sur l’intervalle τ = [1960; 2008].

Les courbes Z

i

, i = 1, ..., n présentent des conditions de régularité suﬃsantes pour pouvoir être

dérivées plusieurs fois (propriétés des splines). L’analyse de la variabilité entre ces courbes est

(4)

1970 1980 1990 2000

-0.6-0.4-0.20.00.20.40.6

time

normalized values

1 111 1 11 11 1 11 11 1 1111

111 1 11 11 1111 11

1 1

11 111

1 111

2 2 22 2 22 22 2 22 2 2

2 2

2 22

2 222 2

2 2 2

2 22

2222 2

3 3 3

3 3 33 33 333

33 333 3 33

3 333333

333333 33 3 3

3 33 3

3 33

Figure 3: Exemple d’ajustement splines sur 3 séries temporelles normalisées. Le nombre de vecteurs de base conditionne la régularité des courbes et permet de donner une expression analstique à chaque courbe échantillonnée.

eﬀectuée par Analyse en Composante Principale Fonctionnelle (ACPF). Un ensemble de facteurs explicatifs, communs à toutes les courbes, non corrélés deux à deux et pouvant être rangés par ordre d’importance est obtenu par diagonalisation de l’opérateur de variance-covariance estimé entre les courbes de l’échantillon (pour plus de détails voir Ramsay & Silverman, 2005, Nerini et. al., 2007, 2009). Il s’agit en fait de résoudre le problème aux valeurs propres suivant :

Z

τ

V (s, t) ξ

_k

(s) ds = λ

k

ξ

_k

(t) , t ∈ τ , k = 1, 2, ...

où V (s, t) est la fonction de variance-covariance entre courbes, ξ

_k

est la fonction propre associée à la valeur propre λ

k

. Dans notre cas, nous utilisons l’avantage d’avoir représenté ces courbes dans une base puisqu’il suffit d’effectuer cette opération de diagonalisation sur la matrice de variance- covariance entre coefficients de la décomposition : le problème aux valeurs propres précédent, posé dans un espace de courbes, est ramené à un problème classique en dimension finie (k = 1, ..., q). Le lien fonctionnel entre variables est conservé via l’introduction d’une métrique qui dépend de la base de fonctions initialement choisie.

A la suite de cette décomposition, chaque observation (pays) peut être représentée comme une

combinaison linéaire des facteurs explicatifs précédemment déterminés. Les pays peuvent alors être

projetés dans un sous-espace de faible dimension (généralement un plan factoriel) où les relations

de distance entre objets initiaux (courbes) sont conservées au mieux. On peut également associer

une proportion d’information résumée par ces sous-espaces (pourcentage d’inertie) relativement à

l’information (au sens de la variance).contenue dans le nuage de points initial. Enfin, il est possible

d’interpréter les positions relatives des objets (pays) dans ces sous-espaces en associant à chaque

facteur (axe principal) une source de variabilité de leur forme.

(5)

2.4 Résultats

En ACPF, on va retrouver, comme en ACP classique, un positionnement des objets dans un espace factoriel de dimension donnée qu’il va falloir interpréter en fonction d’un positionnement simultané des variables entre elles (Fig. 4). Or, lorsqu’une ACP est réalisée sur des variables qui correpondent à des coefficients de base, les représentations graphiques usuelles sont difficiles à interpréter. Que dire de la corrélation/covariance entre le coefficient de la décomposition du 5eme vecteur de base à celui du 10ème? On en sait rien. On peut par contre reconstituer la courbe qui correspond à ces nouvelles variables, combinaison linéaire des coefficients initiaux : il suffit pour cela de multiplier les vecteurs propres de la décomposition précédente par les fonctions de base φ

₁

, ..., φ

_p

pour reconstituer ce que l’on appelle une fonction propre. Pour avoir une idée de ce qu’est un facteur principal associé à un axe d’inertie, une représentation classique consiste à regarder l’eﬀet de la fonction propre associée à une valeur propre donnée sur une courbe. Un choix pertinent est de considérer l’eﬀet d’une perturbation engendrée par la fonction propre ξ

_j

sur l’indicidu le plus proche de tous les individus, c’est à dire la courbe moyenne Z définie comme

Z (t) = 1 n

X

n i=1

Z

i

(t) , t ∈ τ .

Considérons par exemple, le premier facteur de l’ACPF représenté sur la figure 4 et tâchons de comprendre pourquoi les pays producteurs sont associés à un certain ordre le long de cet axe factoriel.

-3 -2 -1 0 1

-1.5-1.0-0.50.00.51.01.5

PCA for oil curves

PCA scores 1 ( 53.8 %)

PCA scores 2 ( 22.3 %)

US

CAN

MEX ARG

BRA COL

ECU

PER TRT

VEN

OCA DK

ITNOW

ROM

UK IRA

IRQ KUW

OMN QAT

ARSEAU SYR MID

ALGANG

CAM TCH

EGY GAB LIB

NIG SUD

TUN

AUS BRU

CHI IND

IDO

MAL THA

VIT

OAP

1970 1980 1990 2000

-0.4-0.20.00.20.4

PCA function 1 (Percentage of variability 53.8 )

time

Harmonic 1

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

---

Figure 4: Représentation simultanée des individus sur le premier plan factoriel et eﬀet de la première

fonction propre (courbes - et +) sur l’individu moyen (courbe pleine) lors d’un déplacement le long

de l’axe 1. Les individus présentant une forte contribution négative le long de ce premier axe (ROM,

MID, IRQ, US) présenteront essentiellement un pic de production dans les années 70. A l’opposé, es

individus projetés positivement sur cet axe (NOW, IT MAL, IND) présenteront une forme proche

de la courbe +.

(6)

Si l’on range dans l’ordre croissant les individus en considérant leur coordonnée factorielle le long de l’axe horizontal, on obtient la série rangée suivante :

ROM, US, MID, TRT, LIB, KUW, VEN, IRA, IRQ, TUN, BRU, PER, IDO, TCH, QAT, NIG, SUD, ARS, OCA, ANG, ALG, AUS, GAB, CAN, EAU, CAM, THA, ARG, BRA, COL, OMN, ECU, CHI, VIT, EGY, OAP, UK, SYR, DK, IT, MEX, IND, MAL, NOW. Plus des pays seront en opposition sur cet axe, plus leurs formes seront diﬀérentes. Pour savoir quel facteur modifie leur forme, nous représentons l’eﬀet de la fonction propre associé à cet axe de la manière suivante.

Imaginons que l’on déplace l’individu moyen (point de coordonnées (0, 0) sur la figure 4, panneau gauche, ou courbe pleine sur le panneau droit), le long du premier axe, vers sa partie négative.

La déformation engendrée par la fonction propre associée à la plus grande valeur propre peut être représentée comme une courbe (courbe "-" sur la figure 4, panneau droit)

Z

(−)

(t) = Z (t) − cξ

₁

(t) , t ∈ τ .

De la même manière, un déplacement de l’individu moyen le long de la partie positive de l’axe 1 déformerait cet individu pour obtenir la courbe (Fig. 4, courbe "+", panneau droit) suivante :

Z

₍₊₎

(t) = Z (t) + cξ

₁

(t) , t ∈ τ .

Le paramètre réel c permet de contrôler la magnitude de la déformation. Il est choisi de manière arbitraire à titre illustratif. Si l’on compare maintenant ce facteur de déformation au rang des pays sur le premier axe factoriel, on s’aperçoit que le premier facteur de l’ACPF, qui résume environ 54% de la variance de l’échantillon, oppose les vieux pays producteurs de pétrole, ayant passé leur pic dans les années 1970, aux pays "jeunes", c’est à dire à ceux dont la production pétrolière est en pleine croissance.

Examinons maintenant la seconde fonction propre dont l’eﬀet est représenté de la même manière que précédemment (Fig. 5, panneau gauche). Le deuxième axe factoriel qui résume 22.3 % de vari- ance expliquée, oppose des pays présentant un plateau de production entre 1985 et 2000 (courbe "-"), aux pays qui présentent une croissance de production avec un maximum secondaire de production dans les années 1970 (courbe "+").

Si l’on résume maintenant ce que l’on vient de présenter, tout pays peut donc être représenté comme une combinaison linéaire des facteurs que nous venons d’expliciter (et des suivants). Con- sidérons le cas des US par exemple. Dans le premier plan factoriel, ce pays est représenté comme un point situé dans le cadrant inférieur gauche de la figure 4 : ses deux coordonnées principales sont négatives. Il s’agit donc d’un pays dont la courbe de production pétrolière a passé son maximum de production dans les années 70 (premier axe) mais qui présente également un plateau de production à partir des années 80 (deuxième axe). Si l’on considère la totalité des observations, ces deux in- formations résument à elles seules 22.3 + 53.8 = 76.1% de la variabilité identifié sur l’ensemble des pays. On peut de la même manière reconstituer la production de chaque pays dans un espace de petite dimension, avec plus ou moins de succés, selon qu’un pays est bien représenté par les sources identifiées de variabilité, ce qui est le cas des US dans le premier plan factoriel.

3 Classification des courbes

Une fois l’ACPF eﬀectuée, une classification dans l’espace des k premières composantes principales

est eﬀectuée. Le fait de travailler dans l’espace des premières composantes principales au lieu

d’eﬀectuer la classification sur le nuage initial permet de rendre les résultats plus robustes. Les

(7)

1970 1980 1990 2000

-0.4-0.20.00.20.4

PCA function 2 (Percentage of variability 22.3 )

time

Harmonic 2

++++++++++++++++++++++++++++++++++++++++

++++++

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

----------------------------------------------------------------------

1970 1980 1990 2000

-0.4-0.20.00.20.4

PCA function 3 (Percentage of variability 9 )

time

Harmonic 3

+++++++++++++++++++++++++++++++++++++++++++++++

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

------------------

---------------------------------------------------- ----------

Figure 5: Seconde et troisième fonctions propres dont l’eﬀet est représenté comme une déformation de l’individu moyen. Le deuxième axe (22.3 % de variance expliquée) oppose des pays présentant un plateau de production entre 1985 et 2000 (courbe "-"), aux pays qui présentent une croissance de production avec un maximum secondaire de production dans les années 1970.

résultats seraient peu variables sous l’action d’une perturbation du nuage initial parce que l’on s’est débarrassé des composantes principales de faible variance susceptibles de n’être associées qu’à des caractéristiques propres d’individus isolés. Le résultat de la classification proposée est issu de l’utilisation conjointe de méthodes de classifications non-supervisées et supervisées et de l’utilisation d’un critère usuel (silhouette plot) pour déterminer un nombre de classes satisfaisant. Il faut noter que les résultats présentés ci-dessous ne sont qu’une possibilité parmi d’autres.

3.1 Résultats

A partir de l’arbre hiérarchique (Fig. 6), nous avons choisi de partitionner l’échantillon de courbes initial en quatres classes.

La figure 7 présente les individus pour chacune de ces classes. On remarque immédiatement

que sur les quatres classes, 3 classes présentent des courbes ayant déjà passé leur maximum de production. Seule la classe 2 regroupe des pays où l’exploitation des réserves de pétrôle a soit débuté, soit connu un rebon à partir des années 1990 (ARS, CAN, NIG, ALG, BRUN, QAT,...).

Un autre élément ramarquable concerne la classe 3 qui regroupe les pays dont le maximum de production a été atteint en moyenne en 2000. C’est la classe la plus homogène du point de vue de la variabilité de forme et c’est également celle qui contient le plus grand nombre d’individus.

Pour aller plus en avant, revenons maintenant dans l’espace des données initiales. La classifica-

tion des formes nous permet d’identifier des courbes appartenant à 4 classes distinctes, classification

eﬀectuée à partir des formes, sans se soucier de l’eﬀet taille déjà évoqué ci-dessus. La figure 8

représente les courbes initiales dans chaque classe. Il est intéressant de constater que les principaux

pays producteurs sont groupés dans les classes dont la forme indique une baisse de production (voir

(8)

US ROM MID VEN IRA KUW LIB PER IDO TUN TRT IRQ BRU CAN OCA ANG ALG ARS NIG QAT SUD TCH BRA THA DK VIT MEX IND MAL ARG OMN SYR OAP COL IT NOW ECU EAU CHI GAB AUS UK EGY CAM

02468

hierarchical clustering, 3 factors, Ward criterion

Height

Figure 6: Arbre de classification hiérarchique. 4 classes sont retenues en coupant l’arbre à la hauteur 4. Les branches qui tombent permettent d’identifier les pays appartenant à la même classe.

classe 3 notamment : CHI, MEX, EAU, NOW, UK). Dans la classe 2, si l’on enlève l’Arabie Saoudite (ARS) les volumes de pétrôle extrait sur les pays en croissance de production restent modérés.

Un dernier point intéressant concerne l’estimation, par classe, des distributions de maximum de production. Les courbes de la figure 9 présentent, pour chaque classe, une estimation à noyau de la densité des maximums de production. La classe 1 regroupe les pays ayant passé leur production maximum au cours des années 1970. La classe 2 montre que la distribution des maximums est concentrée autour de la dernière mesure (2008). La plupart des pays qui la constitue n’ont pas encore passé leur pic global de production. La classe 3 fait clairement apparaître des pays dont le maximum de production se situe autour des années 2000 et la dernière classe isole des individus ayant atteint leur production maximum en 1980. Ceci corrobore les résultats obtenues sur la figure 7.

4 Références

Ramsay, J. O. & B. W. Silverman (2005), Functional Data Analysis, Springer, New York.

Nerini, D. & B. Ghattas (2007), Classifying densities with regression trees : an application in oceanography, Comp. Stat. & Data. Anal., 101

Nerini D., Monestiez, P. & C. Manté (2010) Cokriging for Functional Data, J. Mult. Anal.

(9)

1970 1980 1990 2000

-0.4-0.20.00.20.40.6

Class 1

time

oil

1970 1980 1990 2000

-0.50.00.5

Class 2

time

oil

1970 1980 1990 2000

-0.6-0.4-0.20.00.20.40.6

Class 3

time

oil

1970 1980 1990 2000

-0.8-0.6-0.4-0.20.00.20.40.6

Class 4

time

oil

Figure 7: Représentation des individus dans chacune des classes. Les courbes noires représentent

l’individu type de chaque classe (moyenne des courbes). Du point de vue de leur forme, 3 des 4

classes ont passé leur pic de production.

(10)

1970 1980 1990 2000 2010

0200040006000800010000

Class 1

time (y)

oil production (Mtep)

US

VEN

ROM IRA

KUW

MID LIB

1970 1980 1990 2000 2010

0200040006000800010000

Class 2

time (y)

CAN

BRA

OCADK QAT

ARS

ALGANG

T CH NIG

SUDVITT HA

1970 1980 1990 2000 2010

0100020003000

Class 3

time (y)

MEX

COLARG ECU

IT NOW

UK

OMN

SYR EAU

CAM EGY

GAB AUS CHI

IND MAL

OAP

1970 1980 1990 2000 2010

0500100015002000250030003500

Class 4

time (y)

PERT RT IRQ

T UN BRU

IDO

Figure 8: Représentation des individus de chaque classe en utilisant les données brutes (courbes

noires = représentant de chaque classe). Les principaux pays producteurs de pétrôle sont groupés

dans la classe 3.

(11)

1950 1960 1970 1980 1990 2000 2010 2020

0.000.050.100.150.20

max production distribution, Class 1

N = 7 Bandwidth = 1.215

Density

1950 1960 1970 1980 1990 2000 2010 2020

0.000.050.100.150.200.25

Density

1950 1960 1970 1980 1990 2000 2010 2020

0.000.020.040.06

Density

1950 1960 1970 1980 1990 2000 2010 2020

0.000.050.100.15

Density