• Aucun résultat trouvé

Chapitre 3. Modélisation de la probabilité de neige à l’aide de la

3.3. Modélisation pour la zone 2

3.3.2. Variables explicatives à considérer

À cause de la nature des données, il est important de mentionner que l’hy- pothèse de non-corrélation/indépendance des observations n’est pas respectée. En effet, la présence/absence de neige dépend de la réalité neige/non-neige des journées précédentes. Une solution à cette dépendance dans les données aurait pû être de considérer les séries chronologiques. Toutefois, nous avons plutôt décidé de considérer les observations comme étant indépendantes et nous avons opté pour un modèle de régression linéaire multiple où les réalités neige/non-neige des jour- nées précédentes sont incluses comme variables explicatives pour un délai allant de 1 à 7 jours.

Le modèle de régression linéaire multiple (voir équation (2.2.1)) est donc com- posé de la variable y (de longueur 365) qui représente la valeur du logit de la probabilité de neige journalière et de la matrice X (de dimension 365 par 9) qui contient un vecteur de 1, des vecteurs avec de l’information sur les probabilités de neige des sept derniers jours (lpt−1 à lpt−7) et un vecteur correspondant à la

température pour chaque journée :

E[yt] = β0+ β1lpt−1+ β2lpt−2+ β3lpt−3+ β4lpt−4+ β5lpt−5

En supposant que la sélection de variables ne retient que trois variables expli- catives, le but est d’obtenir un modèle qui s’exprime de la façon suivante pour la journée t :

E[yt] = β0+ βAlpA,t+ βBlpB,t+ βTTempt, (3.3.1)

où l’on suppose que lpAet lpBsont les délais conservés par la sélection de variables

et que Temp est la variable représentant la température. Un délai allant jusqu’à sept jours est utilisé, mais il n’a pas été dépassé, car les experts de l’Institut de recherche d’Hydro-Québec n’ont pas jugé pertinent d’utiliser des journées trop éloignées de la journée actuelle.

Pour ce qui est du choix de la variable donnant les informations sur la tem- pérature journalière, les variables Tmin, Tmoy et Tmax sont disponibles quo- tidiennement à l’intérieur de chacun des points de grille (voir section 1.3.3.1). Toutefois, l’algorithme proposé à la section 3.1 ne calcule que les probabilités de neige de façon journalière et non au point de grille, c’est-à-dire qu’il ne fourni que la probabilité qu’il y ait de la neige pour la journée t pour la zone étudiée et non une probabilité individuelle pour chaque point de grille. Une statistique permettant de résumer l’information de tous ces points à une valeur unique pour la journée doit donc être utilisée. Pour ce faire, le minimum, la moyenne et le maximum des variables Tmin, Tmoy et Tmax ont été considérés (pour un total de neuf variables différentes).

Puisque ces variables donnent toutes de l’information semblable et qu’elles sont très corrélées (voir figure 3.3), elles ne peuvent donc pas être toutes utilisées dans le modèle de régression. En effet, si l’ensemble des neuf variables de tem- pérature est utilisé, un problème de multicolinéarité serait inévitable. Dans ces conditions, une seule variable de température doit être conservée. Ce choix est effectué en calculant la corrélation entre chacune des variables de température à l’intérieur de la zone 2 et les probabilités de neige de cette même zone, permet- tant ainsi de voir quelle est la variable la plus informative. Voulant éventuellement que la régression soit appliquée pour l’ensemble du Québec, les probabilités de neige pour les zones 1, 3 et 4 ainsi que les corrélations avec leurs variables de température respectives ont été calculées. Le calcul du coefficient de corrélation linéaire est approprié, car chaque variable de température a bel et bien un lien linéaire avec la variable lpt de sa zone respective, sauf la zone 1 où la relation est

linéaire par partie (voir figures D.1 à D.4). Pour cette zone, si une partie de la relation entre les variables est négative, nous la désignons comme étant la partie descendante (&). Si une partie de la relation est positive, alors elle est nommée la partie ascendante (%).

50

Figure 3.3. Graphique des nuages de points et coefficient de cor- rélation linéaire entre chacune des variables de température, 2011, Québec.

L’examen du tableau 3.2 permet de constater que la variable Tminmin affiche presque systématiquement la corrélation la plus élevée avec lpt, peu importe la

zone, sauf pour la partie ascendante de la zone 1. Cette variable est donc conservée comme information sur la température pour la suite du chapitre.

Tout comme les données de températures Tmin, Tmoy et Tmax, les valeurs des variables DJx et DCx sont disponibles de façon journalière à l’intérieur de chaque point de grille. Il faut donc encore une fois que l’information de tous les points de grille soit résumée afin d’avoir une seule valeur de degré-jour et de degré- chauffe par jour. Pour ce faire, le maximum est utilisé pour DJx et le minimum est utilisé pour DCx.

Afin de choisir le nombre de jours x sur lesquels DJx et DCx doivent être calculés, quelques valeurs de x parmi x = 1, 2, 3, 4, 5, 6, 7 sont confrontées. Pour ce faire, il faut vérifier à l’aide de nuages de points et de coefficients de corrélation

Table 3.2. Corrélation entre les variables de température de chaque zone et lpt pour ces mêmes zones.

Variables Description Zone 1& Zone 1% Zone 2 Zone 3 Zone 4 Tminmin Minimum des pointsde grille pour Tmin -0,7601 0,6121 -0,8347 -0,8976 -0,8707 Tminmoy Moyenne des pointsde grille pour Tmin -0,7200 0,6647 -0,8139 -0,8825 -0,8622 Tminmax Maximum des pointsde grille pour Tmin -0,6596 0,7001 -0,7969 -0,8326 -0,8201 Tmoymin Minimum des pointsde grille pour Tmoy -0,7336 0,6394 -0,8000 -0,8803 -0,8646 Tmoymoy Moyenne des pointsde grille pour Tmoy -0,7484 0,5453 -0,7866 -0,8607 -0,8577 Tmoymax Maximum des pointsde grille pour Tmoy -0,7395 0,4692 -0,7765 -0,8276 -0,8020 Tmaxmin Minimum des pointsde grille pour Tmax -0,6879 0,4083 -0,7490 -0,8417 -0,8395 Tmaxmoy Moyenne des pointsde grille pour Tmax -0,6896 0,5210 -0,7435 -0,8239 -0,8439 Tmaxmax Maximum des pointsde grille pour Tmax -0,6829 0,4539 -0,7374 -0,7977 -0,7758 linéaire s’il y a au moins une de ces valeurs pour laquelle les variables DJx et DCx respectives semblent pertinentes pour expliquer la variable réponse (voir figures D.5 à D.8). Malgré que les coefficients de corrélation soient tous assez élevés, les relations ne sont pas tout à fait linéaires, mais plutôt linéaires par parties (relation linéaire soit positive ou négative suivie d’une relation nulle/effet de plateau). Cet effet de plateau illustre une absence de relation entre les variables, ce qui justifie que les variables DJx et DCx ne soient pas conservées.

52

3.3.3. Sélection de variables explicatives pour expliquer la variable