• Aucun résultat trouvé

Prédiction de la variabilité spatiale de la disponibilité en biomasse résiduelle à l'aide de l'apprentissage automatique

N/A
N/A
Protected

Academic year: 2021

Partager "Prédiction de la variabilité spatiale de la disponibilité en biomasse résiduelle à l'aide de l'apprentissage automatique"

Copied!
52
0
0

Texte intégral

(1)

Prédiction de la variabilité spatiale de la disponibilité en

biomasse résiduelle à l’aide de l’apprentissage

automatique

Mémoire

Rhita Ouliz

Maîtrise sur mesure en sciences forestières et informatique

Maîtrise ès sciences (M. Sc.)

Québec, Canada

(2)

Prédiction de la variabilité spatiale de la disponibilité en

biomasse résiduelle à l’aide de l’apprentissage

automatique

Mémoire

Rhita Ouliz

Sous la direction de :

(3)

iii Résumé

La biomasse forestière résiduelle correspond à la biomasse ligneuse laissée sur le parterre de la forêt après une coupe. Cette biomasse peut servir comme source d’énergie renouvelable, à un prix pouvant être, dans certaines conditions, compétitif relativement à d’autres sources d’énergie. Le succès de l’utilisation de ce type de biomasse tient en partie à une gestion efficace de son réseau d’approvisionnement. Ainsi, la gestion du risque de rupture d’approvisionnement de la biomasse forestière résiduelle est essentielle pour garantir le potentiel d’expansion d’un réseau de distribution aux clients.

Le présent mémoire vise à améliorer la rentabilité d’approvisionnement de la biomasse forestière résiduelle par le biais d’une gestion efficace des sources d’erreur relatives à l’estimation de la disponibilité en biomasse. Il s’agit d’estimer la variabilité spatiale de la biomasse résiduelle avec une précision acceptable en optant pour les techniques de l’apprentissage automatique (en anglais, machine learning). L’apprentissage automatique est une tentative pour reproduire la notion d’apprentissage. Il s’agit de concevoir des algorithmes capables d’apprendre à partir des exemples ou des échantillons, afin de prédire les valeurs des cibles.

Dans notre cas d’étude, la méthode KNN nous permettra d’estimer la quantité de la biomasse résiduelle des unités de surface cibles (polygones1) à partir des k placettes2-échantillons voisines.

Pour ce faire, nous estimerons, dans un premier temps, la variabilité spatiale de la disponibilité en biomasse résiduelle en utilisant la méthode d’apprentissage automatique k-plus proches voisins (en anglais, k-nearest neighbors : KNN). Nous déterminerons ensuite l’erreur de notre estimation en utilisant la méthode bootstrap. Finalement, nous développerons une spatialisation de la quantité de biomasse forestière résiduelle en tenant compte de l’erreur d’estimation.

Les résultats d’estimation obtenus, dans le cadre de cette recherche, indiquent une précision allant de 59,5 % à 71 % et centrée autour de 65,4 %. Notre méthodologie a permis ainsi d’obtenir des résultats pertinents comparativement à l’étude de Bernier et al. (2010) qui ont estimés le volume de biomasse forestière avec la méthode KNN et ont eu comme résultat une précision d’estimation égale à 19 %. L’utilisation de cette méthode pourra aussi être pertinente pour l’estimation de la biomasse forestière marchande et pour la prédiction de la biomasse forestière totale par essence d’arbres.

1 Voir la définition d’un polygone à l’annexe 1 2 Voir la définition d’une placette à l’annexe 1

(4)

iv Abstract

Residual forest biomass is the woody biomass left over on the forest floor after harvesting. This biomass can be used as a source of renewable energy, at a price that may be, under certain conditions, competitive relative to other energy sources. The success of the use of residual forest biomass depends in part on an effective management of its supply chain. Thus, the risk management of supply disruption of residual forest biomass is essential to ensure the potential for expansion of a customer’s distribution network.

This project aims to improve the supply chain profitability of residual forest biomass through effective management of sources of error related to the estimation of the availability of biomass.

This is the estimation of the spatial variability of residual biomass with acceptable accuracy by using machine learning techniques. Machine learning is an attempt to replicate the concept of learning. It consists to design algorithms capable to learn from examples or samples in order to predict the values of targets

In our case study, the KNN method will allow us to estimate residual biomass of the target area units (polygons) from the k nearest neighbour plots. To this effect, we will estimate initially the spatial variability in the availability of residual biomass using the machine learning method KNN (k nearest neighbours). We then determine the error of our estimation using a bootstrap method. Finally, we will develop the location of the residual forest biomass quantity taking into account the estimation error.

The estimation results obtained in the framework of this research indicate an accuracy of 59,5 % to 71 % centred around 65,4 % with an estimation error of 29 % to 34,5 %. Our methodology has yielded relevant results compared with the study of Bernier et al. (2010) which has had accuracy of estimation equal to 19% of forest biomass volume using the KNN method. The use of this method may also be relevant for estimating the commercial forest biomass and for the prediction of forest biomass of each tree species.

(5)

v Table des matières

Résumé ... iii

Abstract ... iv

Liste des figures ... vii

Liste des tableaux ... viii

Remerciements ... ix

1. INTRODUCTION ... 1

1.1. Contexte ... 1

1.2. Revue de littérature ... 3

1.2.1. Méthodes d’estimation de la quantité de la biomasse forestière ... 4

1.2.2. La méthode d’apprentissage automatique KNN ... 5

1.3. Problématique ... 6

1.4. Objectifs de la recherche ... 7

2. MÉTHODOLOGIE ... 8

2.1. Aire d’étude ... 8

2.2. Description des données forestières ... 10

2.3. Estimation de la biomasse résiduelle ... 12

2.3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes ... 13

2.3.1.1. Calcul de la quantité de biomasse résiduelle d’un arbre ... 14

a. Estimation de la biomasse forestière résiduelle des arbres commerciaux ... 14

b. Estimation de la biomasse totale des arbres non commerciaux ... 15

2.3.1.2. Calcul de quantité de biomasse résiduelle par placette... 15

2.3.2. Prédiction de la biomasse forestière résiduelle au niveau des polygones avec la méthode d’apprentissage automatique KNN ... 16

2.3.2.1. Utilisation de la méthode des k plus proches voisins KNN ... 16

2.3.2.2. Estimation de la biomasse forestière résiduelle avec KNN ... 17

a. Détermination des paramètres les plus corrélés avec la biomasse forestière totale ... 17

b. La métrique de distance adéquate : Distance de Gower ... 18

c. L’estimation de la biomasse forestière résiduelle des polygones à partir des k placettes voisines ... 18

d. Détermination de la valeur de k ... 19

2.3.3. Estimation de la précision du calcul de la biomasse résiduelle avec Bootstrap .... 19

2.4. Lien entre la précision et la stratification ... 21

(6)

vi

3. RÉSULTATS ... 22

3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes ... 22

3.1.1. Estimation de biomasse de la partie non marchande de la tige ... 22

3.1.2. Estimation de la biomasse de la couronne des arbres commerciaux ... 23

3.1.3. Estimation de la biomasse des arbres non commerciaux ... 23

3.1.4. La biomasse résiduelle demandée ... 24

3.2. Estimation de la biomasse forestière résiduelle au niveau des polygones avec la méthode KNN ... 24

3.2.1. Les paramètres les plus corrélés avec la biomasse ... 24

3.2.2. La détermination de la valeur de k (nombre des voisins les plus proches) ... 25

3.2.3. La biomasse résiduelle prédite avec KNN... 27

3.3. Validation de la méthode d’estimation avec la méthode bootstrap ... 28

3.3.1. Estimation de la précision de la biomasse forestière avec bootstrap... 28

3.3.2. Calcul du coefficient de variation... 29

3.4. Spatialisation de la biomasse forestière résiduelle ... 30

4. DISCUSSION ... 34

5. CONCLUSION ... 35

Annexe 1 : Terminologie ... 36

Annexe 2 : La relation entre la biomasse forestière et le DHP ... 37

Annexe 3 : Les paramètres cartographiques et climatiques... 40

(7)

vii Liste des figures

Figure 1 : Territoire d’étude (L’unité d’aménagement forestier 035-51) – en noir ... 8

Figure 2 : Schéma explicatif de la méthodologie d'estimation de la biomasse résiduelle ... 12

Figure 3 : Les composantes de la biomasse forestière, le volume marchand et le tronc à 9 cm au fin bout de la tige ... 13

Figure 4 : La masse marchande en fonction de la masse totale de la tige au niveau des placettes ... 23

Figure 5 : La biomasse totale en fonction de la biomasse résiduelle ... 24

Figure 6 : Résultats de la prédiction de la biomasse totale pour k dans {1, 4, 8, 20} ... 26

Figure 7 : Variation du taux d’erreur quadratique moyenne, du taux de biais et de la précision R²% par rapport à la valeur de k ... 27

Figure 8 : La biomasse résiduelle observée en fonction de la biomasse résiduelle prédite ... 27

Figure 9 : La variation du biais, l'erreur quadratique moyenne, et la précision ... 28

Figure 10 : Histogramme de coefficient de variation à l’échelle des polygones et des parcelles ... 30

Figure 11 : La carte représentant la variabilité spatiale de la densité de biomasse forestière résiduelle moyenne disponible entre 2008 et 2018 au niveau des polygones ... 32

Figure 12 : La carte représentant la variabilité spatiale du coefficient de variation entre 2008 et 2018 au niveau des polygones ... 33

Figure 13 : Schéma illustratif de la stratification d’un territoire forestier fictif ... 36

Figure 14 : La biomasse totale de la tige des essences d’arbres commerciaux et la biomasse marchande en fonction du DHP pour deux essences dominantes de notre étude : l’épinette noire (EPN) et le sapin baumier (SAB) ... 37

Figure 15 : La masse totale de la tige des essences d’arbres commerciaux et la biomasse marchande en fonction du DHP ... 38

Figure 16 : La relation entre la biomasse de la couronne des essences commerciales et le DHP... 38

(8)

viii

Liste des tableaux

Tableau 1 : Les intervalles de variation des paramètres climatiques ... 9

Tableau 2 : Les essences d’arbres dominantes de notre base de données ... 11

Tableau 3 : Les essences d’arbres non commerciaux retenues pour notre étude ... 23

Tableau 4 : Les paramètres les plus corrélés avec la biomasse forestière ... 25

Tableau 5 : Les extremums, la moyenne et la médiane du biais, l’erreur et la précision de nos prédictions . 29 Tableau 6 : Les paramètres cartographiques et climatiques ... 40

(9)

ix Remerciements

Comme pour la majorité des travaux académiques, ce mémoire fut l’objet de recherches étendues et d’un travail de longue haleine. Sa réalisation, dans des conditions parfois difficiles, du fait d’une période de maladie, fut achevée grâce à l’appui de ma famille principalement, de mes amis et de l’équipe de l’Université Laval, que je remercie chaleureusement. J’ai eu la chance de travailler avec des chercheurs et des étudiants qui ont enrichi mon expérience formatrice à l’Université Laval. J'adresse mes remerciements aux personnes qui m'ont aidée dans la réalisation de ce mémoire. En premier lieu, ma gratitude va à mon directeur de recherche, M. Frédéric Raulier, qui a su me guider habilement tout au long de mes travaux, mais son sens aigu de la pédagogie m’aura aussi permis d’évoluer grandement.

Je tiens à remercier en plus mes codirecteurs de recherche M. Luc Lebel et M. Jonathan Gaudreault, qui m’ont honorée de leur confiance en mes habiletés. J’ai particulièrement été impressionnée par leur enthousiasme pour ce sujet, leurs qualités scientifiques et humaines. De plus, leur patience, leur écoute attentive et leurs nombreuses lectures et corrections de mes textes m’ont permis d’apprendre beaucoup et de m’améliorer en rédaction. Puissent ces lignes être l’expression de ma plus profonde reconnaissance.

Merci à vous tous.

Je voudrais encore remercier le professionnel de recherche, M. Hakim Ouzennou, pour son aide plus que précieuse dans l’élaboration de cet ouvrage de recherche.

J'adresse mes remerciements à mes collègues ainsi que toute l’équipe de recherche du laboratoire FORAC et ceux du CEF pour leur soutien et encouragement, je remercie mes collègues du laboratoire GRAAL pour leur partage de connaissances et leur aide.

Je remercie encore les membres de la Fédération québécoise des coopératives forestières, principalement M. Simon St-Onge.

Je remercie aussi M. Daniel Lesieur, le professionnel de recherche du CEF, qui m'a aidée en me fournissant des données précises sur mon aire d’étude.

(10)

1 1. INTRODUCTION

1.1. Contexte

Le développement et l’implémentation des énergies renouvelables sont le centre d’intérêt de différents pays. L’Agence internationale de l’énergie prédit que la filière d’énergie renouvelable garantira 30 % de l’énergie utilisée sur la planète d’ici 2050. Selon le même organisme, c’est cette filière d’énergie renouvelable qui progressera le plus à l’horizon 2030 (Hydro-Québec, 2014). Le Canada se veut actif dans le développement des énergies renouvelables. Ce pays dispose des ressources abondantes qui permettent d’assurer la production de l’énergie renouvelable, comme l’eau en mouvement, les énergies éoliennes et la biomasse (Liming et al. 2008). Selon Ressources naturelles Canada (2016), ces sources d'énergie représentent 18,9 % de l'approvisionnement en énergie primaire totale du pays. En 2014, le Canada disposait de 70 centrales fonctionnant à la bioénergie et d’une capacité de production d'électricité totale de 2 043 mégawatts. La majorité de ces centrales utilisaient la biomasse de bois produite par les usines de pâtes et papiers, de liqueur résiduaire et de gaz d'enfouissement (Ressources naturelles Canada, 2016). De plus, 4,4 % de l’énergie primaire consommée provient, directement ou indirectement, de la biomasse forestière. Bref, la biomasse représente la deuxième source d’énergie renouvelable, après l’énergie hydraulique (Hydro-Québec, 2014).

Lors de la Conférence des ministres de l’Énergie et des Mines, organisée en août 2014, toutes les provinces canadiennes se sont prononcées en faveur de la mise en place de politiques et de mesures incitatives visant à développer et adopter les technologies permettant la production d’énergie renouvelable (Ressources naturelles Canada, 2014). À ce titre, le gouvernement du Québec a lancé, le 7 avril 2016, sa politique énergétique, une politique dont la vision est : « Faisons du Québec, à l’horizon 2030, un chef de file nord-américain dans les domaines de l’énergie renouvelable et de l’efficacité énergétique, et bâtissons ainsi une économie nouvelle, forte et à faible empreinte carbone » (Gouvernement du Québec, 2016).

Étant donné l’importante disponibilité des ressources et la maturité du procédé d’implémentation des énergies renouvelables adopté au Québec, la biomasse forestière est la catégorie de matière organique la plus souvent valorisée (Hydro-Québec, 2014). En effet, « dans une centrale de cogénération (électricité et vapeur) à la biomasse forestière, de 30 à 35 % de l’énergie de la

(11)

2

biomasse solide (cycle vapeur) peut être convertie en électricité. En utilisant à diverses fins la chaleur produite, le rendement total peut dépasser 80 % » (Hydro-Québec, 2014).

Les études sur les ressources de l’énergie alternatives favorisent le développement et l’implémentation des énergies renouvelables, et ce, à l’échelle mondiale (Fernández et al., 2016; Field et al., 2008). Plus particulièrement, la bioénergie représente des avantages environnementaux intéressants, tels que le fait d’atténuer les causes des changements climatiques et de briser la dépendance courante aux combustibles fossiles (Weldu et al. 2016 ; Field et al. 2008). Cette forme d’énergie peut être produite à partir de ressources renouvelables comme la biomasse forestière. À noter que la biomasse forestière est la matière produite par la croissance des plantes ligneuses (Demirbas, 2001), alors que la biomasse forestière résiduelle est la biomasse résultant des activités de récolte. Cette dernière se compose de rémanents, branches, cimes, parties d’arbres non commerciaux, rameaux et feuillage (Vision Biomasse Québec, 2015). La biomasse forestière résiduelle peut remplacer les combustibles fossiles, notamment dans la production de la bioénergie et des bioproduits (Cambero et al., 2014). La production de la bioénergie avec la biomasse forestière résiduelle est moins nocive pour l’environnement que les combustibles fossiles, étant donné que le gaz carbonique dégagé lors la décomposition ou la combustion du bois est compensé par celui absorbé par les arbres pendant leur croissance (Centre de recherche industrielle du Québec, 2006). La rentabilité de la récolte de biomasse forestière résiduelle reste toutefois marginale, à cause de la complexité des systèmes et outils de récupération des résidus forestiers utilisés lors de la récolte (Centre de recherche industrielle du Québec, 2006). Le succès de l’utilisation de cette biomasse dépend d’une gestion efficace de son réseau d’approvisionnement (Hydro-Québec, 2014).

Un réseau d’approvisionnement de biomasse comprend l’ensemble des phases par lesquelles passe la biomasse avant d’arriver au client, à savoir la récolte, le ramassage, le séchage, la transformation, l’entreposage, le conditionnement et la livraison. Le but du réseau est de réduire les stocks, de diminuer les coûts, de faire progresser la commercialisation du produit et d’améliorer la souplesse de production (Conseil canadien sectoriel de la chaîne d'approvisionnement, 2016 ; Bureau du forestier en chef, 2013). La gestion efficace du réseau d’approvisionnement de biomasse demande une planification forestière qui se base sur les données de la disponibilité de la biomasse, ce qui permet d’éviter toute rupture éventuelle d’approvisionnement. Ce risque de rupture pourrait être dû, entre autres, aux erreursd’estimation de la disponibilité des bois ou à une mauvaise performance des activités d’aménagement forestier, ce qui nuit considérablement au réseau d’approvisionnement

(12)

3

des usines (Bureau du forestier en chef, 2013). Il est ainsi important de bien gérer le risque de rupture d’approvisionnement relativement aux sources d’erreur de l’estimation de la quantité de biomasse. La garantie d’approvisionnement nécessite l’estimation de la quantité de biomasse disponible qui pourrait être récoltée annuellement de façon durable pour approvisionner une usine de transformation. Étant donné que le fonctionnement de l’écosystème forestier est complexe et que toute prédiction représente un sujet d’incertitude, l’efficacité du réseau d’approvisionnement de la biomasse forestière résiduelle est en lien avec le niveau de précision de l’estimation de la disponibilité de cette biomasse résiduelle (Bureau du forestier en chef, 2013).

L’erreur d’estimation de la biomasse provient non seulement de la méthode d’estimation de la biomasse, mais aussi des méthodes d’échantillonnage, de la stratification du territoire, des erreurs de mesure, des données aberrantes des échantillons et de la perte d’informations lors de la construction du modèle de calcul (Bernier, 2010).

De nombreux projets de prédiction des quantités de biomasse forestière disponibles utilisent les méthodes d’estimation statistique classique, qui reposent sur le fait de créer un modèle mathématique à partir d’une base de données. Ces méthodes ne sont efficaces que pour des d’échantillons limités, étant donné que la conception d’un modèle mathématique prend en compte la taille et la dimension des échantillons (Fassnacht et al. 2014). Pour leur part, les méthodes d’apprentissage automatique se basent sur des tailles d’échantillons importantes. De plus, elles nécessitent moins d’hypothèses que les méthodes de statistiques classiques et sont adaptées aux cas où les paramètres explicatifs sont nombreux (Besse, 2005).

Sur le plan de la pratique, l’estimation de la biomasse forestière dépend de la stratification du territoire, qui à son tour dépend des paramètres de peuplement des cartes écoforestières et des placettes d’inventaire forestier. Cette estimation est utilisée pour la planification des stratégies d’aménagement forestier sur le territoire public ainsi que pour organiser les opérations forestières. 1.2. Revue de littérature

Nombreuses sont les études qui traitent le sujet de prédiction de la biomasse forestière et une grande majorité de ces études mesurent la quantité de biomasse forestière avec des méthodes statistiques. Les méthodes d’apprentissage automatique sont aussi utilisées dans ce domaine, mais pas autant que les modèles statistiques. La comparaison de ces études s’avère difficilement possible vu la

(13)

4

diversité non seulement des méthodes, mais aussi des sources de données, des aires d’étude et des normes de modélisation (Fassnacht, 2014).

1.2.1. Méthodes d’estimation de la quantité de la biomasse forestière

L’étude comparative des méthodes d’estimation de la quantité de la biomasse forestière de Fassnacht (2014) a identifié les cinq méthodes de prédiction les plus couramment utilisées en foresterie ; elle a comparé la performance de ces méthodes en estimation de biomasse en faisant varier les sources de données (les capteurs de télédétection), ainsi que la taille des données de référence. Selon Fassnacht (2014), les méthodes les plus fréquemment utilisées sont premièrement les modèles linéaires (LM3), deuxièmement les méthodes basées sur le principe des plus proches

voisins (KNN4), en troisième place on retrouve une méthode d’apprentissage automatique nommée

machines à vecteurs de support (SVM5), en quatrième position il y a les méthodes d’estimation de

la forêt aléatoire (RF6) et enfin, les méthodes basées sur le processus gaussien (GP7). La

performance de ces modèles est évaluée par R² (corrélation entre les observations et les prévisions), et la racine carrée de l’erreur quadratique moyenne (REQM).

Pour comparer la performance des cinq méthodes d’estimation de biomasse forestière citées dans le paragraphe précédent, Fassnacht (2014) a utilisé trois sources de données différentes de télédétection. Les quatre méthodes SVM, KNN, GP et LM ont un R² entre 0,2 et 0,45. En comparaison, la méthode RF a un R² centré autour de 0,55 avec une distribution très variable qui va de 0,2 à 0,7. Dans cette étude, la REQM est de 45 à 66 t/ha, ce qui est l’équivalent de 27 % à 53 %. Dans une autre étude comparative, de ces mêmes méthodes d’estimation de la biomasse forestière, Latifi (2015) a utilisé 297 placettes de l’inventaire écoforestier de 2006. La précision de ses estimations R² varie en général entre 0,17 et 0,4 et la racine carrée de l’erreur quadratique moyenne RMSE est situé dans l’intervalle allant de 44 t/ha à 77 t/ha comme meilleures performances. Une tendance d'amélioration de performance du modèle a été constatée avec l'augmentation du nombre d'échantillons d'entrée. En outre, la méthode d’estimation de la forêt aléatoire RF a démontré des performances plus élevées, comparativement aux autres méthodes d’estimation. En général, des

3 LM: Linear Models 4 KNN: K-Nearest Neighbor 5 SVM: Support Vector Machines 6 RF: Random Forest

(14)

5

améliorations ont été observées pour les valeurs médianes des paramètres statistiques de chaque méthode de prédiction individuelle dans toutes les tailles d'échantillons appliquées.

Latifi (2015) a comparé les résultats des cinq méthodes d’estimation citées ci-dessus en utilisant divers types de données, il a conclu que la complexité du modèle ou de la méthode ne garantit pas sa performance ; la précision de toutes ses estimations n’a pas dépassé 45 %. Par comparaison, l’étude de Fassnacht (2014), effectuée dans le but d’étudier la performance des méthodes selon le type de données, a rapporté une précision qui atteint 48 %. Pour chacune de ces deux études, nous pouvons comparer le KNN par rapport aux autres méthodes d’estimation, par contre il n’est pas évident de comparer les résultats des recherches de Latifi (2015) et Fassnacht (2014) par rapport à notre étude, étant donné que les sources de données ne sont pas identiques.

Récemment, la méthode KNN est devenue de plus en plus utilisée dans l’estimation de différentes variables en sciences forestières. À titre d’exemple, McRoberts (2012) a estimé des paramètres forestiers pour les petites zones en utilisant des techniques des k plus proches voisins. Particulièrement, dans l’estimation de la biomasse forestière, Bernier (2010) a utilisé la méthode KNN pour prédire le volume marchand, il a obtenu des résultats dont le facteur de précision R² se situe de 16 % à 19 % avec une erreur de 50 à 79 m³/ha (c’est-à-dire un ratio d’erreur quadratique moyenne de 39 % à 43 %). Fehrmann (2008) a aussi utilisé KNN pour estimer la biomasse d’un arbre individuel, ses estimations sont avec une précision de 16,4 % pour l’épinette et 14,5% pour le pin.

Dans le cadre de cette étude, nous avons priorisé une méthodologie d’estimation de la biomasse forestière résiduelle basée sur la méthode d’apprentissage automatique KNN. Sachant qu’un taux de 19 % est la précision d’estimation obtenue par Bernier et al. (2010) lors de leur estimation du volume de biomasse forestière à l’échelle des polygones d’un territoire de 4 126 km² en utilisant KNN, nous pensons qu’une méthodologie peut être développée afin d’estimer la quantité de biomasse résiduelle avec une précision plus importante.

1.2.2. La méthode d’apprentissage automatique KNN

L’apprentissage automatique vise à reproduire la notion d’apprentissage en développant des algorithmes capables d’apprendre à partir des exemples ou des échantillons afin de prédire les valeurs des cibles (Gammerman, 2010). La méthode d’apprentissage automatique utilisée, dans le cadre de notre étude, est celle dite des k-plus proches voisins, connue sous le sigle KNN (k-nearest

(15)

6

neighbors, en anglais). C’est une méthode d’imputation supervisée dont l'algorithme consiste à prédire une cible numérique en se basant sur sa similarité par rapport aux cas disponibles. Cette similarité est mesurée par une des fonctions de distance (Mitchell, 1997).

Il y a deux types de problèmes de prédiction, les problèmes de classification et les problèmes de régression. Dans un problème de classification, les classes sont formées selon les densités de la distribution des données d’entrée (les références), et la prédiction de la classe d’une cible consiste à trouver la classe majoritaire des k plus proches voisins (Denoeux, 1995). Cependant, quand il s’agit d’une régression, la prédiction de la valeur numérique de la cible consiste à calculer soit la moyenne ou la moyenne pondérée des valeurs des K plus proches voisins. Ainsi, la méthode KNN régression et la classification avec KNN utilisent les mêmes fonctions de distance, telle que la distance euclidienne (Mitchell, 1997).

En effet, il est possible d’utiliser la méthode KNN régression pour estimer la quantité de biomasse résiduelle d’une unité de surface cible (le polygone) à partir de la moyenne pondérée des quantités de biomasse résiduelle des unités de surface de référence les plus similaires (les placettes, étant donné qu’une placette représente le polygone de référence). La similarité est mesurée avec la distance entre les surfaces cibles et les surfaces de référence. Cette distance prend en considération les paramètres forestiers connus des polygones et des placettes d’inventaire (Bernier, 2010). La méthode de K plus proches voisins, KNN, peut être utilisé pour tous les types de végétation, que ce soit pour des estimations restreintes basées sur un nombre limité d'observations sur le terrain à l’échelle locale, ou pour de grandes applications à l’échelle nationale (Chirici, 2016). La pertinence de cette méthode, selon le même auteur, dépend de la phase d'optimisation, dont le but est de sélectionner l'ensemble des paramètres explicatifs, de déterminer la valeur de k et de choisir la distance multidimensionnelle adéquate aux données (Chirici, 2016).

1.3. Problématique

Notre aire d’étude est située dans une région où l’industrie forestière est active étant donné sa richesse en biomasse forestière, évaluée à 94 millions de mètres cubes de volume marchand, et à cause du nombre important des usines de première, deuxième et troisième transformation de bois et de son usine de production de granules bioénergétiques à partir des résidus organiques (Ministère de l’Énergie et des Ressources naturelles, 2015). Or, la plus grande partie de l’approvisionnement de bois de ses usines provenait de l’extérieur du Québec. Ainsi, on conclut que l’offre ne satisfait

(16)

7

pas la demande en bois, bien que les ressources forestières soient abondante dans cette région. Ce déséquilibre est dû aux problèmes au niveau de la récolte de bois. Les coopératives de récolte de bois de cette région ont constaté que pour trouver la biomasse, plus précisément la biomasse résiduelle, une quantification précise et une localisation de la biomasse résiduelle sont les clés de l’amélioration de la rentabilité de leurs activités d’aménagement forestier. D’où vient le besoin de déterminer non seulement la quantité de biomasse forestière résiduelle avec une précision acceptable, mais aussi la localisation de cette biomasse.

1.4. Objectifs de la recherche

La présente étude vise à déterminer la variabilité spatiale de la biomasse forestière résiduelle, en tenant compte des sources d’erreurs de calcul. Plus explicitement, l’étude consiste à estimer la quantité de la biomasse résiduelle avec la méthode d’apprentissage automatique KNN et à élaborer une carte de localisation de ces quantités de biomasse estimées ainsi qu’une carte de localisation du coefficient de variation de cette estimation. L’étude vise également à évaluer l’utilisation de la méthode KNN pour l’estimation de la quantité de biomasse résiduelle des unités de surface cibles (polygones) à partir d’un certain nombre d’unités de surface échantillons voisines.

Pour ce faire, nous traiterons et validerons tout d’abord les données observées, c’est-à-dire les placettes échantillons, puis nous analyserons, concevrons, et développerons une solution informatique basée principalement sur la méthode KNN, afin d’estimer la densité de la biomasse résiduelle à l’échelle des polygones (5 à 10 ha). Ensuite, nous déterminerons l’erreur de notre estimation en utilisant la méthode bootstrap. Finalement, nous élaborerons une carte de localisation de la quantité de biomasse forestière résiduelle avec une tentative de prendre en compte l’erreur d’estimation.

(17)

8 2. MÉTHODOLOGIE

Nous présentons dans un premier temps l’aire d’étude et la description des données forestières. Par la suite nous expliquons en détail les étapes suivies pour estimer la quantité de biomasse résiduelle. Finalement, nous déterminons le lien entre la précision et la stratification du territoire forestier, puis présentons l’outil utilisé pour la localisation de la biomasse forestière résiduelle disponible.

2.1. Aire d’étude

Le territoire d’étude sur lequel notre recherche a été effectuée est l’unité d’aménagement (UA) 03551, représenté en noir à la figure 1. Il est situé dans la région administrative de Chaudière-Appalaches. Sa localisation géographique est entre les latitudes allant de 46°18’23.49’’N à 47°16’31.36’’N et entre les longitudes allant de 69°37’28.89’’W à 70°39’43.30’’W.

Figure 1 : Territoire d’étude (L’unité d’aménagement forestier 035-51) – en noir

La superficie totale de cette unité d’aménagement est d’environ 118 260 ha, dont 78 % sont admissibles à la récolte de bois (Bureau du forestier en chef, 2014). L’unité d’aménagement est localisée à 85 % dans le sous-domaine de l'érablière à bouleau jaune de l’est et à 14 % dans le sous-domaine de la sapinière à bouleau jaune de l’est. Les types forestiers les plus dominants dans ce territoire forestier sont les pessières (35 %), les résineux à feuillus (21 %), les sapinières (10 %)

Québec

États-Unis

UA035-51

(18)

9

et les érablières rouges (10 %). L’abondance de milieux humides caractérise notre aire d’étude (Bureau du forestier en chef, 2014).

Le climat de l’aire d’étude est de type continental humide et se caractérise principalement par : - Des températures moyennes annuelles allant de 1 à 3 °C ;

- Des précipitations annuelles importantes sur tout le territoire, variant de 1139 à 1298 mm ; - Une saison de croissance dont la durée est de 91 à 206 jours ;

- Des précipitations neigeuses qui oscillent de 320 cm à 350 cm.

Les valeurs des paramètres climatiques de cette région sont issues du logiciel BioSIM présenté par la suite (Ressources naturelles Canada, 2008). Le tableau 1 présente les valeurs maximales et minimales de tous les paramètres climatiques.

Tableau 1 : Les intervalles de variation des paramètres climatiques

Paramètres climatiques Unité Minimum Maximum

Degrés-jour °C 1256 1339

Précipitations totales mm 1139 1298

Précipitations à la saison de croissance mm 392 464

Température minimale °C -3 -2

Température maximale °C 6 8

Température moyenne °C 1 3

Température moyenne à la saison de croissance °C 13 13

Jours sans gel Jour 151 216

Saison de croissance Jour 91 206

Dernier jour de gel Jour julien 116 160

Premier jour de gel Jour julien 247 283

Indice d'aridité … 0 0

Précipitations neigeuses dm 32 35

Radiation totale MJ/m² 4676 5037

Les dépôts de surface dans l’unité d’aménagement forestier 035-51 sont majoritairement de type glaciaire (Direction générale de la Capitale-Nationale et de la Chaudière Appalaches, 2010). « Son assise rocheuse sédimentaire (schistes ardoisiers, grès et shales) est généralement recouverte de dépôts de till indifférencié d’épaisseur variable, accompagnés ponctuellement d’épandages fluvio-glaciaires sableux. Les dépôts de till, qui dominent le plateau appalachien, sont généralement épais et indifférenciés. Les dépôts fluvio-glaciaires se concentrent, pour leur part, dans les vallées. Enfin, les affleurements rocheux et les tills minces caractérisent les zones de hautes collines. » (Direction

(19)

10

générale de la Capitale-Nationale et de la Chaudière Appalaches, 2010). La pente de ce territoire varie de 0 à plus de 40 %. L’attitude varie généralement de 400 à 600 m, mais peut aller jusqu’à 900 m dans les zones de hautes collines particulièrement (Direction générale de la Capitale-Nationale et de la Chaudière Appalaches, 2010).

L’industrie forestière de Chaudière-Appalaches est en développement pour faire de cette région une capitale de la filière de biomasse forestière (Ministère de l’Énergie et des Ressources naturelles, 2015). Cette région a une forêt productive accessible étendue sur 10 920 km² qui recèle d’un volume marchand évalué à 94 millions de mètres cubes.Avec ses 51 scieries, soit 17 % des scieries du Québec en 2013, elle est la région qui comprend le plus de scieries à la province. De plus, elle comprend des entreprises de première, deuxième et troisième transformation du bois, une usine de production de granules bioénergétiques à partir des résidus organiques ainsi qu’une filiale de bioénergie en cours de développement. Ses usines de première transformation de bois ont consommé près de 3,8 millions de mètres cubes de bois rond en 2007. Cependant, la majorité de l’approvisionnement de biomasse de ses usines de transformation de bois provenait de l’extérieur du Québec. La récolte régionale est d’environ 1,2 million de mètres cubes de bois récoltés en 2011-2012 (Ministère de l’Énergie et des Ressources naturelles, 2015).

2.2. Description des données forestières

Dans cette étude, nous avons utilisé une base de données produite par la Direction des inventaires forestiers du ministère des Forêts, de la Faune et des Parcs (MFFP). Cette base de données comporte des échantillons circulaires couvrant une superficie de 400 m² de la forêt, nommés « placettes-échantillons » (Direction des inventaires forestiers, 2016). La localisation de ces placettes est déterminée par la méthode d’échantillonnage du MFFP appliquée au domaine d’étude. Cette méthode constitue une des étapes d’un plan de sondage dont le but principal vise à connaître les attributs dendrométriques et écologiques des strates écoforestières (Direction des inventaires forestiers, 2002). Dans chaque placette-échantillon, plusieurs observations sont effectuées dans le but de déterminer les caractéristiques du couvert forestier, telles que la composition des essences, la densité et la hauteur (Direction des inventaires forestiers, 2016).

Le diamètre à la hauteur de la poitrine (DHP) et la hauteur de chaque arbre des placettes seront utilisés pour le calcul de la quantité de biomasse résiduelle au niveau des placettes. De plus, les variables cartographiques et celles climatiques des placettes seront aussi utilisées pour estimer la

(20)

11

quantité de biomasse au niveau des polygones (0,1 à 167,7 ha). Après avoir analysé et validé les données des arbres de 1 656 placettes, nous avons pu déterminer les placettes les plus représentatives de notre aire d’étude. Après analyse, nous avons enlevé 191 placettes jugées aberrantes. Ainsi, 1 465 placettes seront utilisées dans le cadre de cette recherche, ce qui représente 48 107 arbres dont les espèces dominantes sont présentées dans le tableau 2. De plus, notre base de données comporte environ 45 000 polygones dont approximativement 500 polygones contiennent une ou plusieurs placettes-échantillons, ce qui représente 1 % de notre aire d’étude.

Tableau 2 : Les essences d’arbres dominantes de notre base de données

Nous avons utilisé les variables cartographiques des polygones issues des calculs de possibilité forestière produites par le bureau du forestier en chef (BFC). Ces données proviennent en effet d’un programme de couverture photographique. Les variables « cartographiques des polygones écoforestiersdécrivent les caractéristiques du peuplement (ex. : composition, hauteur, densité du couvert), les conditions biophysiques (ex. : dépôt de surface, drainage), la dynamique forestière (ex. : végétation potentielle) ainsi que l’historique des perturbations naturelles ou anthropiques » (Bureau du forestier en chef, 2013). D’un autre côté, nous avons pris en considération les paramètres climatiques issus du logiciel BioSIM.

Pour estimer des données à caractère climatique à des endroits donnés, BioSIM utilise des bases de données géoréférencées (latitude, longitude, élévation). Une de ces bases, nommée « Normales », comprend les températures et précipitations mensuelles moyennes et extrêmes des valeurs minimales et maximales. Une autre base de données « Quotidiennes » contient les données météorologiques quotidiennes observées ainsi que les prévisions sur 5 jours qui sont utilisées seulement dans des conditions en temps réel en cas de nécessité. En effet, BioSIM sélectionne les sources de données météorologiques adéquates pour chaque endroit localisé, adapte les données géoréférencées et détermine des valeurs quotidiennes (Ressources naturelles Canada, 2008).

Essence Nom des essences Nombre de tiges échantillonnées

DHP moyen Nombre de tiges à l’hectare

Surface terrière

BOP Bouleau blanc 4925 17,03 6,75% 3,56%

EPN Épinette noire 9546 17,78 30,26% 35,54%

EPR Épinette rouge 3586 20,90 6,09% 5,85%

SAB Sapin baumier 14805 17,25 38,97% 41,37%

THO Thuya occidental 3558 23,10 7,08% 7,38%

(21)

12

L’utilisation de ces paramètres cartographiques et climatiques des polygones nous permettra de faire une étude comparative entre les territoires forestiers selon leurs caractéristiques. Ces paramètres sont listés au tableau 6, à l’annexe 3.

2.3. Estimation de la biomasse résiduelle

Pour estimer la quantité disponible en biomasse forestière résiduelle, nous calculerons tout d’abord la densité de biomasse résiduelle au niveau de nos placettes-échantillons et, dans un second temps, nous estimerons la densité de biomasse résiduelle au niveau des polygones et au niveau des parcelles8 forestières avec KNN. Puis, nous calculerons l’erreur et la précision de cette estimation

avec la méthode bootstrap et, finalement, nous ferons une spatialisation des données estimées et de leurs coefficients de variabilité (CV) au niveau des polygones et des parcelles. Le schéma à la figure 2 explique la méthode d’estimation de la biomasse résiduelle suivie.

Figure 2 : Schéma explicatif de la méthodologie d'estimation de la biomasse résiduelle

(22)

13

2.3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes

D’un point de vue théorique, la biomasse forestière résiduelle comprend toute la biomasse forestière non marchande qui pourrait être utilisée dans l’industrie de la bioénergie. La biomasse forestière résiduelle correspond à la biomasse de l’ensemble de rémanents, de sections de troncs non commercialisables, de branches, de rameaux (petites branches) et de feuillage. Ces éléments sont présentés à la figure 3.

Figure 3 : Les composantes de la biomasse forestière, le volume marchand et le tronc à 9 cm au fin bout de la tige

(Source : Alemdag1984, p. 2; Canadian Forest Service, 2005.)

À la demande des partenaires de notre laboratoire, la biomasse forestière résiduelle dans notre étude se compose de la partie non marchande de la tige (le tronc à 9 cm au fin bout de la tige), la couronne (composée des branches et du feuillage) des arbres commerciaux ainsi que la biomasse totale des arbres non commerciaux. Afin d’estimer la biomasse forestière résiduelle d’une placette, il faut calculer la quantité de biomasse résiduelle pour chaque arbre dans cette placette, puis prendre la somme de ces quantités de biomasse résiduelle pour avoir celle au niveau de la placette étudiée.

15 cm 9 cm Volume marchand Partie non marchande de la tige DHP Branches Feuillage et brindilles Bois Écorce

(23)

14

2.3.1.1. Calcul de la quantité de biomasse résiduelle d’un arbre

a. Estimation de la biomasse forestière résiduelle des arbres commerciaux

Nous commençons par calculer la quantité de la biomasse de la tige avec écorce, la biomasse de la couronne et la masse marchande. Nous calculerons par la suite la biomasse de la partie non marchande de la tige, qui est égale à la biomasse de la tige avec écorce, moins la biomasse marchande. La biomasse résiduelle des essences d’arbres commerciaux est alors la somme de la biomasse des couronnes et celle des parties non marchandes de la tige. L’estimation de la biomasse des espèces d’arbres commerciaux est réalisée à l’aide des équations suivantes (Lambert et al., 2005) : wood wood wood

D

H

e

y

wood2 wood3

1  

(1) bark bark bark

D

H

e

y

bark2 bark3

1  

(2) stem bark wood stem

y

y

e

y

(3) foliage foliage foliage

D

H

e

y

fo lia g e2 fo lia g e3

1  

(4) branches branches branches

D

H

e

y

branches2 branches3

1  

(5) crown branches foliage crown

y

y

e

y

(6)

Avecywood, ybark, ystem,

y

foliage, ybranches et ycrown qui sont respectivement la biomasse du tronc,

de l’écorce, du tronc avec écorce, du feuillage, des branches et de la couronne en kg, où D est le DHP en cm, H est la hauteur en mètre,

wood1,

wood2,

wood3,

bark1,

bark2,

bark3,

1

foliage

,

foliage2,

foliage3,

branches1,

branches2,

branches3 sont des paramètres de ce

modèle et ewood,

e

bark,

e

stem,

e

foliage, ebranches et ecrown sont des termes d’erreur.

Pour la biomasse de la partie non marchande de la tige, nous avons calculé la différence entre la biomasse totale de la tige avec écorce et la biomasse marchande de l’arbre :

le merchantab

_

y

y

(24)

15 Où,

top stem

y

_ : est la biomasse de la partie non marchande de la tige,

stem

y

: est la biomasse totale de la tige avec écorce estimée avec les équations (1), (2) et (3),

le merchantab

y

: est la quantité de biomasse qui correspond à la partie marchande du tronc avec écorce.

La quantité de biomasse marchande est calculée avec le modèle de prédiction du volume marchand brut de Perron (2003) en m³. Nous avons converti ce volume marchand en quantité de biomasse, en le multipliant par la densité du bois. Les valeurs de la densité ont été extraites des tables de Jessome (1977).

Density

Vol

y

merchantable

merchantable

(8) Avec

y

merchantable qui est la biomasse marchande en kg, Density est la densité du bois en

kg/m3 et

le merchantab

Vol qui est le volume marchand en m3.

b. Estimation de la biomasse totale des arbres non commerciaux

Étant donné que le modèle de Lambert et al. (2005) permet d’estimer que la biomasse des essences commerciales seulement, nous avons prédit la quantité de biomasse totale des arbres non commerciaux par le modèle de Ter-Mikaelian et al. (1997) :

b

D a

M   (9)

Où M est la quantité de biomasse totale en kg, D est le diamètre à la hauteur de la poitrine, a et b sont des paramètres du modèle.

Après avoir calculé la quantité de biomasse résiduelle au niveau des arbres, nous passons aux calculs à l’échelle des placettes échantillons.

2.3.1.2. Calcul de quantité de biomasse résiduelle par placette

Pour calculer la quantité de biomasse d’une placette, il suffit de faire la somme des quantités de biomasse des arbres de la placette, soit :

(25)

16 Ni : Le nombre d’arbres dans la placette i

Bij : La quantité de biomasse d’un arbre j de la placette i

La quantité de biomasse en tonnes de la placette i est alors : 𝐵𝑖 = ∑ 𝐵𝑖𝑗

𝑁𝑖

𝑗=0 (10)

La densité 𝜔𝑖 de biomasse d’une placette (en t/ha) est la quantité de biomasse de la placette, divisée

par la surface d’une placette. Sachant que la surface d’une placette est 400 m², dans un hectare, on aura alors :

𝜔𝑖 = 25𝐵𝑖 (11)

Ces équations, nous permettrons d’estimer la densité de biomasse forestière résiduelle au niveau des polygones. Pour ce faire, nous avons utilisé la méthode d’apprentissage automatique KNN.

2.3.2. Prédiction de la biomasse forestière résiduelle au niveau des polygones avec la méthode d’apprentissage automatique KNN

Pour l’estimation de la biomasse résiduelle avec KNN, nous déterminerons tout d’abord les paramètres les plus corrélés avec la biomasse forestière totale, la métrique de distance adéquate ainsi que la valeur du nombre de placettes voisines k. Après la détermination de ces éléments clés, nous serons aptes à estimer la biomasse résiduelle des polygones à partir des k placettes voisines. Dans cette section, nous expliquerons dans un premier temps la façon avec laquelle nous avons utilisé la méthode KNN, puis nous détaillerons les étapes de l’estimation avec cette méthode d’apprentissage automatique.

2.3.2.1. Utilisation de la méthode des k plus proches voisins KNN

Comme le montre la figure 2, la méthode KNN se compose de trois phases, comme pour toute autre méthode d’apprentissage automatique : une phase d’entrainement, une phase de test et une phase de validation. Lors de la phase d’entraînement un estimateur est formé à partir de l’apprentissage avec les données entrées. Dans notre cas d’étude, il s’agit de calculer les distances entre les polygones et les placettes, en formant une matrice de distances, de même que pour les distances entre les placettes ; une matrice de distance entre les placettes a aussi été formée. La matrice des distances entre les placettes nous permet d’estimer alors la biomasse forestière selon le nombre des placettes voisines. Il reste alors la détermination de la valeur du nombre de placettes voisines k.

(26)

17

Pour ce faire, nous estimons la biomasse totale des placettes à partir de leurs placettes voisines pour k allant de 1 à 20 afin de pouvoir détecter la valeur de k (le nombre de voisins les plus proches) qui respecte le compromis entre la précision (R²) et l’erreur quadratique moyenne. Une matrice des placettes voisines de chaque polygone est alors produite. Avec cette matrice, nous pouvons estimer la biomasse résiduelle au niveau des polygones en calculant la moyenne pondérée des densités de la biomasse résiduelle. Viens alors la phase de test ; lors de cette étape du programme, nous testons l’efficacité de notre estimateur en estimant la biomasse résiduelle des placettes à partir de leurs 8 placettes voisines pour 1 000 échantillons Bootstrap de placettes. Cette procédure permet de calculer la précision de notre estimation, l’erreur quadratique moyenne et le biais. La troisième et dernière phase, la phase validation, lors de laquelle nous estimons la densité de biomasse résiduelle par polygone et nous calculons le coefficient de variation des estimations.

Il est à noter que, lors de la phase d’entrainement et la phase de test, nous avons utilisé les densités de la biomasse forestière totale. Ce qui est dans le but d’avoir un algorithme d’estimation KNN qui permet de prédire plusieurs mesures liées à la biomasse forestière, non seulement pour la biomasse résiduelle, mais aussi la biomasse totale et la biomasse selon les espèces d’arbres.

2.3.2.2. Estimation de la biomasse forestière résiduelle avec KNN

Pour déduire la densité de biomasse résiduelle d’un polygone, nous commençons par une étape de préanalyse des données lors de laquelle nous déterminerons des paramètres d’entrée les plus corrélés avec la biomasse forestière. Puis, nous ferons appel à la méthode d’apprentissage automatique KNN dont l’efficacité repose sur l’optimisation de la valeur du nombre de voisins k et sur le choix de la métrique de distance à utiliser. Cette optimisation est considérée comme étant une étape indispensable de la phase d’entraînement de l’algorithme KNN.

a. Détermination des paramètres les plus corrélés avec la biomasse forestière totale

L’analyse des données forestières a été effectuée à l’aide de la procédure GLMSELECT de la plateforme d’étude et analyse statistique SAS. À noter que, selon l’Association des statisticiennes et statisticiens du Québec, « la procédure GLMSELECT est un croisement entre deux procédures SAS pour les modèles linéaires : REG et GLM. Ces dernières existent depuis fort longtemps, mais ont chacune leurs limites. » (Association des statisticiennes et statisticiens du Québec, 2012). Les critères d’information d’Akaike (AIC) et de Bayes (BIC) (processus de sélection dit « FORWARD ») ont servi pour sélectionner le meilleur modèle.

(27)

18

Certains paramètres ou variables qui interviennent significativement dans l’explication de la valeur de la distance peuvent être fortement corrélés entre eux, ce qui revient à donner plus de poids à une information qui se répète dans plusieurs descripteurs. Seuls les paramètres les plus corrélés à la variable d’intérêt (la quantité de biomasse forestière résiduelle), qui ne sont pas corrélés entre eux, seront retenus dans le cadre de notre étude.

b. La métrique de distance adéquate : Distance de Gower

La mesure de similarité utilisée entre les polygones cibles et les placettes de référence est la distance de Gower (1971). Le choix de cette distance est basé sur la nature des valeurs des attributs ou paramètres cartographiques. Certains de ces attributs sont de type numérique, d’autres de type catégorique. La distance de Gower prend en considération ces deux types de valeurs de paramètres des placettes de référence (𝑥𝑟) et les polygones cibles (𝑥𝑐) :

                 

sinon 0 observés sont et si 1 : numérique r descripteu un pour ou sinon 1 différents sont et si 0 : e catégoriqu r descripteu un pour et sinon 0 observés sont et si 1 où / 1 ) , ( . . . . . . . . . . . 1 . . 1 . j c j r j j c j r j x x j c j r j x x j c j r j x x v j v j j x x j x x j x x c r x x R x x d j x x d j x x d x x D c r c r c r c r c r c r   

D(xr,xc) est la valeur de l’indice de non similarité de Gower ; j est un descripteur ; v est le

nombre des paramètres descripteurs ;

j x xr. c

est le delta de Kronecker (Legendre et Legendre, 1984) ; dxjr.xc est la distance entre les valeurs du paramètre descripteur j pour les polygones 𝑥

𝑟 et

𝑥𝑐 ; 𝑅𝑗 est l’amplitude des paramètres descripteurs.

c. L’estimation de la biomasse forestière résiduelle des polygones à partir des k placettes voisines

La biomasse résiduelle d’un polygone est la moyenne de la densité (tonne/hectare) de biomasse résiduelle des k placettes les plus semblables à ce polygone, c’est-à-dire les placettes qui ont les attributs cartographiques similaires ou semblables à ceux du polygone étudié. Ces placettes seront appelées les placettes voisines.

(28)

19

L’estimation de la biomasse résiduelle des polygones cibles est obtenue par la moyenne pondérée des biomasses des k placettes de référence les plus proches. La pondération des placettes de référence est basée sur l’inverse de la distance (Cleveland, 1979 ; Atkeson et al., 1997). Le poids d’une placette r pour le polygone cible c est calculé comme suit :

c r

r c x x D w , 1 1 .  (13)

L’estimation finale de la biomasse résiduelle pour les polygones cibles est calculée par :

   k r r c r k r r c c w y w y 1 . 1 . ˆ (14) Où 𝑦𝑟 est la variable d’intérêt (la biomasse résiduelle) de la 𝑟𝑖è𝑚𝑒 placette la plus proche et k est

le nombre des placettes de référence les plus proches et qui ont été retenues.

d. Détermination de la valeur de k

Le nombre des k placettes les plus proches correspond à celui qui minimise le ratio de l’erreur quadratique moyenne des estimations (REQM) et maximise la précision R². Il a été déterminé par validation croisée en suivant les étapes suivantes :

(1) Estimer la densité de biomasse forestière totale de chaque placette en calculant la moyenne pondérée de ses k placettes voisines ;

(2) Calculer le biais, l’erreur quadratique moyenne REQM et la précision R² ;

(3) Refaire les étapes 1 et 2 pour k allant de 1 à 20 ;

(4) Faire le graphe de variation du biais, de REQM et R² en fonction des valeurs de k ;

(5) Déterminer la valeur de k qui représente un compromis acceptable entre l’erreur, la précision et le biais.

2.3.3. Estimation de la précision du calcul de la biomasse résiduelle avec Bootstrap

La variabilité des estimations a été représentée par le coefficient de variation (CV). L’utilisation du coefficient de variation est plus judicieuse étant donné que cet estimateur d’imprécision facilite

(29)

20

l’interprétation des résultats. Ce coefficient de variation est défini comme étant le quotient de la racine carrée de la variance sur la moyenne. Le coefficient de variation a été estimé par une procédure de bootstrap proposée par McRoberts et al. (2011) :

boot boot boot

Var

CV

ˆ

)

ˆ

(

(15)

Varboot(ˆ) est l’estimation de la variance de la biomasse résiduelle moyenne de la distribution

bootstrap obtenue comme suit :

nboot i boot boot b boot boot

n

Var

1 2

)

ˆ

ˆ

(

1

1

)

ˆ

(

(16) Où nboot est le nombre d’échantillons bootstrap,

ˆbboot est l’estimation de la biomasse

résiduelle moyenne du 𝑏ième échantillon bootstrap, ˆboot est l’estimation de la biomasse

résiduelle moyenne de la distribution bootstrap obtenue comme suit :

  nboot b boot b boot boot n 1 ˆ 1 ˆ

(17) L’approche de construction des échantillons bootstrap est décrite comme suit :

(1) On fait un tirage avec remise (bootstrap) de 1 465 placettes à partir des 1 465 placettes-échantillons dont on dispose au départ. Cet échantillon bootstrap est alors utilisé comme jeu de données de référence pour une analyse KNN.

(2) On calcule la biomasse résiduelle pour chaque polygone, en utilisant les k placettes voisines les plus proches.

(3) On calcule la biomasse résiduelle moyenne par unité de surface de l’échelle considérée (parcelle) et si l’unité de surface considérée est le polygone, on saute cette étape.

(30)

21

(5) On calcule le coefficient de variation de la biomasse résiduelle moyenne (1 000 observations) par unité de surface (parcelle).

(6) Le coefficient de variation calculé à l’étape (5) est le coefficient de variation bootstrap de la biomasse résiduelle moyenne pour chaque unité de surface.

2.4. Lien entre la précision et la stratification

Avant d’effectuer un inventaire d’opération (inventaire avant récolte), l’estimation de la biomasse forestière dépend de la stratification du territoire. Cette stratification est fonction des attributs des peuplements des cartes écoforestières et des placettes d’inventaire qui sont utilisées pour la planification des stratégies d’aménagement forestier sur le territoire public. Les objectifs de précision qui sont visés et qui déterminent l’intensité d’échantillonnage (i.e. le nombre de placettes qui sont installées) sur le territoire se font à l’échelle des unités d’aménagement forestier (BFEC, 2013). Toutefois, la précision des estimations est assez faible à l’échelle des peuplements forestiers (5 à 10 ha) (Bernier, 2010).

Selon la démonstration mathématique de Yanagawa (1975), le gain en précision due à la stratification est assuré pour toute stratification. Ainsi, pour améliorer la précision de nos résultats, nous avons calculé les quantités de biomasse résiduelle à une échelle plus grande que celle des polygones, c’est à dire des parcelles.

2.5. Localisation de la biomasse forestière résiduelle demandée

Nous avons utilisé les données des unités de surface géolocalisées afin d’attribuer à chaque unité l’intervalle dans lequel se trouve la quantité de biomasse forestière résiduelle. Nous avons utilisé deux unités de surface, les polygones et les parcelles. La localisation de la biomasse sur ces surfaces a été effectuée à l’aide du logiciel ArcGIS. Le logiciel ArcGIS est un système complet qui permet de recueillir, organiser, gérer, analyser, communiquer et diffuser des informations géographiques (ArcGIS, 2016).

(31)

22 3. RÉSULTATS

Cette section présente les résultats de l’estimation de la quantité de biomasse résiduelle ainsi que les cartes de localisation de cette biomasse. La première partie est consacrée aux résultats de calcul de la biomasse résiduelle au niveau des placettes. La seconde présente les résultats de l’estimation de la biomasse résiduelle au niveau des polygones et des parcelles avec la méthode KNN. La troisième sert à estimer la performance de notre méthode de prédiction en calculant le biais, l’erreur quadratique moyenne et la précision R² avec la méthode bootstrap. La quatrième concerne, quant à elle, les cartes de la spatialisation de la biomasse forestière.

3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes

La biomasse résiduelle dans notre étude comporte la partie non marchande de la tige des essences d’arbres commerciaux, la biomasse de leur couronne ainsi que la biomasse totale des essences non commerciales. Ainsi, dans cette section, nous présentons les résultats d’estimation de chacun de ces types de biomasse ainsi que les résultats de la somme de toutes ces biomasses, qui représente la biomasse résiduelle de notre étude.

3.1.1. Estimation de biomasse de la partie non marchande de la tige

Dans un premier temps, nous avons calculé la quantité de biomasse marchande et celle de la biomasse totale de la tige avec écorce pour tous les arbres de nos placettes-échantillons. La figure 15 à l’annexe 2 représente la relation entre ces deux valeurs pour toutes les essences d’arbre et le diamètre à la hauteur de la poitrine (DHP) au niveau des arbres. Pour avoir une idée claire sur cette distribution, la figure 14 à l’annexe 2 représente la distribution de la biomasse marchande et celle de la tige avec écorce pour les deux essences d’arbres dominantes, c’est-à-dire l’épinette noire (EPN) et le sapin baumier (SAB).

Dans un second temps, nous avons calculé la biomasse marchande et la biomasse de la partie non marchande de la tige au niveau de chaque placette. La figure 4 représente la relation entre la biomasse marchande et la biomasse totale de la tige au niveau des placettes. La différence entre la valeur de la biomasse marchande et celle de la biomasse de la tige avec écorce donne alors la biomasse de la partie non marchande de la tige, à 9 cm, que nous cherchons.

(32)

23

Figure 4 : La masse marchande en fonction de la masse totale de la tige au niveau des placettes

3.1.2. Estimation de la biomasse de la couronne des arbres commerciaux

Nous avons calculé la biomasse de la couronne des arbres commerciaux avec les équations (4), (5) et (6) du modèle de Lambert et al. (2005). La figure 16 à l’annexe 2 représente la distribution de la biomasse de la couronne des arbres commerciaux par rapport au diamètre à la hauteur de la poitrine (DHP).

3.1.3. Estimation de la biomasse des arbres non commerciaux

Pour les essences non commerciales, nous avons exclu les arbustes (plante ligneuse vivace dont la hauteur ne dépasse pas 10 m) comme le noisetier à long bec, le viorne cassinoïde et le viorne à feuilles d’aulne. Nous avons exclu aussi les arbres morts (1 700 arbres). Nous avons pris en compte les trois essences représentées dans le tableau 3.

Tableau 3 : Les essences d’arbres non commerciaux retenues pour notre étude

Essence Nom en français Anglais Intervalle de DHP

ERE Érable à épis Mountain maple entre 2 à 24 cm

ERP Érable de Pennsylvanie Striped maple entre 2 à 22 cm

PRP Cerisier de Pennsylvanie Pin cherry entre 2 à 36 cm

Ces trois essences d’arbres sont présentes dans 1 381 placettes et la densité de ce type de biomasse varie de 0 à 199 kg. La figure 18, à l’annexe 2, présente la distribution de la quantité de biomasse totale des arbres non commerciaux par rapport au diamètre à la hauteur de la poitrine.

(33)

24

3.1.4. La biomasse résiduelle demandée

La biomasse résiduelle dans notre étude est alors la somme de la biomasse de la partie non marchande de la tige et celle de la couronne des arbres commerciaux ainsi que la biomasse totale des arbres non commerciaux. La distribution de la densité de cette biomasse résiduelle, par rapport à la densité de biomasse totale des arbres commerciaux au niveau des placettes, est représentée dans la figure 5. Cette distribution montre qu’au niveau des placettes, les valeurs de biomasse résiduelle prédites sont toutes très inférieures à la biomasse totale, ce qui est logique.

Figure 5 : La biomasse totale en fonction de la biomasse résiduelle

3.2. Estimation de la biomasse forestière résiduelle au niveau des polygones avec la méthode KNN

L’estimation de la densité de biomasse résiduelle au niveau des polygones avec KNN demande principalement la détermination des paramètres les plus corrélés avec la biomasse ainsi que la précision de la valeur du paramètre k qui représente le nombre de voisins à prendre en compte.

3.2.1. Les paramètres les plus corrélés avec la biomasse

L’analyse des paramètres cartographiques et climatiques via la plateforme d’étude et l’analyse statistique SAS (effectuée à l’aide de la procédure GLMSELECT) donne les paramètres les plus corrélés à la variable d’intérêt, c’est-à-dire la quantité de biomasse forestière résiduelle, et qui ne sont pas corrélés entre eux. Ces paramètres sont listés au tableau 4. Vu que notre territoire d’étude est restreint, la variabilité des paramètres climatiques n’est pas importante au point d’influencer considérablement la variabilité spatiale de la biomasse forestière résiduelle et ainsi d’expliquer la

Références

Documents relatifs

Vous devez le télécharger (voir page web du

Rôle de la linguistique fonctionnelle dans l’adaptation des tests de langage français, à la langue arabe : exemple d’un protocole.. ZELLAL Nacira En Algérie,

Il est remarquable que ce soit préci- sément l'inverse qui se produit dans le problème des ondes sphé- riques, puisque l'intégrale résiduelle de ce problème est nulle dans le cas

Le pouvoir calorifique des feuilles tombées au sol a été évalué de façon identique à celle des feuilles sèches restées attachées aux tiges (tableau 7). Il n’y a pas

était possible d’appliquer une régression unique entre le volume de bois fort et la biomasse totale sur 96 parcelles de taillis en peuplement forestier dans la

start of injection of Org 25969 plasma concentration of free rocuronium molecules = 0. this creates a gradient between tissue and plasma more rocuronium molecules are bound to

était possible d’appliquer une régression unique entre le volume de bois fort et la biomasse totale sur 96 parcelles de taillis en peuplement forestier dans la

Ce capteur a été vérifié avec deux capteurs étalons présents dans l’unité (une sonde pt100 et une sonde capacitive étalonnées régulièrement). Les capteurs LVDT ont