• Aucun résultat trouvé

La méthode classique

Dans le document en fr (Page 79-91)

Chapitre III. Matériels et méthodes

III.3. Le calcul des indicateurs halieutiques

III.3.1. Dénombrement des pêcheurs

III.3.4.1. La méthode classique

Il existe plusieurs méthodes permettant d'agréger simplement nos données pour aboutir à un indice annuel. Ces méthodes sont relativement classiques et nous servirons de référence pour juger des améliorations que les autres méthodes apportent.

Deux philosophies président au calcul d'une CPUE moyenne pour une zone donnée en fonction de ce qu'on considère comme étant l'élément de base de l'échantillonnage :

– On peut tout d'abord estimer que chaque pêcheur constitue un moyen d'échantillonnage indépendant, permettant d'accéder à l'abondance locale du stock. On calcule donc une CPUE annuelle pour chaque pêcheur (somme de ses captures / somme de ses efforts). On fait ensuite la moyenne des CPUE de tous les pêcheurs de la zone considérée :

U =1

n

p=1 n

C

p

f

p

=

1

n

p=1 n

U

p. On appellera les CPUE calculées de cette manière des CPUE moyennes.

– On peut également considérer que ce n'est pas le pêcheur, mais la pêcherie dans son ensemble qui constitue un moyen d'échantillonnage. La CPUE annuelle sera alors le rapport de la capture totale sur l'effort effectif total :

U =C

f

. On appellera les

CPUE calculées de cette manière des CPUE totales.

Dans notre cas, ces calculs peuvent être effectués soit à l'échelle du bassin, soit à l'échelle du secteur. Les CPUE calculées directement à l'échelle du bassin, seront indicées avec la lettre b (CPUEb).

Si l'échelle retenue pour le calcul des CPUE est celle du secteur, cela nécessite d'agréger les valeurs obtenues sur chaque secteur pour obtenir une valeur unique pour le bassin. Nous calculerons des moyennes pondérées :

U =

s

w

s

U

s

s

w

s , avec ws le poids

relatif de chaque secteur. On distinguera trois pondérations :

– chaque secteur a le même poids (ws=1). Cela revient à calculer une moyenne classique sans pondération. C'est la méthode la plus simple qui existe (Chadwick et O'Boyle, 1990). L'hypothèse ainsi faite est que chaque secteur mesure le même stock ou qu'à défaut le stock de chaque secteur a la même abondance. Les CPUE ainsi calculées seront indicées avec le chiffre 1 (puisque le poids est de 1, CPUE1).

– le poids de chaque secteur est égal à son effort effectif (Chadwick et O'Boyle, 1990 ; Gulland, 1969 ; Quinn et al., 1982). Cette méthode s'inspire de la décomposition de la CPUE de la manière suivante :

C

f

=

∑C / f  f

Cette méthode est considérée comme donnant des résultats biaisés mais ayant une faible variance (Quinn et al., 1982). Les CPUE ainsi calculées seront indicées avec la lettre e (puisqu'elles sont pondérées par l'effort).

le poids de chaque secteur est égal à sa surface (Gulland, 1969 ; Quinn et al., 1982). En effet si la CPUE est proportionnelle à la densité, la proportion de l'abondance présente dans chaque secteur sera égale à la proportion de la surface que représente chacun des secteurs. Cette méthode est donc plutôt adaptée au stock "sédentaire" tel que celui de l'anguille jaune ou de la crevette blanche. Elle est considérée comme donnant des résultats non biaisés, mais ayant une grande variance (Quinn et al., 1982). Les CPUE ainsi calculées seront indicées avec la lettre s (puisqu'elles sont pondérées par la surface du secteur, CPUEs).

Ainsi, à partir de ces différentes définitions et méthodes, on peut donc calculer de manière assez simple, 8 CPUE annuelles différentes. On pourrait obtenir davantage d'indices d'abondance différents, en considérant, comme Rochard (1992), que pour les espèces migratrice, qui constituent un flux, il serait plus pertinent de calculer la CPUE annuelle comme étant la moyenne des CPUE journalières. Rochard (1992) conclut cependant que dans le cadre du suivi interannuel d'abondance, ce type de raffinement n'est pas nécessaire.

Nous ne calculerons donc que les 8 CPUE décrites ci-dessus. Les CPUE calculées à l'échelle du bassin (CPUEb moyenne et CPUEb totale) sont calculables dans tous les cas de figure. Les CPUE issues de l'agrégation des CPUE secteurs nécessitent à priori d'avoir des pêcheurs coopératifs dans chaque secteur. Nous considérerons toutefois que, pour les CPUE calculées sans pondération (CPUE1 moyenne et CPUE1 totale) ou pondérée par l'effort (CPUEe moyenne et CPUEe totale), l'absence de données sur un ou plusieurs secteurs n'est pas un obstacle au calcul et ces secteurs seront simplement ignorés. En revanche, pour le calcul des CPUE pondérées par la surface (CPUEs moyenne et CPUEs totale), l'absence de données sur un ou plusieurs secteurs sera rédhibitoire.

III.3.4.2. Les GLM – théorie

L'utilisation de modèles linéaires généralisés (GLM) pour analyser des données de pêche est devenue très fréquente (Maunder et Punt, 2004). Nous allons détailler dans ce paragraphe, les bases nécessaires à la compréhension des GLM13.

Les GLM peuvent être vus comme une extension des modèles linéaires (LM). On écrit en général les modèles linéaire sous cette forme :

y

i

=∑

j=1 p

j

x

ij



i où yi est la ième valeur de la variable à expliquer, xij la ième valeur de la jème variable explicative, βj le coefficient de régression associé à la jème variable explicative et ε

i l'erreur, qui est indépendante et suit une loi normale de moyenne nulle et de variance σ². On peut également écrire cette formule sous une autre forme :

13 On pourra citer en référence l'ouvrage de Mac Cullagh et Nelder (1989) qui expose l'ensemble de la théorie des GLM.

y

i

~N 

i

,

2

observations indépendantes et normalement distribuées

i

=

i lien identité

i

=∑

j=1 p

j

x

ij

combinaison linéaire des p variables continues

explicatives

Dans le cadre de l'utilisation des GLM, les observations (ou de manière équivalente, les erreurs) peuvent suivre une autre distribution que la loi normale et la fonction de lien peut être autre que la fonction identité utilisée dans les LM. Pour spécifier un GLM, il est donc nécessaire de définir la loi de distribution suivie par les observations et la fonction de lien que l'on utilise. Les distributions les plus souvent utilisées sont : la loi normale ou la loi gamma, pour les variables à expliquer continues ; la loi de poisson ou négative binomiale, pour les variables discrètes et la loi binomiale, pour les données binaires de type présence-absence. Les fonctions de lien utilisées sont la fonction identité, le logarithme népérien ou la fonction logit (dans le cas de la distribution binomiale). Les variables explicatives peuvent aussi être appelées des effets. Elles peuvent être, soit continues (comme dans les LM), soit catégorielles (à niveaux). En fonction de la distribution, de la fonction de lien et du type de variables, on retrouve certains cas spéciaux des GLM. Ainsi les modèles (régression) linéaire ont un lien identité, une distribution normale et des variables continues. Si les variables sont catégorielles, avec un lien identité et une fonction normale, il s'agit d'une ANOVA. Si la distribution est binomiale et le lien logit, c'est une régression logistique.

Nous utiliserons essentiellement la fonction de lien logarithme népérien. La transformation par le logarithme népérien permet, en effet, de stabiliser la variance et de faire en sorte que les valeurs prédites ne soient pas négatives. Ceci serait un non sens pour des valeurs de CPUE. Enfin le passage au logarithme permet d'avoir ainsi des effets multiplicatifs. L'utilisation de la transformation logarithmique et de modèles multiplicatifs est relativement ancienne puisque Gulland (1956) et Robson (1966) avaient déjà souligné son intérêt. Tous les deux ont d'ailleurs utilisés des ANOVA pour analyser les données de captures et d'efforts. Ces idées ont été, par la suite, largement reprises (Gavaris, 1980 ; Kimura, 1981 ; Large, 1992).

Pour simplifier, les GLM permettent d'expliquer des observations grâce à un certain nombre d'effets. On peut inclure dans le modèle des interactions qui sont le résultat de la conjugaison de plusieurs effets. Lors de l'estimation d'un effet, le GLM tient compte de la valeur des autres effets. Autrement dit, lorsque l'on a un résultat sur un effet, c'est "toutes choses étant égales par ailleurs" ou encore "déduction faite des autres effets". Les GLM autorisent également le traitement de données issues de plans d'échantillonnages déséquilibrés comme c'est le cas pour nos données.

III.3.4.3. Les GLM – exemple simple

Cet exemple est librement inspiré de Robson (1966) et Maunder et Punt (2004) :

Soit une pêcherie composée de deux pêcheurs uniquement. Supposons que le stock est strictement stable au cours du temps et répond aux lois classiques de l'halieutique (voir III.2.2). Le pêcheur A a une efficacité double de celle du pêcheur B. Pour l'année 1, le pêcheur A capture 20 kg pour un effort de 10 jours et le pêcheur B 10 kg pour 10 jours (Tableau III). Pour l'année 2, le pêcheur A ne pêche plus que 5 jours (pour des problèmes de marché, de matériel, de maladie ...) et capture 10 kg, la capture et l'effort du pêcheur B reste inchangé. Différents modes de calcul sont possibles (III.3.4.1) :

CPUE

moyenne

=1

2

C

A

f

A

C

B

f

B

ou

CPUE

totale

=

C

A

C

B

f

A

f

B

.

Dans notre exemple, les CPUE moyennes concluent, à juste titre, à une stabilité du stock alors que les CPUE totales concluent faussement à une diminution du stock. Imaginons maintenant qu'un troisième pêcheur (C) exerce l'année 2 avec une capture de 5 kg pour 10 jours de pêche. Les deux types de CPUE concluent alors faussement à une diminution du stock. Enfin considérons une troisième année où le pêcheur A ne pratique pas et où l'abondance aurait doublé. Le pêcheur B capture alors 20 kg pour 10 jours et le pêcheur C 10 kg pour 10 jours. Les deux types de CPUE concluent alors faussement que l'abondance est stable par rapport à la première année. On pourrait ainsi multiplier les exemples pour montrer que l'une, l'autre ou les deux méthodes de calcul des CPUE possèdent des biais. Analysons néanmoins ce petit exemple qui illustre les différents écueils dans lesquels les méthodes "classiques" risquent de tomber. Tout d'abord, la CPUE totale échoue à montrer une stabilité des CPUE dans le cas 1 (pêcheur A et B, année 1 et 2) car le "rapport de force" entre les deux pêcheurs, qui ont une efficacité différente, a changé. L'arrivée d'un nouveau pêcheur (C), moins efficace que les deux autres pour l'année 2, entraîne une sous-estimation de l'abondance par les CPUE moyenne et totale. Enfin la disparition du pêcheur le plus efficace (A) la troisième année a le même effet de sous-estimation de l'abondance que l'arrivée du pêcheur moins efficace (C) au cours de l'année 2. Dans ce cas très simple, on comprend instinctivement qu'il faut tenir compte de l'efficacité relative de chacun des pêcheurs lors du calcul des CPUE. C'est ce qu'on appelle la standardisation des efforts, i.e. on définit un pêcheur standard, le pêcheur B par exemple, qui servira d'étalon pour le calcul des efforts. Dans notre cas, l'unité d'effort deviendra alors le jour de pêche standard (sous-entendu du pêcheur B) et une simple règle de trois sur les données de la première année nous montre, qu'un jour de pêche du pêcheur A équivaut à 2 jours de pêche du pêcheur B. On peut ainsi effectuer ce type de calcul pour tous les pêcheurs et sur toutes les années. Une fois les efforts standardisés, on pourra recalculer les CPUE en prenant en compte ces efforts standardisés plutôt que les efforts bruts. C'est ce travail qu'effectue un GLM pour peu que celui-ci soit bien spécifié. Dans notre exemple, il existe deux effets : un effet année qui est celui qui nous intéresse le plus, puisque c'est lui qui nous permettra de connaître l'évolution de la CPUE au cours du temps ; un effet pêcheur qui va nous permettre de standardiser l'effort de pêche. Dans un modèle multiplicatif, les effets se multiplient, i.e. si la CPUE moyenne de l'année 1 est de 1 est celle de l'année 3 de 2, on dira que la CPUE a doublé. Dans le cas des modèles additifs, on dira que la CPUE a augmenté de 1. Dans notre cas, on se situe bien dans un modèle multiplicatif puisque nous avons considéré que

lorsque l'abondance doublait, les captures de chaque pêcheur doublaient. Notre GLM aura donc un lien log afin d'avoir des effets multiplicatifs. La distribution de l'erreur a ici peu d'importance puisque l'exemple a été construit sans erreur. Notre modèle s'écrit alors : ln(CPUE)~ effet année + effet pêcheur ou de manière équivalente CPUE~effet année bis x effet pêcheur bis, les effets "bis" étant l'exponentiel des effets de la première équation. La donnée de base est ici constituée par la CPUE annuelle de chaque pêcheur. Le GLM va alors calculer un effet année en tenant compte de l'effet pêcheur, ce qui revient à standardiser l'effort. Concrètement, l'année 1 et 2 on un effet de 1, l'année 3 de 2 et les pêcheurs A, B et C ont un effet de 2, 1 et 0,5 respectivement (Tableau IV). Si l'on cherche à retrouver la CPUE prédite par le modèle pour le pêcheur A l'année 1, il suffit de multiplier les deux effets, soit 1 pour l'année 1 et 2 pour le pêcheur A, ce qui est bien égale à 2. Le lecteur pourra ainsi vérifier que l'on retrouve exactement toutes les valeurs du tableau en multipliant l'effet de l'année considérée par l'effet du pêcheur considéré. On peut même compléter les "cases vides" et prédire quelle aurait été la capture du pêcheur C, l'année 1 (0,5 x 1) ou du pêcheur A, l'année 3 (2 x 2). Sur un cas aussi simple, avec peu de données et sans erreurs, les calculs auraient pu être menés sans outils statistiques particuliers. Les calculs se compliquent toutefois très rapidement et le GLM permet d'avoir un cadre statistique robuste pour prendre en compte différents effets et de nombreuses données.

Tableau IV : exemple simple des différents calculs de CPUE

Année 1 Année 2 Année 3 GLM

effet pêcheur

Pêcheur A 20 kg / 10 jours 10 kg / 5 jours 2 kg/jour

Pêcheur B 10 kg / 10 jours 10 kg / 10 jours 20 kg / 10 jours 1 kg/jour CPUE moyenne 1,5 kg/jour 1,5 kg/jour

CPUE totale 1,5 kg/jour 1,33 kg/jour

Pêcheur C 5 kg / 10 jours 10 kg / 10 jours 0,5 kg/jour

CPUE moyenne 1,5 kg/jour 1,17 kg/jour 1,5 kg/jour CPUE totale 1,5 kg/jour 1 kg/jour 1,5 kg/jour GLM

effet année 1 kg/jour 1 kg/jour 2 kg/jour

III.3.4.4. Les GLM – applications

Plusieurs niveaux de GLM seront explorés dans ce travail. Chaque niveau de raffinement permettra de prendre en compte des hypothèses supplémentaires, d'utiliser des données plus ou moins précises et, a priori, d'affiner le diagnostic.

Le premier niveau est en fait la méthode classique. La CPUEb moyenne peut effectivement être vue comme un GLM sur les CPUE annuelle de chaque pêcheur avec comme variable catégorielle explicative l'année avec un lien identité et une distribution normale. On peut l'écrire : CPUE ~ saison

(qualité requise pour calculer des CPUE). En fonction des variables sélectionnées, les CPUE seront calculées par saison, par mois. Deux GLM seront testés :

– Le niveau suivant, qui sera un vrai GLM, a lui aussi comme données de base les CPUE annuelle de chaque pêcheur. Les effets utilisés sont assez simples, et tous sont des variables catégorielles : l'année, le pêcheur et le secteur. Nous utiliserons un lien log (pour obtenir des effets multiplicatifs notamment) et une distribution gamma, dont la dissymétrie convient particulièrement à ce type de données. Ce GLM est le GLM de base qui prend en compte les effets incontournables et qui ne requiert aucunes données supplémentaires par rapport à la méthode classique. Il s'écrit comme suit : log(CPUE) ~ saison+secteur+pêcheur

– Nous prendrons ensuite en compte un effet supplémentaire, l'effet mois. Pour cette raison nous l'appellerons GLM mois pour plus de simplicité. Cela nécessite de calculer les données non plus par saison, mais par mois, ce qui exclut de fait les données qui sont en précision annuelle (365). L'effet mois permet de prendre en compte grossièrement la dynamique intra-annuelle. De plus nous modéliserons l'interaction du mois avec la saison afin d'inclure les variations inter-annuelles de la dynamique intra- annuelle. Le modèle s'écrit (le symbole ':' dénotant l'interaction entre deux effets) : log(CPUE) ~ saison:mois+secteur+pêcheur

Le lien log et la distribution gamma n'est pas compatible avec les CPUE nulles (ou négatives). Cependant, les CPUE nulles étant en faible proportion (<1%) à la fois pour les CPUE annuelles (9/4206 uniquement des données des métiers civelle tamis et civelle drossage) et les CPUE mensuelles (99/13667, touchant toutes les espèces), nous supprimerons simplement ces données pour effectuer les analyses.

À noter que dans le cas particulier de l'alose (III.3.3.3), nous ajouterons un effet métier (alose filet ou lamproie marine filet) dans le GLM de base et le GLM mois.

III.3.4.5. Les GAM – théorie

Les modèles additifs généralisés (GAM) ont l'avantage, par rapport aux GLM, de pouvoir modéliser des effets de manière non linéaire. On pourra se référer à l'ouvrage d'Hastie et Tibshirani (1990) pour obtenir tous les détails nécessaires. Nous ne donnerons donc ici que les principaux éléments.

Un GAM possède, tout comme le GLM, une fonction de lien et une distribution. Ce qui change, c'est la combinaison linéaire des variables. On écrira pour un GAM :

i

=∑

j=1 p

j

f

j

x

ij

, où fj est la fonction associée à la jème variable explicative. Cette fonction peut être non linéaire (ce qui fait tout l'intérêt des GAM). Si toutes les fonctions fj sont des fonctions identités, nous retrouvons le cas particulier des GLM. À ce titre, les GAM sont parfois considérés comme plus généraux que les GLM. Les fonctions fj sont en général des fonctions de lissage (smoothing function), et dans notre cas, nous opterons pour des fonctions spline, que nous noterons s. L'utilisation de fonctions de lissage fait que l'on considère parfois les GAM comme une méthode guidée par les données (data- driven), alors que les GLM serait plutôt guidée par le modèle / le modélisateur (model-

driven). En effet, l'allure de la réponse d'un effet est strictement dictée par le modèle dans le cas du GLM (relation nécessairement linéaire) alors que l'allure (non linéaire) de la réponse d'un effet est grandement déterminée par les données dans le cas des GAM.

III.3.4.6. Les GAM – applications

Les GAM, de par leur souplesse due aux fonctions non linéaires, sont particulièrement adaptée à l'étude des relations environnements – espèce (Megrey et al., 2005 ; Meynard et Quinn, sous presse). Nous les utiliserons donc ici pour inclure l'effet des variables environnementales sur l'abondance. Pour ce faire, il sera nécessaire d'utiliser des données de CPUE journalières et donc de n'utiliser que les données présentant une précision au moins journalière (1 et 0,5). De ce fait, seuls les métiers grande alose filet, lamproie marine filet et civelle pibalour pourront être étudiés.

Les variables environnementales que nous pouvons inclure sont relativement classiques. Il s'agit du coefficient de marée, le débit de la Garonne et de la Dordogne ainsi que la température. Les GAM permettent également de modéliser la dynamique intra- annuelle de manière plus fine en intégrant une variable jour, qui est le nombre de jour écoulé depuis le début de la saison.

Étant donné le nombre de variables, il existe un nombre important de modèles possibles. Nous ne pouvons choisir a priori, quelles sont les variables à retenir parmi l'ensemble des variables candidates. Il est donc nécessaire d'utiliser un critère de sélection des modèles. Le critère nous semblant le plus approprié est le critère d'information d'Akaike (AIC ; Akaike, 1973) issu de la théorie de l'information. Pour faire simple, il applique le principe de parcimonie et met en balance la qualité de l'ajustement avec le nombre de degrés de liberté nécessaire pour atteindre cette qualité d'ajustement. Le meilleur modèle est celui obtenant l'AIC le plus faible. À noter que la valeur absolue de l'AIC n'est d'aucune utilité, ce n'est que la comparaison de 2 AIC qui apporte de l'information. On pourra se référer à l'ouvrage de Burnham et Anderson (2002), pour obtenir plus d'informations sur l'emploi des AIC et sur la sélection de modèles en général.

Le modèle retenu sera donc celui qui obtiendra le meilleur (i.e. le plus faible) AIC. Les modèles testés sont de la forme : log(CPUE) ~ combinaison de variables. Le lien sera un lien log et la distribution sera gamma.

Les variables testées sont les suivantes :

pêcheur : variable catégorielle, permettant de prendre en compte les variations inter-pêcheur lié au comportement du pêcheur, à son matériel, à son expérience ... (III.2.3.3 et III.2.3.6), en fait son efficience.

métier : pour l'espèce alose uniquement (III.3.3.3).

secteur : variable catégorielle, permettant de prendre en compte les différences

spatiales de capturabilité

débit Dordogne et débit Garonne : variables continues avec un nombre de degré

de liberté cible de 414. Le débit est une des variables environnementales connue pour

Dans le document en fr (Page 79-91)

Documents relatifs