• Aucun résultat trouvé

CHAPITRE II : PALEONTOLOGIE

2. METHODOLOGIES

2.3. Régressions

= = 1 *

Pour notre travail, nous nous sommes contentés des indices calculés en fonction des listes des espèces.

A partir de ces indices, et pour chaque paramètre climatique retenu, Griggo (1995) obtenait des courbes montrant l’évolution du climat entre les différentes couches ou ensembles stratigraphiques dans un gisement archéologique.

Comme l’avait souligné l’auteur, le but de cette méthode n’est pas de trouver les valeurs exactes du climat qui existait à l’époque, mais uniquement de donner des ordres de grandeur du climat s’approchant du climat régnant à l’époque.

2.2. Analyses factorielles

Nous avons utilisé, comme pour l’étude paléontologique (Voir chapitre précédent), des analyses à composante principale (ACP) afin d’ordonner différents sites préhistoriques pléistocènes, suivant les cinq paramètres climatiques calculés par la méthode de "Semi-quantification des paléoclimats". Les deux premiers axes de cette ordination seront ensuite utilisés comme variables indépendantes lors des calculs de régression multiple.

2.3. Régressions

Le but de la régression est triple (Scherrer, 1984):

- Résumer la relation existant entre une variable aléatoire y (qui représentera la taille des éléments squelettiques des lapins), et une ou plusieurs variables aléatoires ou contrôlées xj (qui sont les indices climatiques pour notre étude) appelées variables explicatives ou encore pédictrices ou indépendantes. Cette relation est exprimée sous forme d’une équation. Le calcul de certains paramètres tel que le coefficient de corrélation nous permet de bien comprendre les relations entre nos différentes variables.

- Décrire la forme de la relation liant les variables. Il existe plusieurs formes de relations entre les variables définissant ainsi des régressions linéaires, polynômiales… Dans notre cas, nous travaillerons avec des régressions linéaires.

Dans notre travail, nous avons eu recours à deux types de régressions : la régression linéaire simple et la régression linéaire multiple.

La régression linéaire simple est une fonction du premier degré liant les variables x et y. Cette fonction linéaire est de la forme : y = ax + b

Il s’agit de l’équation d’une ligne droite (fig. 24). Cette droite s’appelle droite d’estimation ou droite de régression de y en x. Cette droite permet de calculer une valeur de y estimée à partir des valeurs x de la variable prédictrice (variable indépendante).

La régression multiple nous permet d’analyser les relations existant entre une variable dépendante et deux ou plusieurs variables indépendantes ou prédectrices. Ainsi, nous obtenons une équation qui prédira la valeur inconnue d’un nouvel élément à partir des valeurs connues de plusieurs variables explicatives (indépendantes). On peut également évaluer le degré (ou intensité) de dépendance entre notre variable dépendante et l’ensemble de variables indépendantes sensées la définir ou la prédire.

Dans un espace à trois dimensions, la variable dépendante y est alors estimée par deux variables indépendantes. Dans ce cas l’équation s’écrit :

y = a1x1 + a2x2 + b

Graphiquement, l’équation correspond à un plan (fig. 29).

Si p –1 variables explicatives sont utilisées pour estimer y, l’équation sera :

y =a1x1 + a2x2+ … + ajxj + … + ap-1xp-1 + b

La présentation graphique de cette équation n’est plus possible car elle correspond à un hyperplan situé dans un espace à p dimensions.

Pour qu’un modèle de régression multiple proposé (par le biais de son équation) puisse être valable, il est nécessaire que certains paramètres associés à ladite régression répondent à des conditions statistiques bien précises. Cet examen des paramètres s’intitule : analyse de la variance. Ainsi, habituellement, on vérifie les résultats obtenus des éléments suivants : le coefficient de détermination (R2), le coefficient de détermination corrigé (R2 ajusté), le coefficient de Fisher (F) et la probabilité associée à F. Les valeurs obtenues pour les deux derniers paramètres cités conditionnent le rejet ou la validité du modèle proposé par la régression.

Le coefficient de détermination (R2) : c’est le rapport de variation de y expliquée par la régression à la variation totale de Y. Multiplié par 100, il exprime le pourcentage de la variation expliquée par la régression. Plus ce coefficient est grand, plus le modèle proposé est valable.

Le coefficient de détermination corrigé (R2 ajusté) : il nous renseigne sur la pertinence ou non de l’introduction d’une nouvelle variable explicative dans un modèle. Ainsi, ce coefficient augmente quand la variable ajoutée est pertinente, et diminue si elle ne l’est pas.

Le coefficient F de Fisher : il permet de tester l’hypothèse selon laquelle il existe au moins un coefficient estimé significativement non nul dans le modèle ou encore de tester s’il y a association significative entre la variable expliquée y et au moins un des régresseurs (variables explicatives) x1, x2, …, xn entrant dans le modèle. Il est pour cela comparé à la valeur de Fisher-Snedecor lue dans la table de Snedecor au risque α en fonction des degrés de liberté (ddl) s et (r-s-1) où r représente le nombre d’individus et s le nombre de variables explicatives intervenant dans le modèle.

Pour que le modèle soit validé, il est impératif que la valeur calculée de F soit supérieure à la valeur lue dans la table de Snedecor au risque α égal à 0.05, α = 0.05 étant le seuil supérieur toléré pour accepter ou rejeter un modèle.

La probabilité associée à F (Prob > F) : c’est le risque que l’on prend de rejeter l’hypothèse H0 : "y est liée aux régresseurs" alors qu’elle est vraie. Pour se permettre de conclure qu’il existe au moins un des coefficients significativement non nul, ce risque doit être faible.

Habituellement, nous estimons les probabilités calculées de la façon suivante (G. W. Hosie, T. G. Cochran ; 1994) :

- Probabilité non significative (NS) au seuil 0.05: dans ce cas P > 0.05. Le modèle proposé sera alors exclu.

- Probabilité significative (que nous noterons avec un *) : dans ce cas la probabilité calculée est inférieure au seuil α = 0.05. Le modèle mathématique proposé est valable et donc accepté.

- Probabilité hautement significative (**) : la probabilité calculée est inférieure au seuil α = 0.005. Le modèle est meilleur que le précédent avec le seuil α = 0.05. Nous avons une bonne corrélation entre la variable expliquée (y) et l’ensemble des régresseurs

(x1, x2 …xn).

- Probabilité très hautement significative (***) : la probabilité calculée est inférieure au seuil α = 0.0005. Dans ce cas nous possédons une très bonne corrélation entre la variable expliquée et l’ensemble des régresseurs.

Remarque : Nous n’avons pas cru nécessaire d’exposer les formules mathématiques de tous ces paramètres, étant donné qu’ils seront calculés par l’intermédiaire d’un logiciel de statistiques (STATlab 3).