• Aucun résultat trouvé

CHAPITRE II : PALEONTOLOGIE

1.4. Etudes statistiques

1.4.3. Comparaison de plusieurs populations

× + 1 2 1 2 1 1

Cette valeur sera comparée aux valeurs données par la table de distribution de Student, pour un degré de liberté de N1 + N2 - 2.

Si t calculé est supérieur à la valeur donnée par la table, pour un risque de 5%, la différence est significative ; pour un risque de 1% la différence est hautement significative.

- Si le rapport dépasse la valeur lue dans la table du test F pour N1 -1 et N2 - 1 degrés de liberté, les variances sont considérées inégales. On utilise alors l’approximation de Cochran (Snedecor & Cochran ; 1967) t’. Dans ce cas on calcule normalement le test t, puis dans la table de distribution de Student on cherche t1 pour N1 -1 d.d.l et t2 pour N2 -1 d.d.l.

L’approximation de Cochran s’écrit :

t

t

SN

t

SN S N S N

'= +

+

1 1 1 2 1 22 2 12 1 22 2

t est comparé à t’ ; si t est supérieur à t’, la différence est dite significative pour 5%.

1.4.3. Comparaison de plusieurs populations

1.4.3.1. Diagramme de Mollison ou méthode des écarts-réduits

L’objectif de cette méthode est de projeter sur un graphique les variations de plusieurs populations, par rapport à un ensemble de variables (dans notre cas les séries de mesures). Cette comparaison se fait par rapport à une population référence.

Z

X X

S

=

1 2

2

X

1: moyenne de la population à comparer

X

2: moyenne de la population référence

S2 : écart-type de la population référence

En choisissant un seuil de ± 1,96, les valeurs sortant de cette intervalle, pour une mesure donnée, la différence entre la population considérée et la population référence est dite significative au seuil de 5% (Valensi, 1994).

1.4.3.2. L’analyse des données : analyse factorielle et classification hiérarchique

Plusieurs auteurs se sont intéressés aux analyses des données, on citera : Benzécri (1973), Legendre & Legendre (1984), Escofier & Pagès (1990). Dans cette étude, nous nous sommes appuyé sur les travaux ces deux derniers.

Utilisées depuis plusieurs années, ces méthodes ont prouvé leur efficacité dans l'étude de tableaux de données brassant une grande quantité d'informations. A l’opposition des statistiques descriptives, qui ne peuvent examiner qu’une ou deux variables à la fois, les méthodes d’analyse de données nous permettent de confronter plusieurs objets et descripteurs (variables) à la fois ; ce sont des méthodes dites multidimensionnelles (Escofier & Pagès, 1990). Ces méthodes, nous permettent de mesurer les ressemblances entre les objets ou entre les descripteurs et de procéder aux groupements par le biais de la classification hiérarchique, ou à une ordination dans un espace réduit, si on utilise une analyse factorielle.

(a) L’analyse factorielle :

L'analyse factorielle ou l'ordination en espace réduit, est la méthode la plus importante et la plus communément utilisée parmi toutes les méthodes d'analyse des données. On peut l'utiliser soit toute seule, soit combinée avec des classifications hiérarchiques. Cette méthode nous facilite, par voie graphique, de discerner des regroupements, des oppositions ou des tendances, qu'on aurait

du mal à reconnaître sur un tableau de données formé de plusieurs individus définis par une multitude de descripteurs.

Il existe plusieurs types d'analyses factorielles adaptés aux différents types de données:

a.1- L'analyse en composantes principales (ACP) :

La plus puissante de toutes ces techniques et qui est réservée à des tableaux croisant des individus et des descripteurs quantitatifs. Ces tableaux sont communément appelés «individus x variables quantitatives». Par convention, les lignes du tableau désignent les individus, alors que les variables sont représentées par les colonnes. Le principe est de montrer dans un graphique multivariable la dispersion des objets. Ce graphique, aura autant d’axes que de descripteurs choisis pour l’étude. Mais, ordinairement, on cherche à représenter de façon optimale (avec un nombre d’axes réduit) la totalité de l’information véhiculée par les tableaux de données.

Dans une ACP, on n’interprète pas de la même façon les résultats obtenus sur les individus et les résultats des variables. En effet, chez les individus, on essaie d’évaluer les ressemblances pour parvenir à un bilan de ressemblances entre individus (Escofier & Pagès, 1990) ; bilan qui

pourrait nous permettre d’entrevoir les individus qui se ressemblent, ceux qui différent, de voir aussi les groupes d’individus qui sont homogènes... En somme, d’essayer de desceller une typologie des individus.

Chez les variables, on essaie d’évaluer les liaisons entre elles. C’est-à-dire, voir les variables qui sont liées positivement entre elles, celles qui s’opposent, discerner des groupes de variables qui sont corrélées entre elles, quand ces groupes existent. Ceci revient à mettre en évidence une typologie des variables

De par la nature de nos données, nous avons été amenés à employer l’ACP pour notre étude.

a.2- L'analyse factorielle des correspondances (AFC) :

L’AFC nous permet de projeter ensemble les lignes et les colonnes d'un tableau de contingence (tableau de fréquence).

En plus de ces deux méthodes (qui sont les plus fréquemment utilisées) on pourrait ajouter l'analyse des correspondances multiples (ACM), qui elle, traite des tableaux codant les valeurs de variables qualitatives.

(b) Le groupement : classification hiérarchique

La classification hiérarchique (clustering), est une analyse multidimensionnelle. Cette méthode consiste à rechercher des degrés de similarité suffisamment importants entre certains objets pour les regrouper dans un même ensemble. Simultanément, elle cherche aussi à discerner les différences entre les groupes retrouvés.

Selon le modèle de groupement choisi, qui est fonction du but recherché, la classification des objets (ou des descripteurs) pourrait rassembler une seule patrition (ou groupe), ou au contraire plusieurs groupes hiérarchisés des objets (ou descripteurs). Dans cette étude, nous avons utilisé le groupement selon l’association de Ward. Une étude détaillée des différents types de groupements nous est proposée par Legendre & Legendre (1984).

1.4.3.3. Le tableau des données ou matrice des données

Comme nous l’avons mentionné précédemment pour notre analyse de données, nous avons créé des tableaux croisés. Ce sont des tableaux à deux dimensions croisant des individus et des variables (ou descripteurs). L’objectif de notre étude est de trouver des ressemblances ou différences entre plusieurs cortèges de lapins appartenant à des périodes différentes.

- Les individus sont donc des lapins de différents sites. Ils seront représentés par une abréviation du nom du site. Exemple : Terra-Amata (TA), Lazaret (LAZ)... etc.

- Les variables, sont les séries de mesures qui ont pu être prises sur l’ensemble des os et des dents. Nous avons travaillé sur les moyennes calculées pour chacune de ces séries de mesures. Pour le choix des variables, nous nous sommes employés à trouver un ensemble de séries de mesures ayant été effectuées dans le plus grand nombre de sites possible.

1.4.3.4. Analyses en modes Q et R

Les tableaux de données, d’une manière générale, sont étudiés sous deux aspects : chercher les rapports entre les objets ou bien les relations entre descripteurs. On définit ainsi deux modes d’analyses:

- Analyse en mode Q : qui consiste à l’étude de la matrice des données en se basant sur l’association des objets. Autrement dit, c’est la relation entre les objets pour l’ensemble des descripteurs (variables).

- Analyse en mode R : dans ce cas, le tableau des données est étudié par les relations entre variables. C’est la relation entre descripteurs pour l’ensemble des objets.

Comme l’objectif de notre étude est la recherche des ressemblances et le ou les regroupements des lapins de différents sites préhistoriques appartenant à des époques différentes, nous nous contentons d’une étude en mode Q.

Remarque : Dans d’autres tableaux de données on trouve aussi le facteur temps qui intervient ; dans ces cas on peut définir quatre autre types d’analyses (fig. 16) qui prennent en compte le facteur temps (Legendre & Legendre, 1984) :

- Analyse en mode O : on étudie les relations entre les temps pour l’ensemble des descripteurs.

- Analyse en mode P : dans ce cas on étudie les relations entre les descripteurs pour l’ensemble des temps.

- Analyse en mode S : c’est l’étude des relations entre les objets pour l’ensemble des temps.

- Analyse en mode T : on observe les relations entre les temps pour l’ensemble des objets.