• Aucun résultat trouvé

3.1.1.1. L'objectif de cette partie GRADUS

Le lecteur assidu est déjà averti (cf 1.3.3) de nos intentions en ce qui concerne l'analyse des données du corpus. Nous distinguons deux stratégies d'analyse des données recueillies dans la partie 2 : CORPUS.

- description classique des données

(en particulier : analyse dans l'espace temporel), - définition de méthodes spécifiques

(en particulier discussion des possibilités d'analyse dans l'espace des fréquences)

Cette partie 3 : GRADUS est en quelque sorte l'escalier qui nous conduit, non pas au Parnasse de l'Analyse des Données, mais à une vision la plus exhaustive possible des informations contenues dans nos données. Dans la Partie 4 : IN FINE, nous nous interrogerons sur la mise en place de méthodes spécifiques, sur les conclusions que nous pouvons réellement tirer et sur les ouvertures pour la suite de ce travail.

3.1.1.2. L'inhomogénéité des codages du corpus

Comme nous l'avons signalé dans la partie 1.2.3. de ce travail, l'analyse des données de magnitudes de notre CORPUS n'est pas simple, car elles sont loin d'être homogènes. Le paragraphe 1.2.3.2. rappelle que nos premiers observateurs effectuent un codage qualitatif, en classant les étoiles en six catégories de grandeurs. Ils se contentent d'accepter des cas intermédiaires, notant pour quelques astres des grandeurs du type 4.5 ou 4.3 qui signifient respectivement 4 tirant vers 5 ou 4 tirant vers 3. nous avons noté ces dernières, dans les fichiers du CORPUS, 4.3 ou 3.7. Nos dernières données, comme celles tirées de la RHP ou du catalogue de Mermilliod sont au contraire des mesures d'un paramètre continu, souvent noté au 1/100 de magnitude. Ce point sera approfondi dans le paragraphe 3.3.1.

Autre difficulté, les estimations de Sir William Herschel, décrites en détail dans le paragraphe 2.4.4. et à un degré moindre celles de Johan Bayer (cf sous-

paragraphe 2.4.3.2) sont avant tout des comparaisons d'éclat, sans référence absolue.

Ces différences de nature entre les diverses familles de données suggèrent l'idée que nous allons devoir utiliser des compromis pour décrire l'information de façon à la rendre traitable d'une manière unitaire.

3.1.1.3. Stratégie ascendante ou descendante ?

En fait, il y a deux familles de stratégies pour avancer dans notre problème.

3.1.1.3.1. Ascendances

Une famille, qui peut être qualifiée d'ascendante, s'appuie sur les données pour trouver un codage qui soit le mieux adapté à leur logique. Dans notre cas, comme nous venons de le voir dans le paragraphe précédent, il ne pourra s'agir que d'un compromis.

En essayant de trouver ce type de compromis, on navigue entre :

- un codage quantitatif,

Nous analysons alors un tableau de valeurs de magnitudes, présentant une colonne par catalogue, (ou pour des raisons d'équilibrage des masses des étoiles, deux colonnes par catalogue). Celui que nous avons utilisé dans l'analyse didactique présentée dans le paragraphe 1.3.2. était de ce type.

Ce type de codage risque de rendre l'analyse presque tautologique, puisque on tire comme principal enseignement un fait avéré par ailleurs : la partie fractionnaire est responsable des plus grandes différences entre les étoiles. Il s'agit d'une évidence : comme certains codent en valeurs entières et les autres pas, les étoiles les plus extraordinaires sont celles qui ont leur partie entière (leur arrondi E+0.5 plus exactement) la plus différente de leur valeur réelle, c'est-à-dire le reste fractionnaire maximum.

- un codage qualitatif,

Le tableau ne contient alors que des 0 et des 1, et possède autant de colonnes de valeurs possibles, catalogue par catalogue. Ceci nous donne un nombre pathologique de colonnes : une par valeur possible de magnitude pour chaque catalogue, cela signifie 60 valeurs possibles par catalogue au 1/10 de magnitude, soit pour notre corpus (en admettant que l'on ne considère que 4 colonnes au 1/10 de magnitude) plus de 240 colonnes à étudier. De plus, il n'y aura en moyenne que 0.2 % d'information par axe.

Chercher un compromis entre ces deux situations nous oriente naturellement vers les stratégies à codage flou, qui pourraient s'appuyer sur un système comme une colonne par valeur entière de magnitude, quel que soit le catalogue.(soit seulement 6 colonnes par catalogue, environ 60*10 à 20 colonnes). On remplit chacune des deux colonnes les plus proches de la valeur notée dans le catalogue avec l'écart à la valeur entière. Nous verrons dans le chapitre 3.4. comment mettre en oeuvre une telle analyse.

3.1.1.3.2. Descendances

Une deuxième famille que l'on peut qualifier de descendante, part de la nature de l'information qui nous intéresse. L'idée la plus simple est de noter les écarts à la valeur attendue dans le codage du catalogue concerné, si l'étoile n'avait jamais varié en éclat.

En fait, on cherche à montrer que l'hypothèse de non-variation est fausse, ou plus exactement à visualiser l'information, qui est l'écart dans chaque catalogue entre la valeur adoptée et celle que l'on aurait pu s'attendre à voir. On sait, grâce à l'analyse de la première partie, qu'il y a bien une telle information, en comparant l'analyse du tableau de Flammarion et l'analyse théorique de la série de nombres pour mettre en évidence l'effet de la partie fractionnaire. On a vu deux grosses différences entre la simulation théorique et celui du tableau de Flammarion :

- il y a un très large chevauchement des stries chez Flammarion (on le voyait déjà dans les histogrammes deux à deux du paragraphe 1.2.3. (Figure 1.3)), - dans le cas théorique, le premier axe contient 99.5% de l'information , alors que dans le cas Flammarion, il ne contient plus que 86.1% (certes, il y a plus d'axes dans le cas du tableau de Flammarion, mais en réalité seulement deux fois plus d'axes signifiants or, 14% est largement plus de 2 fois supérieur à 0.5%).

Ce codage par les écarts aux valeurs attendues sera présenté dans la partie 3.3.

D'autres méthodes descendantes peuvent être mises en place. Elles partent non plus d'une vision de la localisation possible de l'information, compte-tenu des problèmes de divergence des codages, comme celle des "écarts aux valeurs attendues" dont nous venons de parler, mais d'une vision des hypothèses à tester sur les natures physiques des variations possibles pour les étoiles. Dans cette acception, il pourrait ne plus s'agir alors d'analyse des données, mais de stratégie de test. En fait, nous avons vu en 1.2. que nous ne savions pas vraiment en quoi pourrait consister un test valable.

Seule, l'intuition (ou le pré-jugé pour les mauvaises langues) que les vraies variations physiques ne doivent s'étudier dans l'espace temporel (cf paragraphe 1.2.4.) mais dans l'espace des fréquences (car il n'y a pas de possibilité qu'il y ait des relations de phase entre des variations réelles d'astres découplés, situés chacun à des bouts différents de l'univers) constitue un point de départ. Il a généré l'idée d'effectuer des analyses dans l'espace des fréquences, en réalisant la composition d'une sorte de Transformée de Fourier et de l'Analyse Factorielle des Correspondances124. Les réflexions autour de cette piste seront développées dans la partie 4.

3.1.1.4. Analyses classiques et "gradus"

Dans cette partie 3 GRADUS de notre travail nous allons mener ensemble les analyses "classiques" des données, utilisant principalement les ressorts habituels de l'Analyse Factorielle des Correspondances (cf 1.2.2.2.). Nous en tirerons les leçons sur les données et sur notre problème de VTLP. Nous

préparerons aussi la mise en place pour la partie 4 IN FINE de l'appareillage d'analyse plus puissant dont nous venons de présenter les prémisses.

3.1.2.

Les différentes analyses factorielles "classiques"