Résumés - Journées de Statistique, Paris, mai 1979

(1)

Statistique et analyse des données

S ^OCIETE F ^RANÇAISE D ^E C LASSIFICATION Résumés - Journées de Statistique, Paris, mai 1979

Statistique et analyse des données, tome 4, n

^o

3 (1979), p. 79-84

<

http://www.numdam.org/item?id=SAD_1979__4_3_79_0

>

© Association pour la statistique et ses utilisations, 1979, tous droits réservés.

L’accès aux archives de la revue « Statistique et analyse des données » implique l’accord avec les conditions générales d’utilisation (

http://www.numdam.org/conditions

). Toute utilisation commer- ciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impres- sion de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

79

SOCIETE FRANÇAISE DE CLASSIFICATION

(Résumés - Journées de Statistique, Paris, MAI 1979)

(3)

(4)

ETUDE DISTKIBUTIONMELLE DE QUELQUES INDICES DE

SIMILARITE POUR DES DONNEES BINAIRES UN MODELE DE MORPHQGENESE FONDE SUR L1 ALGORITHME DES NUEES DYNAMIQUES

Auteur : H. BACELAR NICOLAU

Centre de Statistique et Applications (CE.A.- I.N.I.C.) Faculté des Sciences de Lisbonne

58, rua da Escola Politécnica Lisboa - PORTUGAL

Auteur : B. CRAIGNOU IRIA-Laboria Rocquencourt B.P. 105

76150 LE CHESNAY Tel 95<*9020 poste 668

Dans ce travail nous faisons une étude comparative du point de vue distributionnel des coefficients le plus couramment utilisés pour les données binaires.

Nous démontrons que, sous une certaine hypothèse que l'on précise, ils se partagent en deux classes : l'une contenant ceux qui ont la même loi exacte (hypergéométrique), l'autre rassemblant les coefficients qui ne sont équivalents qu'en loi limite (normale).

Nous proposons alors comme coefficient général de compa- raison pour ce type de données un coefficient probabiliste basé sur la valeur delà fonction de répartition normale limite commu- ne à tous les coefficients. Ce coefficient généralise la notion de similarité selon la "vraisemblance du Lien" introduite par I.C. Lerman.

Modélisation d'une Forme naturelle. Un algorithme de morphogénèse décrit l'évolution de la Forme des Feuilles dès son initialisation. Les cellules sont les unités mor- phologiques du modèle.

La première partie de l'algorithme décrit la croissance de chacune des cellules de la Feuille (alimenta- tion, grossissement, division, état stationnaire).

La seconde partie décrit la croissance globale (rangement, lissage).

Le mouvement de l'ensemble des cellules (conséqueri ce de leur grossissement) pose des problèmes dans le dé- roulement de l'algorithme. Une application dans le cas con- tinu de l'algorithme des Nuées Dynamiques permet l'organisa- tion de ce mouvement et la détermination postérieure de la Forme des cellules.

(5)

UNE NOUVELLE CLASSE DE METHODES D'AGREGATION EN CLASSIFICATION AUTOMATIQUE BASEE SUR LA VRAISEMBLANCE DU LIEN»

Auteur : P. COSTA NICOLAU

Centre de Statistique et Applications (CE.A.-I.N.I.C. ) Faculté des Sciences de Lisbonne

5B» Rua da Escola Politécnica Lisboa - Portugal

Nous proposons l'exploitation systématique de la notion de Vraissemblance du Lien (i.C.Lerman - méthode A.V.L., basée sur le lien maximal entre deux classes), et dont des résultats récents montrent l'aspect plobal, unificateur et sans biais pour le cas des données binaires (H. Bacelar Nioolau).

Nous y traitons surtout la méthode AVD (agrégation par te.

Vraissemblance du Lien minimal entre deux classes), les méthodes AMVLD (arrépation par les moyennes - arithmétrique, géométrique, harmonique, et cas limites- des Vraissemblanoes des Liens maximal et minimal ), et la méthode AVM ( arrération par la Vraissemblance du Lien moyen entre deux classes ) •

CLASSIFICATION HIERARCHIQUE ET CONNEXITE

Auteur : M. GONDRAN M.

EDF, Direction des Etudes et Recherches 1, Avenue du Général de Gaulle

92141 CLAMART CEDEX

On présente ici une nouvelle classification hiérarchique basée sur des données de similarité.

Cette classification hiérarchique est robuste (pas d'effet de chaîne) et optimale. Elle s'appuie sur des résultats de la théorie des graphes : la liaison entre les différents flots d'un graphe symétrique donnée par le théorème de Gomory-Hu.

Dans le cas où les données de similarité sont du type

"tout ou rien", les classes de niveau k de la classification hiérarchique correspondent aux composantes k-arêtes-connexes du graphe des similarités.

(6)

VALEURS PROPRES ET VECTEURS PROPRES

CROISEMENT DE CLASSIFICATIONS FLOUES

Auteur

EN ANALYSE DES PREFERENCES

M. GONDRAN M.

EDF, Direction des Etudes et Recherches 1, Avenue du Général de Gaulle

92141 CLAMART CEDEX

LERMAN I . C .

Laboratoire de S t a t i s t i q u e I . R . I . S . A . - Université de Rennes 35042 - RENNES Cedex

Trois méthodes d' analyse des préférences sont présentées.

Elles consistent à déterminer les valeurs propres et les vecteurs propres de la matrice des préférences par couple dans une structure algébrique bien choisie : les dioîdes. Si le dioîde est { JR+, +, X) on trouve un ordre moyen ; si le dioîde est ( IR , max, X) on trouve la classe des éléments les plus liés entre eux ; si le dioîde est (IR, max, min) on trouve une classification hiérarchique de préordres.

On montre que la donnée d'une classification sur un ensemble A d'attributs descriptifs permet, en introduisant un degré d'appartenance relative d'un individu donné à une même classe d'attributs, la définition et la mise en évidence d'une-classification "floue" sur l'ensemble s des individus décrits. On développe dans ces conditions l'analyse du croisement de deux classifications floues par la construction d'indices affectés aux cases du croisement conformément à la statistique du x 2 et par la

généralisation adéquate de la théorie classique dans cette nouvelle situation.

Ce qui permet de situer, l'une par rapport à l'autre, deux typologies sur le même ensemble B d'individus, respectivement définies par une classifica- tion monothêtique et une classification polythétique ou bien par deux classifications polythétlques à partir de deux ensemble disjoints de traits descriptifs. Une telle approche est particulièrement pertinente dans l'analyse des questionnaires pouvant être scindés en deux parties ; la première comprenant les attributs de description de la structure du sujet et la seconde, les attributs d'attitude ou de comportement.

(7)

UN PROBLEME DE LA CLASSIFICATION AUTOMATIQUE POSE PAR

L'INTERROGATION DES RASSEMBLEMENTS DOCUMENTAIRES APPLICATION DES METHODES D'ANALYSE STATISTIQUE HULTIDIMENSIONNELLE

A L'ETUDE DE LA CHARGE D'UN ORDINATEUR

Auteur: F, MURTAGH,

L a b o r a t o i r e de S t a t i s t i q u e s Mathématiques, U n i v e r s i t é de P a r i s VI.

Nous proposons un t r a i t e m e n t rigoureux de l a o l a s s i f i c a t i o n automatique a p p l i q u é e à l ' i n t e r r o g a t i o n d e s rassemblements d o c u m e n t a i r e s . En p a r t i c u l i e r on expose une n o u v e l l e approche à l ' a n a l y s e p r o b a b i l i s t e d e s r é s u l t a t s d'une o l a s s i f i c a t i o n ascendante h i é r a r c h i q u e . Quelques r é s u l t a t s n é c e s s a i r e s & l a mise au p o i n t de c e t t e t h é o r i e s o n t f o u r n i s . Bien que o e t t e étude s ' a p p l i q u e à - e t s ' e x p l i q u e par - l ' e x e m p l e de l ' i n t e r r o g a t i o n d e s s y s t è m e s d o c u m e n t a i r e s , on en suggère l a g é n é r a l i s a t i o n aux a u t r e s a p p l i c a t i o n s de l a c l a s s i f i c a t i o n automatique.

Auteur : M. RALAMBONDRAINY H..

LABORIA - BP 105 -78150 LE CHESNAY

RESUME : Alors qu'on envisage à L'IRIA une extension e t des changements de c o n f i g u r a t i o n , i l e s t n é c e s s a i r e d'avoir une vue d'ensemble de la charge de l'IRIS 80 du centre de c a l c u l . C'est l e but de c e t t e étude.

LES DONNEES : Le f i c h i e r de comptabilité de SIRIS 8 recense l e s d i f f é r e n t e s consommations machines des d i v e r s travaux soumis à l ' o r d i n a t e u r . Pour donner un ordre de grandeur du volume d'informations mis en j e u , signalons q u ' i l a é t é t r a i t é au mois de mars 1977 a peu pr«s

13000 travaux batch. Les données portent sur une période de dix mois : j a n v i e r à octobre 1977. A p a r t i r du f i c h i e r comptable ont é t é e x t r a i t s divers f i c h i e r s sur l e s q u e l s ont porté nos analyses : f i c h i e r u t i l i s a t e u r s , f i c h i e r travaux, f i c h i e r s e s s i o n s temps partage, e t c , . . .

LES ANALYSES EFFECTUEES

d é f i n i t i o n de mois Etude des consommations mensuelles g l o b a l e s

t y p e s .

Typologie des utilisateurs pendant les mois types.

Suivi des utilisateurs sur la période de mesure.

Etude de la charge journalière : définition de jours types.

Typologie des travaux batch dans les différents jours types.

Typologie des sessions temps partagé.

METHODES MISES EN OEUVRE :

. Analyse factorielle des correspondances.

. Analyse en composantes principales.

. Classification hiérarchique ascendant.

. Nuées dynamiques.