• Aucun résultat trouvé

Ouvrage reçu

N/A
N/A
Protected

Academic year: 2022

Partager "Ouvrage reçu"

Copied!
6
0
0

Texte intégral

(1)

L ES CAHIERS DE L ’ ANALYSE DES DONNÉES

CAD

Ouvrage reçu

Les cahiers de l’analyse des données, tome 8, n

o

1 (1983), p. 121-125

<

http://www.numdam.org/item?id=CAD_1983__8_1_121_0

>

© Les cahiers de l’analyse des données, Dunod, 1983, tous droits réservés.

L’accès aux archives de la revue « Les cahiers de l’analyse des don- nées » implique l’accord avec les conditions générales d’utilisation (

http:

//www.numdam.org/conditions

). Toute utilisation commerciale ou impres- sion systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

Les Cahiers de f Analyse des Données Vol. VlU-m3-n°l-p. 121-125

OUVRAGE REÇU

Ouvrage Kzçu : L'analisi délie frequenze, problemi di lessico^

logia ; A cura di M. Fattori e M. Bianchi ; Lessico Intellettuale Europeo XXVII ; Centre- di Studio del CNR ; Edizioni dell ' Ateneo ; Roma ; [Ouvrage aimablement communiqué par le Directeur du L.I.E. , le Pr. Tullio Gregory],

Des sept contributions dont se compose cet ouvrage collectif, trois utilisent l'analyse des données multidimensionnelles : il nous est agréable d'en rendre compte ici ; non s e u l e m e n t parce qu'elles apportent des résultats déjà intéressants mais surtout parce qu'elles témoignent d'une heureuse liberté dans l'envol vers des espaces inexplorés.

1 L'analyse faotorielle dans l'élaboration des entrées de Dic- tionnaire ; par Ugo Berni Canani :

Il nous suffira de quelques citations :

"Supposons que nous ayons un ensemble de mots associés d'une façon paradigmatique au mot devant faire l'objet de l'article. On peut les représenter comme les noeuds d'un graphe en reliant entre eux ceux entre lesquels il y a une relation paradigmatique. S'il y a beaucoup de mots et beaucoup d'associations le résultat sera un graphe assez compliqué. Le problème est de le dessiner de la façon la plus claire possible... Il y a même un article d'un illustre spécialiste d'analyse combinatoire, W.T. Tutte, intitulé Comment dessiner un graphe. Or l'analyse factorielle se révèle justement un instrument très utile pour donner une bonne représentation des graphes".

L'auteur traite quelques exemples par l'analyse des correspon- dances et l'analyse en composantes principales (méthodes dont il s'abstient de faire une comparaison concluante). Les 6 planches qui illustrent ces exemples sont visaisemblablement les projections sur le plan 1 x 2 , sans indication toutefois d'axes ni de valeurs propres.

(D'ailleurs le tableau analysé lui-même, n'est pas clairement défini non plus).

La conclusion vaut d'être citée :

(1) Professeur de statistique. Université Pierre et Marie Curie;

Professeur Tullio Gregory. Direttore Del Lessico Intellettuale Europeo Centro di Studio del C.N.R. . Borna.

U. Berni Canani ; J. Harnesse ; E. Brunet.

(3)

1 2 2 j.p. BEirZECRI

" S a n s d o u t e s'agit-il de " b r i c o l a g e f a c t u r i e r1. Mais il me sem- ble q u e l ' u t i l i s a t i o n de p r o c é d u r e s a u t o m a t i q u e s de ce genre pourraît f a c i l i t e r la tâche de celui qui avec l'analyse de groupes de mots ou de c o n t e x t e s doit r é d i g e r les a r t i c l e s d'un d i c t i o n n a i r e " .

E n f i n on n o u s p a r m e t t r a d e r a p p e l e r q u e d a n s le T r a i t é "L 'Ana- lyse des Données", la l e ç o n [GRAPHE CORR.] T I I B n° 10 est consacrée à l ' a n a l y s e d e la c o r r e s p o n d a n c e d é f i n i e p a r un g r a p h e .

2 Problème dT authenticité et analyse factorielle. A propos d'une oeuvre de Saint Bonaventure ; par J. Harnesse.

I c i e n c o r e c i t o n s l ' a u t e u r :

"Me t r o u v a n t face à des p r o b l è m e s d ' a u t h e n t i c i t é et d'étude de v o c a b u l a i r e , je me suis d e m a n d é dans quelle mesure une analyse sta- t i s t i q u e p o u r r a i t m ' a p p o r t e r c e r t a i n e s lumières sur les textes que j ' é t u d i e .

M a i s comment v é r i f i e r les r é s u l t a t s o b t e n u s ? Comment avancer de m a n i è r e s û r e ? Trop de travaux a c t u e l s c o n t i e n n e n t des conclu- s i o n s h â t i v e s , b a s é e s sur des données c h i f f r é e s qui n'ont pas été i n t e r p r é t é e s c o r r e c t e m e n t ou sur des tests qui ne sont pas perti- n e n t s , D-e telles r e c h e r c h e s j e t t e n t le d i s c r é d i t sur l'analyse sta- t i s t i q u e en g é n é r a l , C e r t a i n s n ' h é s i t e n t pas à parler de ''cancer de l a ' s t a t i s t i q u e " . . .

... Il m ' a s e m b l é qu'une m a n i è r e de procéder était de soumet- tre à l ' a n a l y s e s t a t i s t i q u e un texte é t u d i é de m a n i è r e t r a d i t i o n - n e l l e et d ' e x a m i n e r dans quelle m e s u r e les résultats obtenus p a r des m é t h o d e s qui n'ont rien à voir avec les études q u a n t i t a t i v e s seraient i n f i r m é s ou au c o n t r a i r e étayés par l'analyse s t a t i s t i q u e .

Mon p r o b l è m e é t a i t le suivant : je devais rééditer une oeuvre de Saint Bonaventure, les Collationes de septem donis Spiritus Sancti... ,"

E n bre:Ç, J. H a r n e s s e e x p l i q u e q u ' i l s'agit d ' u n o u v r a g e en 9 l i v r e s d o n t c h a c u n e s t u n s e r m o n . A p r è s u n e i n t r o d u c t i o n , viennent 7 l i v r e s c o n s a c r é s c h a c u n à l'un d e s d o n s du Saint E s p r i t . M a i s le s e r m o n s u r le d o n d e C o u r a g e est d o u b l é d ' u n livre 6 qui est u n e h o m é l i e e n l ' h o n n e u r d e la V i e r g e p r o n o n c é e le m ê m e jour (en la fê- t e d e l ' A n n o n c i a t i o n , le 25 m a r s 1 2 6 8 )

Le t a b l e a u 1 [ q u i i l l u s t r e l ' a r t i c l e ] présente dans l'ordre dé- c r o i s s a n t une liste d e s 5 0 lemmes ayant les écarts réduits positifs les plus i m p o r t a n t s dans le livre 6-Ces mots c o n s t i t u e n t vraiment le v o c a b u l a i r e s i g n i f i c a t i f et c a r a c t é r i s t i q u e du l i v r e . . . ce sont par e x e m p l e V I R G O , M U L I E R . PRETIUM e t c . . Mais un problème surgit i m m é d i a t e m e n t . . . c e r t a i n s [de c e s ] m o t s . . . présentent aussi un écart s i g n i f i c a t i f dans un ou p l u s i e u r s des autres l i v r e s . Comment peut- on dès lors a f f i r m e r que le livre 6 est d i f f é r e n t des autres et que l ' é t u d e s t a t i s t i q u e du v o c a b u l a i r e nous permet de dire que ce livre

(4)

10UVRAGE RECW] 123

ne peut pas appartenir à l'oeuvre étudiée. La méthode d'analyse par l'écart réduit qui convient très bien pour déterminer le vocabulai- re spécifique d'un livre, ne permet pas de déterminer les relations des différents livres entre eux...

L'analyse factorielle permet de décrire les relations qui exis- tent non seulement entre les mots d'un texte, mais aussi entre les chapitres d'une oeuvre. On arrivera donc ainsi à déterminer non seu- lement le vocabulaire spécifique de l'un ou l'autre chapitre, mais aussi à dégager les liens qui existent ou non entre les différentes parties de 1 ' oeuvre..."

Des résultats de l'analyse de correspondance nous noterons seu- lement ce qui suit.

".... L'axe 1 permet de trouver les deux grandes tendances de l'oeuvre : les livres 06 et 05 d'une part, les livres 04 et 08 d'au- tre part. L'examen des différents axes montre que 06 a un caractère tout à fait spécial. Il y a une très forte présomption qu'il appar- tienne à un autre ensemble de textes....

Et voici le mot de la fin :

"...Comme j'ai démontré cela par d'autres moyens, je peux dire que l'analyse statistique et l'analyse factorielle n'infirment abso- lument pas les conclusions auxquelles j'étais parvenue, mais qu'au contraire elles vont dans le même sens et qu'elles permettent d'é- tayer l'hypothèse de départ".

3 Le vocabulaire intellectuel français depuis 1789 ; par Etienne Brunet :

Cette contribution est la plus longue de l'ouvrage : pourtant, en 37 pages (dont 7 graphiques d'analyse de correspondance), l'au- teur n'offre qu'un aperçu de son livre : "Le vocabulaire français de 1789 à nos jours (Statkine, Genève-Paris, 1981, 1824 p a g e s ) . Com- me pour les deux contributions précédentes, nous aimons mieux citer que paraphraser ; mais sans pouvoir dans l'espace d'un compte ren- du suivre pas à pas la démarche de l'auteur qui lui même se résume!

"Point n'est besoin .... de présenter l'Institut de la langue française, où git un trésor fabuleux de 70 millions de mots"...

Plus particulièrement, on distinguera ici un "sous-corpus tech- nique, de près de 9 millions de mots" où "la philosophie se taille la part du lion"... sous-corpus "intellectuel " donc plutôt que technique.

"Considérons d'abord... la forme ou plutôt le volume du mot.

{dont la longueur va jusqu'à 32 en tenant compte des mots composés).

".., Nous avons mesuré cet espace, ou longueur moyenne du mot, dans l'ensemble du corpus et dans les sous-ensembles. Le mot est nette- ment plus volumineux dans la prose technique... L'analyse fine des classes de longueur (de 1 à 18) permet d'attribuer cet écart non à une moindre fréquence des mots courts (le genre technique au con- traire fait un usage intensif des mots grammaticaux qui ont moins de 4 lettres) mais à une plus grande indulgence à l'endroit des mots longs, comme l'indiquent les écarts largement positifs à partir de la classe de 1ongueur 8.

L'analyse factorielle... ne laisse aucun doute à ce sujet : les mots longs sont attirés vers la gauche du graphique au voisi- nage du discours intellectuel"

(5)

124 «f.P- BENZECRI

Ce premier exemple atteste la méthode de l'auteur : celui-ci fait divers calculs d'écarts, dans le cadre du modèle normal ; mais il recourt à l'analyse des correspondances pour avoir une vue d'en- semble. Ainsi sur l'axe 1, les classes de longueur 1 à 6 associées â Dialogue et Prose littéraire (suivis de poésie et soliloque) s'opposent aux classes 8 à 18, associées â Prose technique et Res- te ; mais la classe 1 est relativement proche de l'origine, ce qui correspond à l'affection remarquée du langage intellectuel pour les mots grammaticaux.

Comme deuxième exemple nous prendrons "les choix du discours intellectuel parmi les catégories" [Substantifs, adjectifs, adver- bes en ment , autres adverbes, verbes, divers participes...]. Ici encore l'auteur donne des écarts réduits et ajoute :

"L'analyse factorielle rend compte de ces faits avec clarté,"

tout en manifestant également l'opposition des personnes, alors même que personnels et possessifs ont été retirés de l'analyse"

[par quoi l'auteur fait allusion à la position extrême de Dialo- gue sur l'axe 1, à l'opposé de Technique et Reste]. Mais voici un troisième exemple.

"D'aucuns estimeront saugrenue l'idée de compter les 300 mil- lions de caractères de notre corpus et d'étudier la répartition des 37 variétés de lettres dans le temps et dans les genres. Or le hasard n'a point ici sa place, et sur les 74 écarts réduits....

Cl'auteur se borne aux fréquences de 37 lettres diversement accen- tuées é, è, ë, ê etc., dans les deux genres du Discours intellec- tuel et de la Prose littéraire] 1 seul n'est pas significatif au seuil de 5% et 68 laissent au hasard moins d'une chance sur un mil- 1i ard.. .

Les statisticiens comprendront i Les lexicologues seront charmés de voir le hasard perdre toutes ses chances. Peut-être vau- drait-il pourtant mieux dire, que si les deux sous-corpus étaient chacun engendrés par tiragesau sort successifs de lettres dans une urne, les deux' urnes parentes ne pourraient être que différentes.

De notre suspicion envers ces urnes nous n'avons jamais fait un se- cret! Cependant l'auteur poursuit avec finesse.

"On songe immédiatement à mettre en cause l'influence des mots fréquents (.,. "je" sur la lettre j ) . Or si l'on écarte les fré- quences élevées... les faits se maintiennent et les mêmes lettres n, q, p, s, x? o, é restent caractéristiques du genre technique ou intellectuel. Je livre à la perspicacité des spécialistes ces faits d'observation que l'analyse factorielle... met en évidence et dont l'interprétation peut laisser perplexe".

Sans être spécialiste nous n'hésiterons pas à avancer une in- terprétation : l'auteur a pu sans peine éliminer les mots les plus fréquents ; il n'a pas éliminé les morphèmes : préfixes ou suffixes ou désinences de haute fréquence, les lettres serviles dont la technique fait grand usage. Ce nous sera l'occasion de répéter qu'il faut compter non seulement des mots ou des formes, mais des morphèmes !

Citons seulement une analyse consacrée aux signes de ponctua- tion qui ne laisse au discours intellectuel qu'italiques et paren- thèses... Il faut toutefois prendre garde ici que l'analyse d'un tableau de contingence pris tel quel, ne compare que des profils : elle montrera e.g. que les " et les () sont relativement aux au- tres signes fréquents dans le discours intellectuel : mais quant â la fréquence absolue (rapportée à la longueur du texte) elle n'apparaîtrait que si par exemple on mettait dans une même analyse

(6)

[OUVRAGE REÇU] 125

le compte des lettres (cf. supra) et celui des autres signes. Au reste dans toutes ces analyses il vaudrait la peine d'avoir des tranches plus étroites que "prose littéraire" ou "soliloque" voire des oeuvres isolées : l'ensemble de celles-ci pouvant être adjoint en élément supplémentaire ou même constituer le tableau principal.Ces

éléments supplémentaires sont d'autant plus nécessaires que des entités telles que "prose littéraire", "prose technique" ou "soli- loque" n'ont aucune existence réelle ; l'ampleur monumentale des données, reflétée par des intervalles de confiance étroits issus d'un modèle d'urne illégitime, ne doit pas faire illusion ; il ne s'agit que d'agrégats en partie arbitraires ; seules existent ré- ellement les oeuvres individuelles ; mais l'auteur y vient lui- même.

" Pour mieux saisir les mouvements de l'histoire dans les pro- fondeurs du vocabulaire (et non plus à la surface"thématique des textes) nous avons fait appel une nouvelle fois à l'analyse facto- rielle".

Sur cette vision tout à fait agréable au spécialiste d'analy- se factorielle nous quitterons l'auteur ; en le félicitant de ses monumentales investigations ; non sans l'encourager à plus d'auda- ce encore ; et nous excuser d'avoir parfois malignement tiré quel- ques plumes à ses ailes.

IMPRIMERIE GAUTHIER-VILLARS, France

Dépôt légal 1983 - Imprimeur : 2549 Éditeur : 032 CCCP 57373 6151-83 BORDAS-Dunod 1983

avril 1983 Imprimé en France Le Directeur de la publication : J. M. BOURGOIS

Références

Documents relatifs

En proc´edant ainsi, chaque groupe pr´esente un facteur commun avec chacun des deux autres; ces facteurs communs ne sont pas forc´ement associ´es `a la mˆeme inertie d’un groupe

Analyse Factorielle Multiple pour groupes de Données Mixtes L’AFM usuelle permet de traiter simultanément des groupes de variables. quantitatifs ou qualitatifs (Escofier

Dans l’étude concernant les jus d’orange, un des objectifs est de les décrire au travers des deux aspects caractérisation et jugements hédoniques, en tenant

Nous avons considéré que les variables initiales étaient centrées; cette transformation conserve le centrage, par contre les nouvelles variables ne sont pas réduites

De même pour étudier les dépendances attachées à Z et détachées de Z on est amené à faire les analyses factorielles des correspondances des tables (b’) et

Comme application, on montre que l'analyse des correspondances peut être retrouvée, caractérisée et généralisée en pondérant des distances très élémentaires par les valeurs

1°) Entre les deux classes actuelles q et q', en lesquelles sont ré- partis les individus de I, peut-on dans E placer une cloison du type fixé (e.g. hyperplane : il est essentiel

Pour ´evaluer la m´ethode d’imputation dans ses diff´erentes variantes d´ecrite au paragraphe pr´ ec´edent, on utilise plusieurs ensembles de donn´ees r´eelles ou