R EVUE DE STATISTIQUE APPLIQUÉE
M. B ECUE
M.-K. D IALLO D. G RANGÉ L. H AEUSLER Y. L ECHEVALLIER
Y. M AJJAD
M. R INGENBACH
V. P ERES
F. S ERMIER
Enquête sur l’utilisation des logiciels de statistique. ASU 1992
Revue de statistique appliquée, tome 42, n
o3 (1994), p. 5-12
<http://www.numdam.org/item?id=RSA_1994__42_3_5_0>
© Société française de statistique, 1994, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
5
ENQUÊTE SUR L’UTILISATION DES LOGICIELS DE STATISTIQUE - ASU 1992 -
M.
Becue(1),
M.-K.Diallo(2),
D.Grangé(3),
L.Haeusler(4),
Y.Lechevallier(5),
Y.
Majjad(3),
M.Ringenbach(3),
V.Peres(4),
F.Sermier(6)
(1 )
Departament
d’Estadistica i investigacioOperativa,
Facultatd’Informatica
de Barcelona Universitat Politècnica deCatalunya,
clPauGargallo,
5 08028 Barcelona.(2) Université de
Conakry,
BP 1147Conakry,
Guinée.(3) Unité
Statistique
Centre de Calcul du CNRS, 23, rue du Loess, 67200Strasbourg.
(4) CISIA, 1, avenue Herbillon, 94160, Saint Mandé.
(5) INRIA,
Rocquencourt,
78153, LeChesnay.
(6) 9, rue
Sophie
Germain 75014 Paris.Rev.
Statistique Appliquée,
1994, XLII,RÉSUMÉ
En Mai 1992, le groupe
«Logiciels
etStatistique»
de l’ASU faisait uneenquête
pour connaîtrel’opinion
des utilisateurs delogiciels
destatistique.
416questionnaires
ont été obtenus et traités par un groupe de travail. Cet articleprésente
succinctement les résultatsqui
sontplus largement développés
dans «La Revue de Modulad»,n° Il, p
45-88,juin
93. Ce document estdisponible auprès
de DanielleGrangé,
CNUSC, 950 Rue de Saint-Priest, BP 7229, 34184Montpellier
Cedex 4.Mots-clés :
enquête, logiciels
destatistique, question
ouverte,thémascope.
SUMMARY
In
May
1992, the group«logiciels
etstatistiques»
from ASU sent aquestionnaire
tostatisticians as well as to users of statistics, to
enquire
about theiropinion
on statistical softwarethey
used. 416questionnaires
were retumed. This papergives
an abstract of results detailed in«La revue de Modulad», n° 11, p 45-88, June 93,INRIA.
Keywords : Sample Surveys,
StatisticalSoftware,
Interviews,ClusterAnalysis, Correspondence Analysis.
1. Contexte de
l’enquête
Dès sa
création,
en Janvier1992,
le groupe«Logiciels
etStatistique»
de l’ASUs’est intéressé à la
comparaison
delogiciels
destatistique.
Les travaux sont assez rares dans ce domaine ou commencent à dater. Plus nombreuses sont lespublications
commerciales mais celles-ci s’intéressent
plus
àl’aspect
convivial etinformatique
du
produit qu’à
son contenustatistique.
Auprintemps 1992,
le groupe«Logiciels
etStatistique»
décidait d’effectuer uneenquête auprès
des statisticiens et utilisateurs6 M. BECUE, M.-K. DIALLO, D. GRANGE, L. HAEUSLER, Y. LECHEVALLIER...
de
logiciels statistiques,
afin deconnaître,
d’unepart,
leslogiciels utilisés,
et d’autrepart, l’opinion
des utilisateurs sur ceslogiciels
etl’usage qui
en est fait.Le groupe «Constitution du
Questionnaire»
se mettait alors enplace.
Unedistribution de ce
questionnaire
a d’abord été effectuée aux XXIV èmesjournées
de l’ASU à Bruxelles en Mai
1992, puis
auCongrès
Distancia à Rennes en Juin 1992. Des sociétés ou clubs d’utilisateurs delogiciels (Addad, CISIA, Statgraphics,
S-Plus et
SAS/STAT)
ontaccepté
de faireparvenir
cequestionnaire
à leurs clients. Ce mode de diffusion est, bienévidemment,
lepoint
faible de cette étude et entraîneraun
important
biaisd’enquête
que nous retrouverons dans les résultats.416
questionnaires
étaient parvenus au 15septembre
1992. Les membres du groupe ontdécidé,
dans unpremier temps,
de travailler sur les données selon leur intérêt. Ils étaient libres du choix deslogiciels
et du matériel. Ce mode de travail s’est révélé très motivant et donc fructueux. Eneffet,
les membres du groupeprovenant
de divershorizons,
n’avaient pas le même intérêt pour ces données et ont eu desregards complémentaires.
2. Les
répondants
Les 416 personnes
qui
ontrépondu
auquestionnaire, proviennent
essentielle- mentd’organismes
de la recherche(44,5%),
del’enseignement (16%),
de l’industriepharmaceutique ( 11 %)
ou des conseils et services(10%).
Enconséquence
62% tra-vaillent dans des
organismes
deplus
de 500 personnes.Par contre,
parmi
ces 416répondants,
on trouve peu de chercheurs enstatistique (89).
Mais ils sontplus
nombreux(48%)
à utiliser l’outilstatistique
pour faire de la recherche dans un autre domaine. La moitié desrépondants
ont une activité de Conseils et Services alors que lesenseignants
sont assez rares dans cet échantillonpuisque
42% desrépondants
ont une activitéd’enseignement
occasionnelle et que pour 29% elle est inexistante ou nonrenseignée.
Parmi les
principaux
domainesd’activité,
larubrique
«recherche ouenseigne-
ment
scientifique»
vient nettement en tête(34%),
suivie demédecine, pharmacie, biologie (14%) puis
del’ agro-alimentaire (9%).
52% desrépondants
ont undiplôme
en
statistique qui
est essentiellement de niveau Bac + 5 .Parmi les personnes
qui
n’ont pas dediplôme
enstatistique,
64% ont uneformation en
statistique
inférieure à 2 ans. Mais l’ensemble desrépondants
utilise les méthodesstatistiques depuis
au moins 4 ans et en moyennedepuis
9 ans. 59% desrépondants
ont une autre formation oudiplôme.
Une très
large majorité
desrépondants
travaille dans un environnement micro PC. Moins nombreux sont ceuxqui
travaillent sur site central. 31 % utilisent deslogiciels qu’ils
ont réalisés et 38% deslogiciels
réalisés par ou pour leurentreprise.
Enfin 70% sont des hommes. Ils
peuvent
être décrits de lafaçon
suivante : defaçon significative,
on trouveplus
d’hommes que dans l’échantillonglobal
dans lesrubriques : préfèrent
travailler par menu, ne sont pas membres del’ASU, possèdent
unordinateur
personnel,
ne font paspartie
d’un clubd’utilisateurs,
utilisent souvent unMac,
font occasionnellement desstatistiques
nonparamétriques
et sontresponsables
du choix de leurs
logiciels.
ENQUÊTE
SUR L’ UTILISATION DES LOGICIELS DE STATISTIQUE 7Les femmes se trouvent en
proportion plus importante
que la moyenne dans lesrubriques
suivantes : membres del’ASU,
nepossèdent
pas d’ordinateurpersonnel
àdomicile, proviennent
de l’industriepharmaceutique,
utilisent très souvent les testsnon
paramétriques,
ont une formation Bac + 4 etparticipent
à un club d’utilisateurs.3. Les
logiciels
Dans la
première partie
duquestionnaire
il y avait lesquestions
ouvertessuivantes :
- «noms des
logiciels
commercialisés que vous utilisez»- «noms des
logiciels
dont vousdisposez
et que vous n’utilisezjamais
etpourquoi ?»
La deuxième
partie
demandait à l’utilisateur de décrire le mode d’utilisation et de donner sonopinion
sur les 3logiciels
commerciauxqu’il
utilise leplus
souvent.Dans cette
partie,
lerépondant indique
surquelle
machine il utilise lelogiciel.
Nous obtenons donc
plusieurs
bases de dénombrement desréponses :
- dans la
première partie
il a été cité 152logiciels différents ,
soit 1123 citations d’unlogiciel
utilisé(2,7 logiciels
utilisés parrépondant)
et 229 citations d’unlogiciel
inutilisé
(0,6 logiciels
inutilisés enmoyenne) :
- dans la deuxième
partie,
lesrépondants
ontrempli
888descriptions
delogiciels (2,1 logiciels
décrits parrépondant)
cequi,
en tenantcompte
des différentsmatériels,
donnait 1059 associations delogiciels
à untype
de machine(Mac, PC, station,
Miniou site
central).
- 26
logiciels
ont été citésplus
de 10 fois et seulement 5logiciels plus
de 50fois
(SAS, Addad, SPAD-SPADN,
Stat-ITCF etStatgraphics).
Mais lafréquence
de citation de tel ou tel
logiciel
est très liée au moded’enquête
et nepeut
êtregénéralisée.
Parmi leslogiciels
non utilisés maisachetés,
on a 6logiciels
citésplus de 10
fois. Il est intéressant de noter que le caractère ouvert de cettequestion
apermis l’apparition
delogiciels
que nous n’aurions sans doute pasproposés
apriori
dans une liste de
logiciels statistiques :
lestableurs, grapheurs
ougestionnaires
debases de données. Il est
plus
étonnant de voir Word cité 18 fois cequi
le met en11 ème
position
deslogiciels statistiques.
23,8%
desrépondants
ne citentqu’un
seullogiciel
commercial utilisé. Ils’agit
pour l’essentiel d’utilisateurs de SAS.
Enfin, lorsqu’on
étudie les citations deslogiciels
utilisés en relation avec leurrang
d’utilisation,
on trouve,parmi
leslogiciels
lesplus fréquemment cités,
SAS avecun rang moyen d’utilisation de
1,36.
Leslogiciels
SPAD.N etAddad,
avec un rangmoyen de
2,40, apparaissent
nettement comme deslogiciels
«decomplément».
8 M. BECUE, M. -K. DIALLO, D. GRANGE, L. HAEUSLER, Y. LECHEVALLIER...
4. Relations entre les
techniques,
leslogiciels
et les utilisateurs 4.1.Quels logiciels
pourquelles techniques ?
Chaque description
des troislogiciels
lesplus
utiliséscomprenait :
- les
techniques
utilisées par la personne dans celogiciel
- des éléments d’évaluation de la
qualité
de celogiciel
dans diversdomaines,
notamment
l’assistance,
la documentation et soninterfaçage
avec les autreslogiciels.
Pour
chaque utilisateur,
on a donc ladescription
de sa propre utilisation d’auplus
troislogiciels.
Pouranalyser
cetteinformation,
nous avons considéré commeunité
statistique
de base unedescription
delogiciel.,
soit au total 888descriptions
delogiciels.
Le tableau des
«descriptions
delogiciels»
a été soumis dans unpremier temps
àune
analyse
descorrespondances multiples,
les variables actives étant lestechniques
utilisées dans les
logiciels.
Dans un deuxièmetemps,
des classes ont été construitesregroupant
des utilisations delogiciels proches quant
auxtechniques employées.
plan factoriel (1, 2)
Sur le
plan
factoriel(1,2),
leslogiciels
utilisés ont étépositionnés
en élémentsillustratifs ainsi que le nombre de
techniques
utilisées danschaque logiciel
et lesclasses de
descriptions
de ceslogiciels.
Ces classes ont été construites àpartir
descoordonnées factorielles.
Le
premier
axe duplan
factoriel oppose leslogiciels qui
ne sont utilisés que pourune seule
technique,
à ceuxqui
sont utilisés pour une armada de méthodesdifférentes,
et essentiellement des
techniques
demodélisation,
modèlelog-linéaire,
contrôle deENQl ’ll
11- S ( ’R L’UTILISATION DES LOGICIELS DE STATISTIQUE 9qualité,
sériestemporelles, plan d’expérience. SAS, Statgraphics
etSystat
sont leslogiciels
les mieuxreprésentés
du côté de la modélisation et de la multi-utilisation.Le deuxième axe oppose
analyses
factorielles etclassifications, analyse
discriminanteet séries
chronologiques
aux autrestechniques.
4.2.
Qui
utilisequoi ?
La
première partie
duquestionnaire comprend
22questions portant
sur la connaissance de l’utilisateur : sonidentification,
ses activitésprofessionnelles
ouassociatives,
lestechniques statistiques,
l’environnementinformatique
et leslogiciels
utilisés.
Le thème
analysé
ici est le thème du traitementstatistique qui
contient les informations relatives aux méthodesstatistiques utilisées;
il est bâti sur laquestion
suivante :
«Quelles
sont lestechniques statistiques
que vous utilisez et avecquelle fréquence ?».
Q 12-1 statistiques descriptives Q 12-2 régressions
Q12-3 plan d’expérience Q12-4 analyse
de la varianceQ12-5
sérieschronologiques, prévision Q12-6
contrôle dequalité Q12-7 analyses
factorielles et classificationsQ12-8
tests nonparamétriques Q12-9 analyse
discriminanteQ12-10
modèlelog-linéaire,
survieLa variable associée à chacun de ces thèmes est une variable
qualitative ayant
les 5 modalités suivantes :«Jamais», «Occasionnellement», «Souvent»,
«TrèsSouvent»,
«Non
Réponse».
En
appliquant
une méthode de classificationautomatique
sur cesvariables,
nousavons retenu une
typologie
en 5 classes dont lesprincipales caractéristiques
sont lessuivantes :
- la classe la
plus importante
est caractérisée par lapolyvalence
des méthodesstatistiques
utilisées et ellereprésente
30% de lapopulation. Beaucoup
delogiciels
sont cités car les personnes de cette classe
pratiquent plus
de 7 méthodesstatistiques
différentes alors
qu’un logiciel,
en moyenne, ne couvre que 4types
detechniques statistiques.
Ceci montrequ’aucun logiciel
destatistique
n’est perçu comme universel par ces utilisateurs.- les autres classes de cette
partition
sontbeaucoup plus spécialisées.
Lesclasses associées à la
pratique
del’analyse factorielle,
de la classification et de la discrimination utilisent leslogiciels
SPAD.N et ADDAD. Les classes associées à lapratique
del’analyse
devariance,
desplans d’expérience,
des tests nonparamétriques
et des méthodes
log-linéaires
utilisent leslogiciels SAS, BMDP, Systat,
SPSS etStatgraphics.
Après
avoirregroupé
les modalités«Occasionnellement», «Souvent»,
«Très Souvent» en une seule modalité «Oui» nous avons réalisé une nouvelleAnalyse
Factorielle des
Correspondances.
Sur leplan
factoriel(2-3)
suivant nous avonsuniquement représenté
la modalité «Oui» de chacune desvariables,
les modalités10 M. BECUE, M.-K. DIALLO, D. GRANGE, L. HAEUSLER, Y. LECHEVALLIER...
Plan factoriel (2-3)
«Non
Réponse»
se trouvent au centre car elles caractérisent l’axe 1 de cetteanalyse.
Sur le
plan (2-3) apparaît
troisgrandes
familles de variables.La
première
famille se situe sur le deuxième axe factoriel et ellecomprend
lesvariables associées aux méthodes de
régression
et de sérieschronologiques.
La deuxième famille
représente
les méthodesd’analyse factorielle,
de classifi-cation,
de discrimination et lestechniques descriptives.
La troisième famille est
composée
des méthodesd’analyse
devariance,
desplans d’expérience,
des tests nonparamétriques
et des méthodeslog-linéaires.
En résumé les
techniques descriptives
et les méthodes derégression
sontutilisées dans toutes les
pratiques statistiques.
Les méthodesd’analyse factorielle,
de
classification,
de discrimination forment une famille de méthodes utilisées dans les secteurs de larecherche,
de l’assurance et de la médecine. L’autre famillereprésente
les méthodesd’analyse
devariance,
lesplans d’expérience,
les tests nonparamétriques
et les modèleslog-linéaires.
Ces méthodes sont surtout utilisées dans le secteur de l’industriepharmaceutique.
Lapratique
du contrôle dequalité
et desséries
chronologiques
est trèsponctuelle
et non liée à un secteur d’activité.5.
Qu’est
cequ’un
bonlogiciel
destatistique?
Après
avoir recueilli lesopinions
concernant lesqualités
et les défauts deslogiciels utilisés,
on a tenté de faires’exprimer
les souhaits desenquêtés
à travers unequestion
ouverte. Celle-ci était libellée de la manière suivante :«Dans ce
questionnaire,
vous vous êtesexprimé
sur le contenu deslogiciels
de
statistique
et leursqualités
ou défauts. Certainspoints importants
pour vous n’ontpeut
être pas étéévoqués.
Pouvez-vous conclure enexprimant
ce que serait pour vous, d’unefaçon générale,
un bonlogiciel
destatistique ?»
ENQUÊTE
SUR L’UTILISATION DES LOGICIELS DE STATISTIQUE 11Près de la moitié des
répondants
ont laissé cetteréponse
en blanc. Le corpus formé par les 216réponses exprimées,
a unelongueur
de 7376 mots et est formé par 294 mots distincts.La lecture de ce
glossaire,
enrichie de celle des concordances de nombreux mots,permet
dedégager
lesprincipaux
thèmes deréponse,
que nousprésentons
ci-dessous.Un
point important apparaît
être la documentation(53
citations de «documenta- tion» et 15 citations de «doc» dans les 216réponses),
avec une forte demande d’aidestatistique,
de documentation conçue comme une formation à lastatistique,
offrantune aide
méthodologique,
enparticulier
au moyend’exemples.
La documentation doit être de
qualité,
sipossible
enfrançais («français»
19citations).
Une aide enligne,
àl’écran,
estappréciée.
- Les méthodes
statistiques
sont souvent mentionnées(«méthodes»
est cité48
fois,
«méthode» 10 fois et «méthodesstatistiques»
15fois).
«Une bonne doc-umentation sur les méthodes» est
demandée,
contenantplus
d’information sur les méthodesemployées -
et éventuellement desprécisions
sur lesalgorithmes
mis enoeuvre pour les
implanter.
Certains demandent lapossibilité
d’effectuer desanaly-
ses
statistiques
nombreuses etdiversifiées,
et depouvoir, éventuellement,
utiliser les méthodes récentes.La convivialité
(«convivial», 21,
«convivialité»19, «simple»14, «facile»25,
«facilement»
11,
«facilité» 10 citationsrespectivement)
est un thème très récurrent.On recherche un
logiciel simple
àutiliser, convivial, d’apprentissage rapide
etfacile, qui
offre un traitement clair des erreurs.Des thèmes
plus secondaires,
mais néanmoins d’unefréquence
nonnégligeable
sont :
-La
présentation soignée
des sorties(«sorties»
28citations),
enparticulier
lapossibilité
de sortiesgraphiques («sorties graphiques»
10citations),
est recherchée.-La
possibilité
d’introduire ses propres programmes dans lelogiciel,
et deprogrammer des calculs
complémentaires
et/ou des enchaînementsspécifiques («programmation» 23,
«programmes» 11 citationsrespectivement)
est demandée.Il est intéressant de mettre en relation les
caractéristiques
des utilisateurs et les motsemployés
dans lesréponses.
Pourcela,
on réalise unetypologie
des utilisateurs enfonction de leur
profil personnel d’activité,
de leur formation enstatistique,
du nombred’années d’utilisation des méthodes
statistiques
et du nombre d’années d’utilisation d’au moins unlogiciel
destatistique.
Cette classification nouspermet
d’obtenir 6 classes : 3 classes destatisticiens,
2 classes d’utilisateurs non statisticiens et uneclasse de
non-réponses.
Classe 1 : Statisticiens peu
expérimentés,
conseil et industrie(19 %
desutilisateurs)
Classe 2 : Statisticiens
expérimentés,
conseil et industrie(17 % )
Classe 3 : Statisticiens
expérimentés,
recherche etenseignement (18%)
Classe 4 : Non
réponses (6 % )
Classe 5 : Non
statisticiens,
peuexpérimentés (15 % ) :
Classe 6 : Non statisticiens
expérimentés (25 % )
12 M. BECUE, M.-K. DIALLO, D. GRANGE, L. HAEUSLER, Y. LECHEVALLIER...
Puis a été réalisé une
analyse
factorielle sur le tableau decontingence
con-tenant la
fréquence d’apparition
des mots danschaque
classe. Unpremier
axe dedifférenciation des
réponses
est lié àl’expérience.
Les personnes nonexpérimentées
en
statistique
insistentdavantage
sur l’aide àl’écran,
les aides àl’interprétation
et laprésence d’exemples
dans la documentation. Les personnesexpérimentées
en statis-tique évoquent
la documentation debase,
laqualité
desméthodes,
et surtout les informations sur lestechniques
utilisées.Les statisticiens de la classe 2
(conseil/industrie) comparent
leslogiciels
etles utilisateurs :«... Il y a des
logiciels généraux
et deslogiciels spécialisés.
Unlogiciel peut
être bien s’il estspécialisé.
Il nepeut
pas y avoir delogiciel général, universel, qui
soit universellement bien...». Les statisticiens de l’industrie(classes
1et
2)
se montrent de manièregénérale
trèsexigeants : logiciel complet,
demanipulation simple, permettant
une bonnemanipulation
des fichiers.Au fur et à mesure
qu’augmente
le niveau de formation enstatistique,
la de-mande est
plus
focalisée sur les méthodesstatistiques
et leurimplantation.
Convivialité et meilleure documentation sont des thèmes abordés par tous, même si ce n’est pas exactement dans les même termes.6. Conclusion
Bien que cette étude ne
puisse
être considérée commereprésentative
de lasituation des
logiciels
destatistique
en France elle donnemalgré
tout des informations intéressantes surl’opinion
et lapratique
d’utilisateurs delogiciels
destatistiques.
L’ analyse
des deuxapproches
de l’utilisation destechniques statistiques,
l’unepar le choix des
méthodes,
l’autre par la sélection dulogiciel,
nouspermet
de définir troisgrandes
familles de méthodesstatistiques.
Cesfamilles,
se retrouvant aussi bien du côté des utilisateurs que du côté deslogiciels,
donnent une mesure de l’influence deslogiciels
sur laméthodologie employée
par les utilisateurs.Le traitement de la
question
ouverte montre que l’attente de l’utilisateur est trèsdépendante
de son niveau deformation,
de sapratique
desstatistiques
cequi
induiraainsi des