Lire des fichiers de base de données - Guide de l utilisateur du Système central IBM SPSS Stati

Vous pouvez lire des données à partir de n’importe quel format de base de données pour laquelle vous avez un pilote adapté. En mode d’analyse locale, les pilotes nécessaires doivent être installés sur votre ordinateur local. En mode d’analyse distribuée (disponible avec le serveur IBM®

SPSS® Statistics), les pilotes doivent être installés sur le serveur distant.Pour plus d'informations, reportez-vous à la section Mode d’analyse distribuée dans le chapitre 4 sur p. 71.

Remarque : Si vous utilisez la version Windows 64 bits de SPSS Statistics, vous ne pouvez pas lire des sources de bases de données Excel, Access ou dBASE, même si elles s’affichent dans la liste des sources de bases de données disponibles. Les pilotes ODBC 32 bits de ces produits ne sont pas compatibles.

Lire des fichiers de base de données

E A partir des menus, sélectionnez :

Fichier > Ouvrir la base de données > Nouvelle requête...

E Sélectionnez la source des données.

E Si nécessaire (selon la source de données), sélectionnez le fichier de base de données et/ou entrez un nom de connexion, un mot de passe et d’autres informations.

E Sélectionnez la (les) table(s) et les champs. Pour les sources de données OLE DB (disponibles uniquement sous les systèmes d’exploitation Windows), vous ne pouvez sélectionner qu’un tableau.

E Spécifiez toute relation existante entre vos tableaux.

E Eventuellement :

 Spécifier les critères éventuels de sélection de vos données.

 Ajouter une invite pour que l’utilisateur puisse y entrer un paramètre de requête.

 Enregistrer la requête que vous avez créée avant de l’exécuter.

Pour modifier une requête de base de données enregistrée

E A partir des menus, sélectionnez :

Fichier > Ouvrir la base de données > Modifier requête...

E Sélectionnez le fichier requête (*.spq) à modifier.

E Suivez les instructions de création d’une nouvelle requête.

Pour lire des fichiers de base de données avec des requêtes enregistrées

E A partir des menus, sélectionnez :

Fichier > Ouvrir la base de données > Exécuter requête...

E Sélectionnez le fichier requête (*.spq) à exécuter.

E Si nécessaire (en fonction du fichier de base de données), entrez un nom de connexion et un mot de passe.

E Si la requête a une invite imbriquée, vous pourrez avoir besoin d’entrer d’autres informations (par exemple, le trimestre pour lequel vous voulez récupérer les chiffres de ventes).

Sélection d’une source de données

Dans le premier écran de l’assistant de base de données, sélectionnez le type de source de données à lire.

Sources de données ODBC

Si vous n’avez pas de sources de données ODBC configurées ou si vous voulez ajouter une nouvelle source de données, cliquez surAjouter source données ODBC.

 Sur les systèmes d’exploitation Linux, ce bouton n’est pas disponible. Les sources de données ODBC sont spécifiées dansodbc.ini, et les variables d’environnementODBCINIdoivent être paramétrées sur l’emplacement de ce fichier. Pour plus d’informations, reportez-vous à la documentation relative à vos pilotes de base de données.

 En mode d’analyse distribuée (disponible avec le serveur IBM® SPSS® Statistics), ce bouton n’est pas disponible. Pour ajouter des sources de données en mode d’analyse distribuée, consultez votre administrateur système.

Une source de données ODBC est composée de deux principaux éléments d’informations : Le pilote qui sera utilisé pour accéder aux données et l’emplacement de la base de données à laquelle vous souhaitez accéder. Pour spécifier des sources de données, vous devez installer les pilotes appropriés. Des pilotes fonctionnant avec plusieurs formats de bases de données sont inclus dans le support d’installation.

Figure 3-1

Assistant de base de données

Sources de données OLE DB

Pour avoir accès aux sources de données OLE DB (disponible uniquement sur les systèmes d’exploitation Microsoft Windows), vous devez avoir les éléments suivants installés :

 .NET framework. Pour obtenir la dernière version de .NET framework; rendez-vous à l’adressehttp://www.microsoft.com/net.

 IBM® SPSS® Data Collection Survey Reporter Developer Kit. Pour plus d’informations concernant l’obtention une version compatible de SPSS Survey Reporter Developer Kit, rendez vous sur le sitewww.ibm.com/support (http://www.ibm.com/support).

Les restrictions suivantes s’appliquent aux sources de données OLE DB :

 Les jointures de tables ne sont pas disponibles pour les sources de données OLE DB. Vous ne pouvez lire qu’une table à la fois.

 Vous ne pouvez ajouter des sources de données OLE DB qu’en mode d’analyse locale.

Pour ajouter des sources de données OLE DB en mode d’analyse distribuée sur un serveur Windows, consultez votre administrateur système.

 En mode d’analyse distribuée (disponible avec SPSS Statistics Server), les sources de données OLE DB ne sont disponibles que sur des serveurs Windows ; .NET ainsi que SPSS Survey Reporter Developer Kit doivent être installés sur le serveur.

Figure 3-2

Assistant de base de données avec accès aux sources de données OLE DB

Pour ajouter une source de données OLE DB : E Cliquez surAjouter source données OLE DB.

E Dans la boîte de dialogue Propriétés du liens de données, cliquez sur l’ongletFournisseuret sélectionnez le fournisseur OLE DB.

E Cliquez surSuivantou cliquez sur l’ongletConnexion.

E Sélectionnez la base de données en entrant l’emplacement du répertoire et le nom de la base de données ou en cliquant sur le bouton pour accéder à la base de données. (Un nom d’utilisateur et un mot de passe peuvent vous être demandés.)

E Cliquez surOKaprès avoir saisi les informations nécessaires. (Vous pouvez vérifier que la base de données indiquée est bien disponible en cliquant sur le boutonTester la connexion.)

E Entrez un nom pour les informations de connexion à la base de données. (Ce nom s’affichera dans la liste des sources de données OLE DB disponibles.)

Figure 3-3

Boîte de dialogue Enregistrer les informations de connexion OLE DB en tant que

E Cliquez surOK.

Cette opération vous renvoie au premier écran de l’assistant de base de données sur lequel vous pouvez ensuite sélectionner le nom enregistré à partir de la liste des sources de données OLE DB puis passer à l’étape suivante de l’assistant.

Suppression des sources de données OLE DB

Pour supprimer le nom de certaines sources de données de la liste qui répertorie les sources OLE DB, supprimez le fichier UDL comportant le nom de la source de données dans : [lecteur]:\Documents and Settings\[nom d’utilisateur]\Local Settings\Application Data\SPSS\UDL

Sélectionner des champs de données

L’étape Sélectionner des données contrôle les tableaux et les champs lus. Les champs base de données (colonnes) sont lus comme des variables.

Si une table comporte un ou plusieurs champs sélectionnés, tous ses champs seront visibles dans les fenêtres de l’Assistant de base de données suivantes, mais seuls les champs sélectionnés dans cette boîte de dialogue seront importés comme variables. Cela vous permet de créer des jointures de tableaux et de spécifier les critères d’utilisation des champs que vous n’importez pas.

Figure 3-4

Assistant de base de données, sélection de données

Affichage des noms de champs. Pour lister les champs dans une table, cliquez sur le signe « plus

» (+) à gauche du nom d’une table. Pour masquer les champs, cliquez sur le signe moins (–) à gauche du nom d’un tableau.

Pour ajouter un champ :Double-cliquez sur un champ de la liste des tableaux disponibles ou faites-le glisser dans les champs Extraction de cette liste de commandes. Les champs peuvent être rangés de nouveau en les glissant et en les laissant dans la liste des champs.

Pour retirer un champ :Double-cliquez sur n’importe quel champ Extraction de cette liste de commandes ou faites-le glisser jusqu’à la liste des tableaux disponibles.

Trier les noms de champs. Si cette case est cochée, l’assistant de base de données affiche les champs disponibles dans l’ordre alphabétique.

Par défaut, la liste des tableaux disponibles affiche uniquement les tableaux de base de données standard. Vous pouvez contrôler le type d’éléments affichés dans la liste :

 Tableaux.Tableaux de base de données standard.

 Vues.Les vues sont des « tableaux » virtuels ou dynamiques définis par des requêtes. Il peut s’agir de la jointure de plusieurs tableaux et/ou champs issus de calculs basés sur la valeur d’autres champs.

 Synonymes. Un synonyme est l’alias d’un tableau ou d’une vue, généralement défini par une requête.

 Tableaux systèmeLes tableaux système définissent les propriétés des bases de données. Dans certains cas, les tableaux de base de données standard peuvent être classés comme tables système et ne sont affichés que si vous sélectionnez cette option. L’accès aux tables système proprement dites est généralement réservé aux administrateurs de base de données.

Remarque: Pour les sources de données OLE DB (disponibles uniquement sous les systèmes d’exploitation Windows), vous ne pouvez sélectionner les champs qu’à partir d’un seul tableau.

Les jointures de tableaux multiples ne sont pas prises en charge par les sources de données OLE DB.

Créer une relation entre des tableaux

L’étape Spécifier les relations vous permet de définir les relations existant entre les tableaux pour les sources de données ODBC. Si les champs de plus d’un tableau sont sélectionnés, vous devez définir au moins une jointure.

Figure 3-5

Assistant de base de données, spécification des relations

Etablir des relations : Pour créer une relation, faites glisser un champ de n’importe quel tableau vers le champ auquel vous souhaitez le lier. L’Assistant de base de données tire untrait de jointureentre les deux champs pour indiquer leur relation. Ces champs doivent être du même type de données.

Jointure automatique de tableaux :Essaie de joindre automatiquement deux tableaux d’après les clés primaire/étrangère, ou de mettre en correspondance le nom des champs et le type de données.

Type de jointure. Si votre pilote prend en charge les jointures externes, vous pouvez spécifier soit des jointures internes, soit des jointures externes gauches ou droites.

 Jointures internes :Une jointure interne n’inclut que les lignes dont les champs reliés sont égaux. Dans cet exemple, toutes les lignes dont les valeurs ID sont identiques dans les deux tableaux seront inclues.

 Jointures externes : En plus des jointures internes dont les lignes correspondent une à une, vous pouvez également fusionner les tables à l’aide du système de correspondance une ligne vers plusieurs en utilisant les jointures externes. Vous pouvez, par exemple, fusionner un

tableau contenant quelques enregistrements seulement et représentant des valeurs de données et des étiquettes descriptives associées avec les valeurs d’un tableau contenant des centaines ou des milliers d’enregistrements représentant des personnes interrogées. Une jointure externe gauche inclut tous les enregistrements du tableau de gauche et seulement les enregistrements du tableau de droite dont les champs reliés sont égaux. Dans une jointure externe droite, la jointure importe tous les enregistrements de la table de droite et seulement les enregistrements de la table de gauche dont les champs reliés sont égaux.

Limiter les observations récupérées

L’étape Limiter les observations récupérées vous permet de spécifier les critères pour sélectionner des sous-groupes d’observations (lignes). Limiter les observations consiste généralement à remplir la grille de critères avec un ou plusieurs critères. Les critères consistent en deux expressions et des relations entre elles. Celles-ci renvoient la valeurTrue,Falseoumissingpour chaque observation.

 Si le résultat estvrai, l’observation est sélectionnée.

 Si le résultat estfauxoumanquant, l’observation n’est pas sélectionnée.

 La plupart des critères utilisent un ou plusieurs des six opérateurs relationnels (<, >, <=, >=,

= et <>).

 Les expressions conditionnelles peuvent inclure des noms de champs, des constantes, des opérateurs arithmétiques, des fonctions numériques et autres, des variables logiques et des opérateurs relationnels. Vous pouvez utiliser des champs que vous ne prévoyez pas d’importer comme variables.

Figure 3-6

Assistant de base de données, limitation du nombre d’observations récupérées

Pour établir vos critères, vous avez besoin d’au moins deux expressions et d’une relation les connectant.

E Pour construire une expression, choisissez l’une des méthodes suivantes :

 Dans une cellule Expression, vous pouvez taper les noms de champs, constantes, opérateur arithmétiques, fonctions numériques et autres fonctions ou variables logiques.

 Double-cliquez sur le champ dans la liste des champs.

 Faites glisser le champ de la liste jusqu’à une cellule Expression.

 Sélectionnez un champ dans le menu déroulant de n’importe quelle cellule Expression active.

E Pour choisir l’opérateur relationnel (comme = or >), placez votre curseur dans la cellule Relation et saisissez l’opérateur ou sélectionnez-le dans le menu déroulant.

Si le code SQL contient des clausesWHEREavec des expressions concernant la sélection des observations, les dates et les heures employées dans ces expressions doivent être indiquées de manière spécifique (y compris les accolades utilisées dans les exemples) :

 Les littéraux de date doivent être spécifiés dans le format général{d 'aaaa-mm-jj'}.

 Les littéraux d’heure doivent être spécifiés dans le format général{h 'hh:mm:ss'}.

 Les littéraux de date/d’heure (horodatages) doivent être spécifiés dans le format général {hd 'aaaa-mm-jj hh:mm:ss'}.

 La valeur complète de date et/ou d’heure doit être placée entre apostrophes. Les années doivent comporter quatre chiffres, et les dates et heures doivent en comporter deux pour chaque partie de la valeur. Par exemple, le 1er janvier 2005, 1:05 sera exprimé comme suit : {hd '2005-01-01 01:05:00'}

Fonctions :Une sélection de fonctions SQL intégrées (arithmétique, logique, chaîne, date et heure) est fournie. Vous pouvez glisser une fonction de la liste dans une expression ou entrer n’importe quelle fonction SQL valide. Consultez votre documentation sur les bases de données pour les fonctions SQL valides. Une liste des fonctions standard est disponible dans :

http://msdn2.microsoft.com/en-us/library/ms711813.aspx

Utiliser échantillon aléatoire.Cette option sélectionne un échantillon aléatoire d’observations dans la source de données. Pour les sources de données volumineuses, vous pouvez limiter le nombre d’observations à un échantillon restreint et représentatif afin de réduire la durée d’exécution des procédures. L’échantillonnage aléatoire natif, s’il est disponible pour la source de données, est plus rapide que l’échantillonnage aléatoire de IBM® SPSS® Statistics ; en effet, SPSS Statistics doit lire la totalité de la source de données pour extraire un échantillon aléatoire.

 Environ. Génère un échantillon aléatoire d'observations dont le nombre correspond approximativement au pourcentage d'observations indiqué. Comme cette routine génère une décision indépendante pseudo-aléatoire pour chaque observation, le pourcentage d'observations sélectionnées peut seulement approcher le pourcentage spécifié. Plus il y a d'observations dans le fichier de données, plus le pourcentage des observations sélectionnées sera proche de la valeur indiquée.

 Exactement.Sélectionne un échantillon aléatoire du nombre d'observations spécifié dans le nombre total d'observations indiqué. Si le nombre total d'observations spécifié est supérieur au nombre total d'observations dans le fichier de données, l'échantillon contiendra proportionnellement moins d'observations que le nombre demandé.

Remarque: Si vous utilisez l’échantillonnage aléatoire, la fonction d’agrégation (disponible en mode distribué avec le serveur SPSS Statistics) n’est pas disponible.

Demander une valeur.Vous pouvez imbriquer une invite dans votre requête pour créer unerequête de paramètre. Lorsque les utilisateurs utilisent la requête, il leur est demandé d’entrer des informations (en fonction de ce qui est précisé ici). Cette méthode peut s’avérer utile lorsque vous avez besoin par exemple de voir différents affichages des mêmes données. Par exemple, vous voulez exécuter la même requête pour voir les chiffres de ventes des différents trimestres fiscaux.

E Placez votre curseur dans une cellule Expression et cliquez surDemander une valeurpour créer une invite.

Créer une requête de paramètre

Utilisez l’étape Demander une valeur pour créer une boîte de dialogue sollicitant des informations auprès des utilisateurs chaque fois que quelqu’un exécute votre requête. Cette fonctionnalité est utile si vous souhaitez effectuer une requête sur les mêmes sources de données en utilisant des critères différents.

Figure 3-7

Demander une valeur

Pour établir une invite, entrez une chaîne d’invite et une valeur par défaut. La chaîne d’invite est affichée chaque fois qu’un utilisateur exécute votre requête. La chaîne doit indiquer le type d’informations à entrer. Si l’utilisateur n’utilise pas de liste pour effectuer sa sélection, la chaîne doit indiquer la syntaxe de la saisie. Voir l’exemple comme suit :Entrez un trimestre (T1, T2, T3, ...). Autoriser l’utilisateur à sélectionner une valeur dans la liste. Si la case est cochée, vous pouvez limiter l’accès de l’utilisateur aux valeurs que vous avez placées dans la liste. Assurez-vous de séparer les valeurs par des retours chariot.

Type de données :Choisissez ici le type de données (Nombre,ChaîneouDate).

Le résultat final ressemble à ceci : Figure 3-8

Invite définie par l’utilisateur

Agrégation de données

Si vous êtes en mode distribué et connecté à un serveur distant (disponible avec IBM® SPSS®

Statistics Server), vous pouvez agréger les données avant de les lire dans IBM® SPSS® Statistics.

Figure 3-9

Assistant de base de données, agrégation de données

Il est également possible d’ajouter des données après les avoir lues dans SPSS Statistics mais, si l’agrégation a lieu avant la lecture, vous pouvez gagner du temps pour les sources de données volumineuses.

E Sélectionnez un ou plusieurs critères d’agrégation qui définissent la façon dont les observations sont groupées pour créer des données agrégées.

E Sélectionnez une ou plusieurs variables agrégées.

E Sélectionnez une fonction d’agrégation pour chaque variable d’agrégation.

E Vous pouvez également créer une variable qui contienne le nombre d’observations dans chaque agrégat.

Remarque: Si vous utilisez l’échantillonnage aléatoire SPSS Statistics, la fonction d’agrégation n’est pas disponible.

Définition de variables

Noms de variables et étiquettes :La totalité du nom de champ de la base de données (colonne) est utilisée en tant qu’étiquette de variable. A moins que vous ne modifiez le nom de variable, l’Assistant de base de données affecte des noms de variables à chaque colonne à partir de la base de données de l’une des manières suivantes :

 Si le nom du champ de la base de données constitue un nom unique et valide de variable, il est utilisé comme nom de variable.

 Si le nom du champ de la base de données ne constitue pas un champ unique et valide de variable, un nom unique est automatiquement créé.

Cliquez sur n’importe quelle cellule pour modifier le nom de variable.

Conversion des chaînes en valeurs numériques. Cochez la caseRecoder en numériqued’une variable chaîne pour la convertir automatiquement en variable numérique. Les valeurs de chaîne sont converties en valeurs entières consécutives dans l’ordre alphabétique des valeurs d’origine.

Les valeurs d’origine sont conservées comme étiquettes de valeurs pour les nouvelles variables.

Largeur des champs de chaînes à largeur variable. Détermine la largeur des valeurs chaîne à largeur variable. Par défaut, la largeur est de 255 octets. Seuls les 255 premiers octets (en général, 255 caractères dans les langues sur un octet) sont lus. La largeur peut s’élever jusqu’à 32 767 octets. Bien que vous ne souhaitiez probablement pas tronquer les valeurs chaîne, vous ne voulez pas non plus spécifier une valeur importante superflue, car des valeurs trop élevées rendent le traitement inefficace.

Réduire les largeurs de chaîne en fonction des valeurs observées. Cette option définit

automatiquement la largeur de chaque variable chaîne en fonction de la valeur observée la plus longue.

Figure 3-10

Assistant de base de données, définition de variables

Tri des observations

Si vous êtes en mode distribué et connecté à un serveur distant (disponible avec le serveur IBM®

SPSS® Statistics), vous pouvez trier les données avant de les lire dans IBM® SPSS® Statistics.

Dans le document Guide de l utilisateur du Système central IBM SPSS Statistics 20 (Page 36-52)