• Aucun résultat trouvé

Les sources d’information, la qualité des données et leur collecte

CHAPITRE 4 : QUELQUES PROPOSITIONS POUR UN SYSTEME D’INFORMATIONS

4.4. CREATION D’UN SYSTEME D’INFORMATIONS STRATEGIQUES BANCAIRE

4.4.2 Les sources d’information, la qualité des données et leur collecte

Dans cette partie, nous aborderons les différents types d’informations sources qui alimentent les entrepôts ainsi que le langage de normalisation des informations, que nous préconisons dans le cadre de la mise en place de l’entrepôt, ainsi que le concept de métas données avant d’évoquer le problème de la qualité des données et de leur collecte.

4.4.2.1 Les sources d’informations

Comme nous l’avions évoqué dans le cas du Big Data, les données destinées à l’alimentation de l’entrepôt de données peuvent avoir une origine très variée : communications électroniques, réseaux sociaux, courriers électroniques, transactions commerciales électroniques, historiques de navigation sur le web, données de géolocalisation, vidéos, photos, etc. Ces données proviennent généralement du système d’informations opérationnel existant ainsi que de différentes sources aussi bien internes qu’externes. Aussi, dans le cas d’une banque, ces informations proviennent essentiellement du référentiel client, des différentes applications internes à la banque, et

des bases de données externes généralement utilisées par le secteur bancaire (FIBEN, FCC, FICP, etc.).

En revanche, à la différence du Big Data, il nous parait judicieux de choisir et de structurer les informations que doit contenir notre entrepôt de données. Et, dans le cadre de notre étude sur la gestion du risque de crédit au sein des banques, nous choisirons de nous limiter aux trois (3) principaux types d’informations que sont les documents textuels, les tableaux et les bases de données, comme le préconisent les travaux de [Thiery, 2010] et [Nourrissier, 2004].

Les documents textuels

A l’heure actuelle, la majeure partie des documents numériques est produite par les applications de bureautique, et en particulier par les progiciels104 de traitement de texte comme Microsoft Word, WordPerfect, StarOffice ou OpenOffice pour les plus connus. Aussi, le document texte s’affranchit désormais du support papier en étant expédié en fichier joint dans un message électronique afin d’être lu par un destinataire qui pourrait choisir de le conserver tel quel sans jamais l’imprimer sur papier.

Ces progiciels de traitement de texte demeurent avant tout des outils d’édition destinés à concevoir des documents imprimés (lettres, curriculums vitae, rapports, etc.) et disposant pour ce faire de nombreuses fonctions de mise en forme et d’enrichissement typographique.

Et, l’échange d’un document textuel, d’une application à une autre, n’est souvent pas simple puisque son format doit être compatible avec le progiciel dans lequel il est ouvert. Le codage exclusif des formats propriétaires est fréquemment synonyme d’incompatibilité, car les outils de conversion sont peu nombreux et se limitent généralement à des documents créés à partir de progiciels de même type, ou bien conçus pour une même plateforme informatique.

Dans la pratique, un format peut s’appuyer sur un ou plusieurs formats de niveau inférieur ou adjacent. Il est généralement admis qu’un document ou un fichier se compose de quatre (4) éléments principaux qui peuvent être définis par un format unique ou des groupes de format : le contenu (c’est-à-dire le texte brut), la structure (ou l’organisation logique du texte), le contexte (qui peut être caractérisé par les métas données) et la mise en page (ou layout en anglais).

Selon les formats, la structure peut être conservée avec le contenu (c’est le cas de la mise en page encapsulée ou « embedded layout ») ou bien séparément.

Mis à part les données telles que le nom de l’auteur, la date d’édition et le nom du destinataire qui sont des données communes à tous les documents, chaque secteur

104Progiciel : Ensemble de programmes conçus pour être fournis à différents utilisateurs en vue d'une même application ou d'une même fonction. Source :

d’activité développe actuellement ses propres métas données, en fonction de l’exploitation qu’il entend faire de ses documents.

Nous reviendrons plus loin sur la normalisation de ces documents qui ne pourra se faire que progressivement, ainsi que sur le choix du format de normalisation que nous préconisons dans le cadre de notre démarche de conception d’un entrepôt dédié à la gestion du risque de crédit au sein des banques.

Les tableaux

Selon le Dictionnaire Larousse105, d’un point de vue informatique, un tableau se définit

comme un « ensemble structuré d’informations organisées séquentiellement dans la

mémoire d’un ordinateur, chaque élément étant repérable par son numéro d’ordre ou un indice » et, du point de vue mathématique comme un « ensemble d’éléments disposés selon des lignes et des colonnes ou, de façon équivalente, dans les cases d’un rectangle quadrillé ».

La notion de tableau permet de résoudre simplement le problème de la mémorisation de toute une série d’informations. Celles-ci peuvent être alors mémorisées les unes à côté des autres, et cela permet alors de programmer des traitements complexes dans lesquels le résultat dépend de toutes les données.

Les traitements des tableaux peuvent être élémentaires quand ils sont effectués dans l’ordre où sont rangées les informations. Ces traitements sont plus complexes quand il est nécessaire de trier au préalable les informations ou bien quand il s’agit de les consulter dans un ordre différent de celui de leur rangement.

Les tableurs, qui sont les principaux logiciels de traitement des tableaux, permettent non seulement de traiter des informations numériques, mais aussi des données avec des fonctions logiques, de créer des bases de données d’où l’on peut extraire des fiches en suivant certains critères préalablement définis, de fabriquer des fonctions logiques complexes avec des macro-commandes, ou encore de nommer des champs de cellules et de travailler directement en utilisant ceux-ci comme des entités calculables.

Souvent, la création d’un tableau de chiffres ne constitue pas une fin en soi, son passage à une représentation graphique est non seulement nécessaire mais indispensable. Cette représentation graphique est quantitative car elle prend sa source dans les données du tableau. Elle constitue également le lien, l’élément ou le support visuel permettant de communiquer un travail réalisé à des destinataires d’origines et de fonctions différentes : collègues du même département, décisionnaires, clients, fournisseurs, Direction, grand public, etc.

Et, de manière générale, il est plus complexe de mémoriser deux chiffres pour comparer que de mémoriser un rapport de formes géographiques.

Les tableaux possèdent donc deux (2) fonctions principales : ils servent d’instrument d’analyse et d’outil de communication.

Les bases de données

Une base de données se présente comme une collection de données logiquement cohérentes avec une certaine signification inhérente. Elle est conçue, construite et alimentée avec des données dans un but spécifique. Elle a un groupe prévu d’utilisateurs, et quelques applications prédéfinies intéressant ses utilisateurs.

[Delobel & Adiba, 1982] précise même qu’une base de données est « un ensemble

structuré de données enregistré sur des supports accessibles par l’ordinateur pour satisfaire simultanément plusieurs utilisateurs de façon sélective et en un temps opportun ».

Le logiciel qui permet à un utilisateur d’interagir avec une base de données est un

système de gestion de base de données ou SGBD106. Il permet principalement d’organiser

les données sur les supports périphériques, et fournit les procédures de recherche et de sélection de ces mêmes données. Pour aboutir à ce résultat, l’utilisateur décrit en termes abstraits ce qu’il souhaite faire sur les données, laissant le soin au système d’effectuer les tâches de recherche en fonction de la représentation et de l’organisation des données sur les supports physiques. Les SGBD actuels sont dits relationnels.

Pour normaliser les différents documents présentés ci-dessus destinés à alimenter l’entrepôt de données, il faut choisir le langage approprié : ce sera, pour nous ici et de manière générale également, le langage XML.

XML qui signifie « eXtensible Markup Language », soit « langage à balises extensible » en français, est un langage informatique permettant de mettre en forme des documents grâce à des balises (ou « markup »). Dans un fichier XML, chaque élément (paragraphe, titre, formule mathématique, figure ou fichier multimédia) est « étiqueté », c’est-à-dire qualifié ou décrit, selon sa nature. Par conséquent « une application peut reconnaitre, parmi ces éléments, ceux qu’elle sait traiter, et les utiliser à sa façon. Grâce à XML, la structure du fichier est parfaitement mise en évidence, indépendamment des formes ou de l’habillage que l’on souhaite donner au contenu. Aussi, la norme XML n’établit pas une liste prédéfinie d’étiquettes, mais standardise la manière d’en créer selon les besoins pour chaque type de données »107.

XML est avant tout un format d’échanges et de normalisation. Il permet d’avoir un seul langage et un seul format de description quelle que soit la source de données. Le format unifié XML aide à donner du sens aux données et permet de réaliser des programmes

106 Un SGBD ou Système de Gestion de Base de Données est un logiciel qui permet de stocker des informations dans une base de données et de les manipuler (lecture, écriture, modification, tri, transformation, impression). Les SGBD les plus connus sont ORACLE Database, MySQL, PostgreSQL, Microsoft SQL Server ou Microsoft Access.