• Aucun résultat trouvé

Hood et Wilson (2003, p.604) mentionnent une étude de Burton (1998) quo indique sept pas pour extraire des informations d'une base de données dans la forme appropriée pour des analyses automatiques :

1. Raffiner la stratégie de recherche jusqu'à ce que des résultats satisfaisants soient obtenus ; 2. Télécharger les références (citations) dans le format le plus ample possible et le plus

explicite possible ;

3. Répéter les étapes ci dessus pour chaque base de données pertinente, en créant des archives de citations de chacune ;

4. Ajouter des champs vides ou manquants selon la nécessité de l'analyse (exemple : Année de publication, pays d'origine, langue) ;

5. Traduire les références pour un registre commun ; 6. Identifier les références (citations) dupliqués ; 7. Eliminer les références dupliquées moins complètes.

Un des outils qui s'adaptent le mieux a ces tâches listées par Hood et Wilson est le logiciel Infotrans, un outil puissant pour le nettoyage, intégration, reformatage et reconversion de bases de données en format ASCII sans limites de taille.

Le logiciel a des versions DOS/Windows et UNIX. Ses principaux attributs sont la reformatage et conversion de données ASCII entre plusieurs logiciels et systèmes. Il permet d'importer et d'exporter des bases en intégrant des bases externes à des systèmes et bases de données propriétaires d'une organisation. Il fait qui les bases "conversent" entre elles et assure le transfert de toutes les données quand il y a, dans les organisations, des fusions, des incorporations, des intégrations, des mises à jour ou un changement de systèmes opérationnels ou de systèmes d'administration de bases de données. Seulement ceux qui ont déjà passé par ces situations si communes aujourd'hui dans une organisation, savent combien ceci signifie en termes de temps et d'argent. Usuellement, sont utilisés, pour faire ces conversions et transferts, les fonctions macro des logiciels de traitement de texte ou des tableaux numériques, ce q'implique une grande complexité dans l'opération en plus du temps de programmation et de maintien ou encore rien n'est fait et ces informations utiles sont vite perdues par l'inaction.

Objectif et concept basique

Infotrans assume que les archives qui seront convertis/reformatés se composent d'un ou de plusieurs références (nouvelles), que chaque registre est composé d'un ou plus champs et que les champs sont rangés dans une séquence fixe. Chaque champ doit avoir un identificateur unique de champ, mais le contenu du champ peut avoir des tailles variées. Celui est son principe basique. Un nombre très grand d'archives, de formats différents, peut être traité ainsi. L'usager peut définir, comme meilleur le convenir, ce qu'il traitera comme registre, comme identificateur de champ et comme contenu de champ.

Il reformate des données extraites des bases de manière à les adapter à la lecture des logiciels de traitement automatique, normalise et intègre des données extraites de bases diverses, créa des nouveaux champs, avec des informations déjà existantes dans la base ou avec des données d'autres bases, reformate le contenu des champs pour éviter des erreurs, réunit des idées et concepts et par fin, normalise des noms d'auteurs e/ou d'institutions. Il exclut aussi des champs des informations non pertinentes pour l'analyse en question.

Caractéristiques

Selon le manuel du logiciel qui dévient un compagnon inséparable et nécessaire pour le débutant (IUK GmbH, 1995), l'Infotrans reconnaît des chaînes de caractères par le type de structure. Il permet de rencontrer et de substituer des chaînes de caractères par son texte intégral ou alors utiliser des chaînes de caractères identiques, mais composés selon la volonté du programmeur.

Celle est une de ces avantages. Les conversions peuvent être faites en tout le registre (nouvelle) ou en chaque champ d'un registre. L'objet d'une commande de conversion n'est pas un archive tout entier qu'est traité séquentiellement du début à la fin de l'archive, après chaque commande de "rencontrer et remplacer" - comme se passe avec un logiciel de traitement de texte - mais si un certain registre de la base ou même un certain champ de ce registre. Alors, les commandes de conversion sont définies à l'Infotrans avec beaucoup plus de précision et spécificité qu'aucun logiciel de traitement de texte. Ceci implique aussi en plus de rapidité et en commandes plus simples, même si le travail total de reformatage doit être divisé en plusieurs sous-pas.

Peuvent être faites aussi des substitutions entre champs. Transports de contenus d'un champ à d'autre ou de parties d'un champ à d'autre ou même pour un nouveau champ, qui sera crée et additionné au registre.

Il permet l'utilisation de listes de substitution. Le logiciel remplace des chaînes de caractères spécifiques (Ex. IN et FR) par textes préalablement classifiés en listes de correspondances (Ex. Anglais et Français). Très utile pour des abréviations, par exemple.

Tout le processus de conversion peut être suivi au moniteur. Chaque command de conversion est suivi de l'état "avant" la transformation jusqu'à l'état "après" la transformation. Ceci permet d'accompagner la conversion pas à pas, en donnant une ample transparence au processus. Quand tout fonctionne bien, en des grandes archives, il est possible d'utiliser l'Infotrans 32 bits, qu'utilise les avantages de la mémoire étendue pour traiter plus rapidement les conversions.

Autre ressource très utile est le contrôle des duplicata. En combinant des données de divers champs du registre, il est possible de créer des codes de contrôle pour identifier les duplicata, appelées dubcodes. Chaque code de contrôle du registre est ensuite comparé aux codes de contrôle de toutes les autres références. Les doublons ainsi identifiés, deux ou plusieures références sont effacés automatiquement ou manuellement et tout ce processus reste très bien documenté.

La construction des dubcodes

Quoniam (1999) signale que pour construire un bon dubcode il est nécessaire d'effectuer beaucoup d'expérimentation pour découvrir les meilleures clés. C'est un jeu éternel entre trouver "beaucoup de bruit", un dubcode laisse dans la base beaucoup de doublons et "silence", quand un dubcode retire de la base des références qui ne sont pas des doublons. La règle générale est plus le dubcode est petit, plus grand sera le nombre de références considérées égales. Ainsi, la plus grande charge de travail devient de trouver une manière de construire le dubcode en réduisant sa taille mais en conservant son efficience pour identifier les références doublées.

Le manuel de l'Infotrans (IUK, 1995, pp.1-16) insiste que le plus grand problème dans le contrôle des doublons n'est pas "la reconnaissance de références qui concordent entièrement mais, en son lieu, reconnaître les références qui sont seulement similaires mais que

représentent la même publication" (p.2). Deux références que sont plus au moins différentes mais qui font référence à un même objet doivent être attribuées

à un groupe de doublons. Si ceci n'e se passe pas, le résultat est une non-

identification. Deux ou plus références que diffèrent plus ou moins marquéement

un de l'autre mais qui représentent deux ou plus objets doivent être maintenus séparés. Si ceci ne se passe pas, le résultat est une identification incorrecte (p.2). L'IUK (1995) considère que

les dubcodes pour entreprises et adresses doivent être structurées d'une manière différente des dubcodes pour des bases de données de textes ou de patents (…) doivent être analysés la structure des références et les contenus des champs de la base de données dans laquelle les objets sont présentés (…) et déterminer, pour chaque base de données, un groupe de références déterminé parmi lesquels les éléments et données seront appropriés pour une claire identification des objets (p.2).

Elle recommande qui seulement les éléments des données qu'identifient clairement une caractéristique, laquelle est espérée, sera présente aussi dans les références qui seront comparés, doivent être choisis pour le dubcode. Cela étant, les meilleurs identificateurs d'un travail écrit sont son auteur et son titre. Autres items importants sont la date et le lieu de la publication et d'autres "éléments que présentent les caractéristiques citées de façon codifiée" (p.2), entre eux, l'ISBN ou l'ISSN. La manière suggérée pour créer le dubcode est en sélectionnant deux a quatre lettres des premières lettres des noms des auteurs, des mots du titre, deux derniers chiffres de l'année de publication et ainsi de suite. De la même manière, l'IUK (1995) soutienne que,

des segments de registre présents en toutes les références mais en lesquels l'expérience ait montré qu'ils varient en fonction de différences ou de normes d'indexation appliquées de manière inconsistante doivent être omises parce qu'ils vont résulter dans le non-identification des doublons (p3).