• Aucun résultat trouvé

PARTIE 1 : ETAT DE L’ART

1. Problématique de la recherche d’information dans des documents provenant d’un système de

1.2. Etude de Croft et al

Croft et al. [Croft, 1994] utilisent une simulation de modèle OCR pour étudier l’effet des incertitudes sur les systèmes de recherche d’information. Les résultats montrent que l’incertitude a un impact sur les documents courts.

De telles évaluations nécessitent une base de documents tests. De telles bases de documents restent rares et très coûteuses à mettre en place. De ce fait, pour ces expérimentations, la création de documents OCR s’effectue par l’ajout d’erreurs OCR aux documents corrects permettant ainsi une simulation de résultats OCR. Ce système permet de disposer d’une base de documents contenant à la fois les documents corrects et les documents OCR.

Dans un premier temps, ils étudient l’impact des erreurs produites par les systèmes OCR sur un système booléen de recherche d’information. Les sorties produites sur des données exactes ou sur des données provenant d’OCR s’avèrent sensiblement identiques.

Dans un second temps, ils reproduisent ces tests avec un système de recherche d’information fournissant un classement de documents en sortie.

1.2.1 Simulation de OCR

Les données utilisées pour la simulation nécessitent une étude préalable des taux d’erreurs des caractères et des mots pour une gamme de dispositifs et de logiciels OCR. Deux systèmes OCR1 et OCR2, respectivement le plus mauvais et le meilleur système OCR, servent à l’analyse. L’étude s’effectue en utilisant 460 pages de documents provenant de la base de documents test d’un département américain de l’Energie. Les taux d’erreurs sont regroupés par type de page, type de mot, et par longueur de page. Les pages se divisent en groupes de qualité basés sur le nombre d’erreurs OCR contenus (cf. Tableau I). Les résultats obtenus par les deux systèmes OCR1 et OCR2 se trouvent dans les deux colonnes de droite. Une page standard utilisée pour la simulation contient 1778 caractères.

Chapitre I. La recherche d’information dans un contexte incertain 20 Groupe de qualité de page Nombre de pages Nombre de caractères Exactitude OCR1 (%) Exactitude OCR2 (%) 1 80 165 110 98.8 99.9 2 77 163 019 96.7 99.0 3 85 162 367 93.1 98.3 4 96 163 176 85.5 96.7 5 122 164 274 62.1 88.3 Total 460 817 946

Tableau I. Groupes de qualité de pages définis pour simuler des taux d’erreurs OCR dans la performance de recherche de texte

La production des collections tests repose sur plusieurs hypothèses :

− Les statistiques reportées dans cette étude s’appliquent à tous les types de documents dans les collections utilisées.

− Les seuls facteurs de potentielles apparitions d’une erreur OCR dans un groupe particulier correspondent à la longueur et au type des mots (mots de l’anti-dictionnaire ou non).

− Toutes les erreurs OCR entraînent un mot corrompu non indexé par le système de recherche d’information. Or dans les systèmes OCR actuels, certains mots valides se transforment par erreur en d’autres mots valides.

− Toutes les erreurs OCR ont pour conséquence un mot corrompu jeté et non classé. Dans les systèmes OCR actuels, certains mots sont transformés par erreur en d’autres mots valides, par exemple le mot « tarmac » au lieu de « tomate ». Ce type d’erreur se simule difficilement.

Les cinq groupes de pages, représentant les différents niveaux de qualité de pages, se répartissent aléatoirement dans le texte en entrée durant le processus d’indexation. La taille constante des pages se détermine en divisant le nombre total de caractères dans l’ensemble de données par le nombre total de pages.

Un nombre déterminé aléatoirement entre 0 et 1, reflétant la probabilité d’erreur pour un mot en fonction de la longueur et du groupe de page, fournit la simulation des erreurs de mots OCR. Si le nombre se trouve dans la zone d’erreur, le mot n’est pas conservé, autrement le processus se déroule normalement.

1.2.2 Le corpus

L’étude pour la simulation OCR s’effectue sur quatre collections tests. Les collections sélectionnées représentent un ensemble de différentes sources, tailles de documents et de requêtes :

Chapitre I. La recherche d’information dans un contexte incertain

− CACM : des résumés d’informatique constituent cette collection de petite taille. Pendant de nombreuses années, elle sert de repère standard lors des expérimentations.

− NPL : des documents et des requêtes courts forment cette grande collection fréquemment utilisée dans diverses expérimentations de recherche d’information. − WEST : des longs documents de textes complets, d’informations légales et plus

spécifiquement de jurisprudence composent cette troisième collection.

− WSJ : parmi les quatre collections, ce sous-ensemble de la collection TIPSTER représente la plus grande collection contenant des documents de taille modérée et des articles intégraux du journal de Wall Street. Les requêtes de cette collection sont également les plus longues.

Le Tableau II décrit plus en détail les caractéristiques des collections.

Collection Taille de la

collection

Nombre moyen de mots par document

CACM 1 639 440 512

NPL 3 748 316 327

WEST 297 501 776 24 889

WSJ 279 249 494 2 828

Tableau II. Description des collections tests

1.2.3 Expérimentations

Les expérimentations s’effectuent en utilisant le système de recherche d’information probabiliste INQUERY développé à l’université du Massachusetts. Ce système possède un certain nombre de caractéristiques avancées et a réalisé d’excellents résultats aux évaluations TIPSTER et TREC [Harman, 1993].

De manière générale, on suppose que les erreurs OCR auront un plus gros impact sur les documents courts, puisque les documents longs ont plus d’information redondante. Cette intuition fait l’objet des tests des expérimentations.

Le Tableau III décrit les requêtes associées à ces collections. La caractéristique principale est la longueur importante des requêtes du journal de Wall Street. Les requêtes longues se révèlent une autre forme de redondance pouvant diminuer l’effet des erreurs OCR. De ce point de vue, la plus mauvaise combinaison de caractéristiques revient à la collection NPL formée de requêtes courtes et de documents courts. Nous soulignons, cependant, que le processus de génération d’erreurs s’applique uniquement aux textes des documents et pas aux requêtes.

Chapitre I. La recherche d’information dans un contexte incertain

22

Collection Nombre de

requêtes

Nombre de mots par requête Nombre moyen de mots par

requête

Min. Moy. Max.

CACM 50 2 14.24 49 13.0

NPL 93 3 7.26 12 7.1

WEST 34 5 11.05 20 9.6

WSJ 50 13 32.68 118 29.3

Tableau III. Statistiques sur l'ensemble des requêtes standard pour chacune des quatre collections utilisées pour évaluer les erreurs OCR sur la performance de recherche

1.2.4 Résumé des résultats

Le Tableau IV donne les résultats globaux des expérimentations en utilisant la précision moyenne pour tous les niveaux de rappel ainsi que l’écart entre les sorties OCR et les documents originaux.

Collection Précision moyenne

STD OCR1 OCR2

CACM 34.9 32.5 (-6.9%) 34.3 (-1.7%)

NPL 25.8 23.2 (-10.1%) 23.5 (-9.1%)

WEST 48.2 46.2 (-4.0%) 48.0 (-0.4%)

WSJ 39.9 38.1 (-4.5%) 39.3 (-1.5%)

Tableau IV. Performance de recherche pour les quatre collections tests standards montrant les effets de deux niveaux de taux d'erreurs OCR simulées.

Les résultats confirment que les documents les plus affectés par les erreurs OCR correspondent aux collections formées de documents courts et de requêtes courtes. NPL correspond à la collection ayant la plus grande dégradation en précision moyenne. Elle demeure également la seule collection où le meilleur système OCR (OCR2) cause une perte significative en précision comparée à la collection originale. La collection CACM, composée de beaucoup de documents courts, connaît la plus grande dégradation après NPL. La collection WEST, possédant des documents très grands, connaît la plus basse dégradation pour les deux systèmes OCR.

Ces résultats permettent de conclure que, généralement, l’utilisation du meilleur système OCR comme entrée d’un système de recherche de texte n’affecte pas significativement la performance de recherche pour une base de données composée de longs documents.

Chapitre I. La recherche d’information dans un contexte incertain

1.2.5 Conclusion

La prise en compte des caractères généralement confondus pas les dispositifs OCR pourrait améliorer les simulations précédemment décrites.

Toutefois, cette étude permet une conclusion essentielle : les documents courts, et a fortiori les requêtes courtes, affectent les performances de recherche d’un système de recherche d’information.

Documents relatifs