• Aucun résultat trouvé

La tâche d’enrichissement des contenus de l’AFP en métadonnées s’inscrit dans un environne- ment de travail et de production existant sur lequel repose l’efficacité du travail des agenciers. L’amélioration qu’il s’agit d’apporter en termes d’exploitation et de valorisation par cet enrichis-

7. Projet Glocal (http://www.glocal-project.eu/) achevé le 31 décembre 2013

8. Le 5W, réduit ici au 4W, où la question why (pourquoi) n’est pas considérée. La question how (comment) est parfois ajoutée au 5W. Ce concept est plus généralement présent dans les processus d’analyse d’événement, à visée pédagogique, d’investigation ou de recherche. On en trouve diverses formulations chez des auteurs anciens (Hermagoras de Temnos, Cicéron) ou chez Rudyard Kipling dans Just so Stories, 1902.

3. Cas d’utilisation AFP 143

Figure 4.10 : Projet Glocal : formulaire de recherche.

sement doit donc être réalisée grâce à des outils et ressources intégrées à cet environnement, en cohérence avec ses caractéristiques essentielles.

Intégration aux CMS existants La chaîne de production de l’AFP repose sur l’usage d’une

console de rédaction, apparentée aux CMS (content management systems évoqués précédemment. Les métadonnées d’ordre fonctionnel — date, langue, statut de publication... — ainsi que les in- formations de catégorisation thématique — slugs et sujets IPTC — sont ajoutées aux dépêches via cette console. Des CMS équivalents sont utilisés dans les autres silos de production, notamment pour la transmission de documents photographiques. Dans la perspective d’un enrichissement en métadonnées portant sur les contenus, les fonctionnalités correspondantes doivent faire l’objet d’un développement afin d’être intégrées à ces CMS et manipulées par les journalistes lors de la production. Dans un contexte d’enrichissement manuel, il s’agit de fonctionnalités de sélec- tion des segments textuels donnant lieu à des métadonnées, ainsi que d’accès à la ressource correspondante, comprenant le modèle de définition et les éléments à même de constituer des métadonnées. L’enrichissement envisagé comme une tâche automatique ou semi-automatique doit quant à lui donner lieu à une fonctionnalité d’appel par le journaliste sur un contenu donné, ainsi qu’à un rendu visuel des résultats et de métadonnées proposées.

Intervention humaine L’intégration d’outils automatiques aux CMS, et plus précisément d’iden-

tification d’entités pour l’ajout de métadonnées aux contenus, doit permettre un degré d’interven- tion humaine en termes de contrôle, validation et correction. Ce degré doit être fixé en fonction

1

2

3

4

3. Cas d’utilisation AFP 145

Figure 4.12 : Application AFP : recherche de citations dans les dépêches sur l’élection présidentielle française de 2012.

du temps de traitement jugé raisonnable quant à l’ensemble des manipulations à effectuer depuis l’appel du service automatique jusqu’à la validation finale de ses résultats. Ainsi, l’intervention humaine peut se réduire à une décision binaire consistant à accepter ou refuser les résultats présentés — validation ou suppression des métadonnées insérées — ou être étendue à des possi- bilités de correction et d’ajouts. Ces dernières allongent les temps de traitement et complexifient les modalités d’usage des outils, mais permettent un résultat de meilleure qualité. Leur ergonomie peut être améliorée par un accès aisé aux ressources à partir desquelles ajouts et corrections peuvent être définis, ainsi que par un contrôle automatique de la validité de ces opérations ; il s’agit notamment de garantir le respect des formats à employer ainsi que la restriction des insertions aux éléments préalablement définis dans les ressources adoptées.

Bruit et silence Comme c’est le cas dans nombre d’applications en Extraction d’Information, les

résultats d’un système automatique sont largement évalués, dans un tel environnement de travail et pour des objectifs d’exploitation tels que ceux de l’AFP, en termes de bruit et de silence. Plus spécifiquement, un certain taux de silence peut être toléré, tandis que la précision des résultats fait l’objet d’un seuil minimal élevé : toute introduction de résultats incorrects est en effet directement visible et affecte concrètement la qualité des données. Autrement dit, le taux de précision des résultats détermine fortement la perception de la qualité des outils et ressources adoptés. Le taux

de rappel, loin d’être négligé dans leur évaluation, est quant à lui moins directement associé à des erreurs nuisant à la qualité générale, un seuil minimal jugé satisfaisant devant néanmoins être défini. La non reconnaissance d’une entité importante, notamment en termes de notoriété, tendrait cependant à dégrader fortement la perception de qualité chez l’utilisateur, même si un taux de rappel élevé est atteint lors de l’évaluation. Les outils et ressources d’identification d’entités mis en place afin de produire les métadonnées à ajouter aux documents produits par l’AFP doivent donc être paramétrés de façon à apporter la réponse la plus adéquate possible aux contraintes relatives au bruit et au silence ; leur configuration peut donc différer de celle qui donnerait les résultats optimaux lors de l’évaluation à l’aide d’autres métriques, employées dans les contextes de recherche et de développement préalables, telles que la mesure classique F1.

Temps de traitement Le secteur d’activité de l’AFP étant largement concerné par les impératifs

de temps réel de la production et de la diffusion , tout traitement associé à la production doivent tenir compte de cette contrainte de vitesse imposée. Le développement d’outils automatiques pour l’enrichissement des contenus y répond dans un premier temps en dégageant les rédacteurs de la tâche coûteuse, en temps mais également en énergie, de sélection et d’insertion relatives aux métadonnées. Ces outils doivent néanmoins accomplir cette tâche en temps quasi-réel afin d’être considérés comme efficaces et avantageux. En ce qui concerne l’intégration à la console de rédaction, le temps de traitement envisagé ne devrait pas dépasser quelques secondes, voire une seconde, par dépêche. Pour des applications spécifiques s’appuyant sur l’exploitation des métadonnées, des temps de traitements plus longs peuvent être envisagés, de l’ordre de quelques minutes ou quelques heures selon leur complexité et la quantité de données traitées, notamment si ces traitements impliquent d’autres formes d’Extraction d’Information telles que la détection de citations, évoquée précédemment. Les contenus ainsi traités ne sont en effet pas concernés par la diffusion en temps réel et font l’objet de processus journaliers par lots de données plutôt qu’au niveau de chaque document considéré individuellement.

Intégration des ressources existantes Les ressources référentielles présentées précédemment

(sections 2.2 et 2.3) constituent une des cibles principales du renouvellement initié par l’AFP, à travers le projet de refonte du système de production et de diffusion actuellement mis en œuvre (projet IRIS), ainsi que, dans une mesure plus expérimentale, les méthodes d’enrichissement de contenus à l’aide de métadonnées abordées dans le présent travail. Ces ressources sont destinées, dans cette perspective, à être intégrées autant que possible à la nouvelle organisation des données et de leur manipulation. Une telle intégration implique des processus de migrations d’ensemble de données, définis dans plusieurs schémas distincts, au sein d’un schéma global et unifié. Dans cette optique, les ressources adoptées par les outils d’enrichissement et d’identification d’entités, notamment en termes de modèle, doivent présenter l’adéquation nécessaire quant aux spécifications de ce schéma global. Des procédures d’intégration doivent pouvoir être définies du modèle proposé vers le schéma unifié de l’AFP, notamment par une conformité avec les techniques et standardisations issues du Web Sémantique, précisément conçues dans un tel objectif. Les modalités de cette intégration reposent principalement sur les technologies de services distants ou Web services.

3.3 Méthodologie et spécifications