• Aucun résultat trouvé

Classification thématique : la taxonomie de l’IPTC

La production de l’AFP est organisée selon une classification thématique, correspondant à une division de l’actualité générale en différents domaines. Cette structuration constitue un pivot central des modalités d’élaboration et de diffusion de l’information par l’AFP : les fils d’information ainsi que les critères de sélection qui lui sont applicables relèvent en majorité de la classification thématique adoptée.

Comme dans tout contexte d’organisation de données selon une caractérisation de l’informa- tion, un modèle définissant les catégories applicables doit être disponible. Dans le cas de l’AFP, la classification thématique de la production repose sur un vocabulaire contrôlé associé à une taxonomie élaborée par le consortium IPTC. Celui-ci regroupe les acteurs majeurs de la presse mondiale — agences telles que l’AFP, éditeurs de medias et industriels de la presse. Il exerce une fonction de développement et de maintenance de standards techniques destinés à structurer les modalités d’échange d’information entre ses membres. La taxonomie conçue à ce titre s’inscrit dans un ensemble de métadonnées proposées par l’IPTC sous le nom de NewsCodes, qui four- nissent le vocabulaire de métadonnées nécessaires à l’encodage d’informations sur les documents produits. Ces informations concernent d’une part l’administration des documents — source, des- tination, date, statut de publication... — et d’autre part leur description, principalement en termes de catégorisation thématique à l’aide de la taxonomie évoquée. Celle-ci comprend trois niveaux hiérarchiques, un niveau inférieur présentant des termes d’ordre plus précis et détaillé que le ni- veau supérieur correspondant. L’usage de cette taxonomie par l’AFP est établi par correspondance entre le vocabulaire contrôlé propre à l’agence et celui de l’IPTC : le vocabulaire AFP est constitué de mots-clés, assignés par le journaliste à une dépêche lors de sa rédaction afin de la caractériser en termes de domaine. Chacun de ces mots-clés, appelé slug, est associé à un élément de la taxo- nomie IPTC, appelé sujet. Cette association de vocabulaire permet d’assigner automatiquement au document considéré une catégorie issue de la taxonomie IPTC et par transitivité de l’associer à l’un des sujets qu’elle définit au niveau supérieur. La figure 4.9 illustre la relation établie entre slugs AFP et sujets IPTC à travers les trois niveaux hiérarchiques existants, pour les sujets Culture

2. Indexation et classification des contenus à l’AFP : état des lieux 137 et Désastre. L’annexe A reproduit l’ensemble de cette double hiérarchie — sujets IPTC et slugs AFP (figures A.1 à A.5). Les dépêches figurant également dans cette annexe (figures A.6 à A.16) présentent les slug lines suivantes, où les termes en italique, en l’occurrence des noms d’entités, correspondent à des slugs hors vocabulaires :

Syrie-conflit (annexe A, A.6)

Social-emploi-syndicat-patronat-gouvernement (annexe A, A.10) Somalie-France -otage-combats (annexe A, A.14)

Figure 4.9 : Extrait de la table de correspondance entre sujets IPTC et slugs AFP (document AFP).

Catégorisation des dépêches Lors de la rédaction d’une dépêche, un ensemble de slugs lui

est attribué. Cet ensemble contient des éléments du vocabulaire contrôlé de l’AFP mais peut également contenir tout terme jugé pertinent par le journaliste pour la caractérisation du contenu informatif, selon le mode de description général des mots-clés. Ces slugs hors liste contrôlée peuvent notamment correspondre à des entités nommées — USA ou JO2012. Au moins l’un des slugs assignés à une dépêche doit néanmoins être défini par la liste contrôlée, dans la mesure où la catégorisation selon la taxonomie IPTC est un élément formel obligatoire pour la transmission des dépêches et est automatiquement déclenchée par l’usage d’un slug défini dans la table de correspondance présentée plus haut. Ainsi, l’attribution du slug chômage, correspondant au sujet IPTC de même nom (code 00900900) induit une classification de la dépêche considérée dans la catégorie IPTC social (code 09000000). Il est important de noter que la correspondance établie entre slugs et sujets IPTC est univoque et ne prend pas en charge les phénomènes d’ambiguïté pouvant toucher les termes employés. Ainsi, le terme voile est prévu dans le vocabulaire des

slugs et la taxonomie IPTC (code 15050000), associé à la catégorie sport ; l’usage de ce terme pour caractériser une dépêche traitant de débats législatifs ou de faits divers en rapport avec l’interdiction de signes religieux ostentatoires dans les lieux publics devient alors impossible sans que la catégorie sport ne soit assignée à la dépêche, ce qui entre en contradiction avec son sujet réel. Dans les processus d’indexation, destinés à la diffusion et à la recherche d’information par thèmes dans la production de l’AFP, une telle catégorisation s’avère non seulement non pertinente mais erronée et potentiellement nuisible à sa qualité.

Ce dernier point relatif à l’adéquation entre la structuration de l’information adoptée et la caractérisation des contenus eux-mêmes illustre la problématique posée par un modèle tel que celui de la taxonomie employée par l’AFP. En effet, un modèle non restreint à une liste sous forme de vocabulaire, permettant de munir les termes définis d’une sémantique formelle et explicite, serait à même de prendre en charge l’ambiguïté des termes descripteurs. Dans un tel cas, des descripteurs différents renvoyant à leurs définitions respectives, établies dans le modèle et accessibles aux utilisateurs, seraient alors à même de distinguer des documents relatifs à des domaines distincts. Dans la situation actuelle, régie par l’emploi du vocabulaire de slugs et de la taxonomie IPTC, chaque terme descripteur implique une définition unique, non spécifiée explicitement et dont le bon usage est assuré par l’expertise, à un niveau implicite, des journalistes de l’agence.

Formellement, les informations de catégorisation sont ajoutées à la dépêche au format NewsML par le biais de balises dédiées, comme l’illustrent les exemples de dépêches reproduits à l’an- nexe A :

• Les slugs attribués à la dépêche sont regroupés dans la balise NameLabel ; des balises Propertyindiquent également les slugs sous forme de mots-clés, avec l’attribut Keyword. • Les sujets IPTC correspondant aux slugs, lorsque cette correspondance existe, sont spéci- fiés dans les balises SubjectCode, SubjectMatter et SubjectDetail pour les premier, deuxième et troisième niveaux hiérarchiques, respectivement.