• Aucun résultat trouvé

L’AFP structure sa production selon un ensemble de ressources référentielles, regroupant les données communes à l’organisation dans sa globalité, mais également au sein de chaque silo et domaine de production. Le terme recouvre à la fois la notion de référence en termes de données considérées comme assez importantes et pertinentes pour être conservées sous une forme fixée, afin d’y référer lors des différentes procédures de production et de diffusion, mais également en tant que chaque élément de ces ressources constitue en principe l’indication d’un objet du monde porteur de cette importance. L’usage principal des ressources référentielles concerne les processus d’indexation des contenus, pouvant varier selon le silo de production — texte ou photo — et le domaine concerné — le fil sport par exemple dispose d’une base de données spécifique à ce domaine.

En dehors d’un certain nombre de ces ressources concernant le fonctionnement de l’agence, hors de notre sujet de travail — listes des personnels et localisations géographiques des bureaux, par exemple —, plusieurs catalogues sont disponibles dans le cadre de l’indexation des conte- nus et listent principalement des lieux, personnes, produits financiers, genres et catégories de dépêches. Les termes issus de ces catalogues, assignés aux documents produits, donnent lieu à des fonctionnalités de Recherche d’Information interne, notamment par le biais de la console de rédaction des agenciers ou via des serveurs d’archivage, ainsi qu’à destination des services de documentation. Ces catalogues sont caractérisés par une formalisation déjà évoquée lors de la présentation du vocabulaire des slugs et de la taxonomie IPTC (section 2.2) : il s’agit de listes

2. Indexation et classification des contenus à l’AFP : état des lieux 139 sous forme de vocabulaires contrôlés, chacune d’elles étant définie par un schéma de données distinct. La structuration générale des ressources référentielles de l’AFP ne correspond donc pas à un schéma unifié ; le projet de restructuration et de refonte rédactionnelle IRIS, actuellement en cours à l’AFP, propose d’apporter un ensemble de solutions à cette situation, notamment par la fusion et la restructuration des différents catalogues existants.

De par la catégorisation thématique des contenus selon la taxonomie IPTC, évoquée précédem- ment, les slugs et sujets IPTC constituent la première ressource référentielle utilisée par l’AFP. Comme cela a été illustré, l’ajout des slugs et codes IPTC aux métadonnées de documents permet une indexation ainsi qu’une récupération des documents selon cette classification aux différents stades de l’exploitation : archivage, consultation, documentation, diffusion.

Silo texte Le silo de production textuelle dispose par ailleurs de catalogues supplémentaires

afin de caractériser les contenus :

Lieux Une liste de lieux est établie, regroupant l’ensemble des États du monde d’une part, et un

sous-ensemble de villes et de zones géographiques notables d’autre part. Chaque élément de la liste correspond à un terme, accompagné des codes ISO-3166-2 et ISO-3166-36 du

pays concerné et de ses labels possibles dans les langues de travail de l’AFP. Les éléments de cette liste sont employés dans un champ spécial des documents (balise Location), indiquant leur lieu de rédaction. Ce champ ne constitue donc pas une indication relative au contenu mais à sa production, qui ne sont pas systématiquement synchronisés : une dépêche concernant la Syrie peut ainsi être rédigée depuis Paris en France, et le champ correspondant n’indiquera donc que ce lieu de rédaction.

Tickers Les tickers correspondent aux codes de produits financiers cotés en bourse, mentionnés

dans les dépêches du flux finance. Chaque élément de cette liste dispose d’un identifiant et de labels, ainsi que d’un label spécial définissant la forme à utiliser pour l’insertion d’un produit donné parmi les slugs d’une dépêche. Lors de la rédaction d’une dépêche du flux financier, le journaliste déclenche une recherche automatique des noms d’entreprise men- tionnées, dont les résultats déclenchent à leur tour une association de chaque entreprise avec les codes de produits financiers correspondant. Ces tickers sont ajoutés en fin de do- cument dans des balises XML dédiées, qui ne concernent que certains formats de diffusion de dépêches et ne sont pas conservées dans le format NewsML.

Genres Un certain nombre de dépêches peuvent appartenir à un genre spécifique. L’AFP fournit

en effet, en amont et en aval des dépêches d’information typiques, des documents jouant des rôles variés dans la diffusion de l’information. Les genres correspondant à ces rôles sont notamment les suivants : encadré, chronologie, biographie-portrait, interview, verbatim

(reproduction de citations uniquement), revue de presse, analyse, synthèse, fiche technique, développement, réactions, reportage.

Silo photographie L’AFP produit environ 3 000 documents photographiques par jour, mainte-

nus par un service spécialisé et mis à disposition sur la base Image Forum. Celle-ci comprend des fonctionnalités de recherche portant à la fois sur les images elles-mêmes, par requêtes sur des spécifications formelles telles que la taille, la date ou le lieu de prise de vue, mais également sur les légendes accompagnant chaque photographie. Les règles rédactionnelles rendent systéma- tique la mention des personnes figurant sur une photographie dans la légende, lorsque cela est pertinent — autrement dit, lorsque la photographie présente effectivement des personnes et si

leur identité est notable. Une liste de noms est constituée à partir de ces légendes et mentions et forme une base regroupant à ce jour quelques (1 300 000 labels dans plusieurs langues, corres- pondant à environ 290 000 identifiants distincts. Ces identifiants ne représentent cependant pas d’unicité référentielle et ne sont ancrés dans aucun schéma sémantique particulier ; les éventuels homonymes n’y présentent donc pas de critère particulier de discrimination. En pratique, en rai- son de l’accroissement de la production et de l’absence d’annotation par lots, les documentalistes photos n’annotent que 10% de la production environ.

Documentation Un service spécifique de l’AFP maintient un ensemble de ressources documen-

taires, sous la forme de descriptions biographiques, chronologies et synthèses. Elles concernent environ 40 000 biographies de personnalités ainsi que des synthèses descriptives des Etats du monde. Ces biographies et synthèses se présentent sour la forme de sélections de dépêches déjà diffusées, concernant les personnalités et pays en question. L’identification des entités dans ces ressources se fait par un nom. L’accès à ces informations est déterminé par les agents du service de documentation, qui les transmettent aux rédactions à leur demande ainsi que sur les fils de diffusion lorsque l’actualité requiert des informations utiles à la contextualisation des événements traités — fiche d’un pays où éclate un conflit, décès d’une personnalité... Les ressources de la documentation ne font en revanche pas l’objet d’une maintenance ou de mise à jour systématique.

3

Cas d’utilisation AFP

L’AFP occupe une place importante parmi les acteurs internationaux de la diffusion de l’infor- mation et est à ce titre concernée par des problématiques d’adaptation et de renouvellement pertinents de son mode de fonctionnement au cours du temps. Le besoin d’enrichissement des contenus s’inscrit à cet égard dans le contexte contemporain de la numérisation de l’information et de ses vecteurs, dont la dimension s’affirme comme d’autant plus essentielle avec l’avènement des pratiques de communication sociales et professionnelles liées au Web et à sa version sémantique en émergence. Présentées dans la première partie de ce mémoire, les techniques associées au re- nouvellement de la publication documentaire proposées par le Web Sémantique constituent pour l’AFP des cibles et opportunités de développement incontournables, en particulier pour l’enrichis- sement à l’aide de métadonnées. Ces dernières visent en premier lieu les entités, à l’image des applications usuelles de l’Extraction d’Information sur des données linguistiques depuis plusieurs décennies. Le Web Sémantique comme la Population de Bases de Connaissances proposent pour ces applications des ressources et méthodes dont les spécifications rejoignent de façon adéquate notre cas d’utilisation.

L’aperçu des ressources et pratiques d’indexation existantes à l’AFP proposé dans la section précédente témoigne de la nécessité d’introduire des traitements de données orientés vers les contenus eux-mêmes et non seulement leur formalisation technique. Il s’agit en effet d’intégrer la production ainsi que les modes de diffusion de l’AFP à l’espace d’échange et de communica- tion défini dans le cadre du Web Sémantique, pour lequel les métadonnées venant enrichir les contenus jouent le rôle de points d’ancrage. Afin de remplir cette fonction, les métadonnées dont l’acquisition est nécessaire à partir des contenus traités doivent faire l’objet d’un ancrage formel dans un modèle sémantique défini et explicite. Un tel modèle, à déterminer de façon interne ou en association avec des ressources externes, se présente comme un facteur essentiel de cohérence globale au niveau de l’ensemble de la production de l’AFP en termes de structuration et de mani- pulation des données, notamment à des fins d’indexation et de Recherche d’Information dans le cadre de produits et d’applications spécifiques.

Avant une présentation détaillée, dans les chapitres 5 et 6, de l’approche proposée afin de mettre en œuvre cet enrichissement ainsi que du système conçu à cette fin, certains objectifs

3. Cas d’utilisation AFP 141 applicatifs envisagés autour de cette tâche sont exposés. Un certain nombre de contraintes fonc- tionnelles dérivant de la chaîne de production existante à l’AFP doivent par ailleurs être prises en compte dans la méthodologie proposée, dont les aspects principaux sont esquissés ici.