• Aucun résultat trouvé

2 Les langages de type combinatoire

2.3 Le thésaurus

2.3.3 Les normes

La première norme en matière de thésaurus, la NF 47-100, a été instaurée en France en 1973, révisée en 1981. Un an après, l’organisme ISO publia la norme internationale 2788, actualisée en 1986. L’Angleterre a, elle aussi, contribué à l’établissement d’un cortège de règles sur les thésaurus avec la BS8723 (anciennement BS 5723 datant de 1979 et revue en 1987). Les Etats-Unis est le pays qui a le plus fait évoluer ses normes. En effet, entre 1974 et 2005, on compte quatre révisions : 1980, 1993, 2003,2005.

Nous étudierons ces normes en nous basant sur sept points :

Périmètre d’application : La norme américaine Z39.19 a étendu son champ d’étude aux synonym rings, aux taxonomies et aux lexiques. Ces vocabulaires contrôlés ont en commun avec le thésaurus le même système de choix des termes et des relations qui les lient. La norme anglaise BS 8723 a un spectre un peu plus large car elle comprend les thésaurus bien sûr mais aussi les classifications, les taxonomies, les répertoires de vedettes-matière et les ontologies.

Choix des termes : les normes sont quasiment identiques à ce niveau mais il a été constaté que les normes les plus récentes, telle que ANSI/ISO, présentent plus de cas pratiques, notamment quant à l’emploi des adjectifs ou les notes d’application. Les différents types de concepts sont également bien développés dans les normes anglaises et américaines : chose, matériau, activité etc. En ce qui concerne l’emploi du singulier ou pluriel, tout dépend de la langue utilisée : les anglophones privilégient le pluriel pour tout ce qui n’est pas dénombrable. Ainsi, dans les récentes normes, les éléments du corps humain qui existent par deux ont été mis au singulier et non pas au pluriel comme c’était le cas auparavant. Les objets de musée sont eux-aussi au singulier.

La norme AFNOR stipule que tous les termes doivent être au singulier sauf ceux qui sont naturellement au pluriel dans la langue (ex : travaux publics).

Les noms propres, plutôt ignorés dans les versions précédentes, sont reconsidérés La norme ANSI/ISO s’est inspiré des règles de catalogage relatives aux noms géographiques pour traiter le cas de ces nouveaux concepts. D’une manière générale, c’est cette norme qui s’intéresse le plus aux utilisateurs, en étant plus accessible par le choix du vocabulaire et la variété d’exemples pour chaque situation.

32

Pré et postcoordination : toutes les normes s’accordent à dire que les termes pré-coordonnés (ou composés) sont difficiles à traiter. Il est tout à fait possible de faire des recherches avec des termes post-coordonnés et des opérateurs booléens. La norme américaine développe davantage cette problématique que les autres. Elle propose de conserver les formes pré-coordonnées que sous certaines conditions : vocabulaire usuel (l’expression existe en tant que tel dans la langue), perte de sens si on décompose l’ensemble de mots, si cet ensemble comporte un nom propre, si le terme distinctif a perdu de son sens ou qu’il y a ambiguïté avec un autre concept, si l’adjectif modificateur ne définit pas une sous-classe ou si le terme principal est un mot vide. La norme ANSI/ISO complète la réflexion en abordant le sujet de la présentation du thésaurus, qu’il soit imprimé ou informatisé, cela change la donne pour la précoordination car le mode de lecture est différent. Par exemple, dans le cas d’un thésaurus sur Internet, l’emploi des termes pré-coordonnés se justifie pleinement car il aide l’utilisateur à naviguer dans la hiérarchie.

Relations entre les termes : elles sont détaillées de manière identique dans les quatre normes. Pour ce qui est de la relation d’équivalence, la norme américaine se distingue par l’évocation des synonym rings, ce qui revient à utiliser plusieurs termes semblables mais sans en choisir un préférentiel. Pour ce qui est des relations hiérarchiques, l’Angleterre et les Etats-Unis ont décrit plus finement les relations d’instance et partitives en les illustrant d’exemples. Par ailleurs, ces normes évoquent également la notion de top term (terme à la tête de la hiérarchie), absente des normes AFNOR et ISO. En outre, elles innovent en proposant d’autre types de relation, du type cause à effet (partitive) et dénomination/sigle (équivalence).

Présentation du thésaurus : une fois de plus, la norme américaine se démarque des autres normes en proposant un mode de représentation du thésaurus en fonction de l’utilisateur : gestionnaire de langage, indexeur et utilisateur final. Plus exigeante, la norme BS 8723 prévoit de renseigner un certain nombre d’éléments, en sus des relations classiques : code de classification, le terme de tête, la définition et la note historique. Globalement, les dernières normes font cas des nouvelles potentialités offertes par Internet pour présenter les thésaurus, en particulier les liens hypertextes qui permettent une lecture interactive.

Construction du thésaurus : toutes les normes s’entendent sur la méthode d’élaboration mais chacune a ses spécificités. Les logiciels d’aide à la construction de thésaurus sont évoquées, excepté dans les normes AFNOR et ISO, compte tenu de leurs dates d’édition. Il est conseillé aux chefs de projet de consulter les quatre normes pour avoir 33

Interopérabilité des langages contrôlés : les normes BS 6723 ou ISO 5964 abordent la question de l’interopérabilité bien plus largement que les normes AFNOR ou NISO car plus récentes, elles tiennent compte d’un univers technologique bien plus ouvert qu’il y a une vingtaine d’années. Cependant, les protocoles et les formats n’étant pas encore bien définis en 2005, les normes ne sont pas encore au point en matière d’interopérabilité.

L’évolution galopante des nouvelles technologies, la perspective d’un nouvel Internet, le Web sémantique, a obligé les organisations à revoir leur copie en matière de normes. Jusqu’à présent, elles n’évoquaient que superficiellement les questions d’interopérabilité et de recherche d’information.

En 2007, un projet de norme a vu le jour, l’ISO 25964 reposant sur la norme anglaise BS 8723. Sans doute parce que celle-ci englobait déjà les autres types de vocabulaires et ne s’arrêtait pas purement et simplement à la notion de thésaurus. La première partie de la norme ISO 25964 sera publiée en, mai 2011, la deuxième en août 2013. Elle pose véritablement la question de la recherche d’information et de l’interopérabilité avec les autres langages contrôlés que sont les classifications, les taxonomies, les vedettes-matières et ontologies. Cette nouvelle norme prendra en considération le langage SKOS et OWL, validés par le W3C, instance de référence dans le domaine du web.

Elle concerne à la fois les thésaurus mono et multilingue, à contrario de la France qui avait érigé deux normes distinctes : NF Z47-100 et Z47-101.

Cette nouvelle norme internationale fit l’objet d’un travail commun considérable, mené par deux comités, l’un international et l’autre français. Dans le premier nous retrouvons des figures importantes telles qu’Alan Gilchrist (E.U) ou Michèle Hudon (Canada).

Dans le groupe français figurent Sylvie Dalbin (également présente dans le premier groupe), Danièle Dégez, Dominique Ménillet et Michel Mingam.

34