• Aucun résultat trouvé

Structure XML du DiCoLiLex

Chapitre 4 Dictionnaire en mandarin

4.1 Structure XML du DiCoLiLex

Le DiCoLiLex utilise le format XML32 pour encoder les informations du dictionnaire. Chaque fichier XML contient un vocable français. Dans le DEC et le DiCoLiLex, un vocable est un superarticle qui regroupe des lexies ayant les mêmes signifiants, une combinatoire similaire et des signifiés apparentés (Mel’čuk et al., 1995, p. 155). Les différentes informations concernant un vocable et les lexies qu’il contient sont encodées à l’aide de balises (des constructions entre deux chevrons). Les balises ouvrantes, de la forme <élément attribut="valeur">, contiennent nécessairement un élément et potentiellement un ou plusieurs attributs avec leur valeur, et les balises fermantes, de forme </élément>, ne possèdent pas d’attributs. Entre une balise ouvrante et sa balise fermante correspondante, nous pouvons insérer d’autres balises ou du texte. Il y a aussi des balises vides <élément/>

32 L’Extensible Markup Language (XML), ou « langage de balisage extensible » en français, est un métalangage

de balisage générique dérivé du Standard Generalized Markup Language (SGML) qui représente explicitement la structure d’un document (cf. https://fr.wikipedia.org/wiki/Extensible_Markup_Language [consulté le 11 sept. 2018]).

terminant par une barre oblique, qu’on utilise ici notamment pour faire référence à la lexie vedette d’une fiche (<lexie-ref/>).

Pour donner un exemple, la figure ci-dessous montre la fiche du vocable HEUREUX. Pour commencer, il y a une balise ouvrante qui contient un élément <mot>, ensuite une autre balise ouvrante au deuxième niveau <vocable identificateur="heureux"> avec son élément « vocable » et un attribut « identificateur » et sa valeur « heureux ». Par la suite, il y a une balise vide au troisième niveau <caractéristiques/> qui est censé contenir les balises avec les éléments tels que la partie du discours, le genre, la définitude, le nombre, etc., mais ces informations ne sont pas encore complétées ici. Au même niveau se trouve la balise <lexie>, qui contient d’autres éléments : l’étiquette sémantique, la forme propositionnelle et les fonctions lexicales de cette lexie.

<mot>

<vocable identificateur="heureux"> <caractéristiques/>

<lexie identificateur="1" numéro="heureux" date="2016-06-30" rédacteur="IM, LC, XYZ" statut="3">

<étiquette-sémantique>qui éprouve un sentiment positif</étiquette-sémantique> <forme-propositionnelle>

[L'<étiquette-sémantique>individu</étiquette-sémantique> <actant numéro="1">X</actant> EST] <lexie-ref/>

</forme-propositionnelle> <fonction-lexicale>

<fonction type="standard">Magn</fonction>

<valeur statut="3"><élément>comme un pape</élément></valeur>

<valeur statut="3"><élément>comme un poisson dans l'eau</élément></valeur> <valeur statut="3"><élément>comme un roi</élément></valeur>

</fonction-lexicale> <fonction-lexicale> <fonction type="standard">Anti</fonction> <valeur statut="3"><élément>malheureux</élément></valeur> </fonction-lexicale> <fonction-lexicale> <fonction type="standard">S0</fonction> <valeur statut="3"><élément>bonheur</élément></valeur> </fonction-lexicale> </lexie> </vocable> </mot>

Comme les fonctions lexicales sont la partie la plus importante de notre description lexicale, nous présentons leur encodage plus en détail. À l’intérieur des balises <fonction- lexicale>…</fonction-lexicale>33, il y a d’abord une balise <fonction> qui prend le nom de la FL comme texte, et qui contient un attribut « type » pour indiquer si la FL en question est standard (la plupart des FL dans le DiCoLiLex sont de type standard, mais il existe également un petit nombre de FL non standard). Ensuite, nous avons une autre balise <valeur> au même niveau, avec un attribut de statut. Cet attribut est un entier de 0 à 3 indiquant le degré de complétude de la fiche. Un statut 0 indique que la valeur contient l’ensemble des éléments requis, à savoir un élément, un régime, un exemple annoté et une glose pour la FL à laquelle cette valeur correspond. Les valeurs de statut 0 ont toutes été révisées et peuvent être mises en ligne. Un statut 1 indique que la valeur contient l’ensemble des renseignements, mais qu’elle n’a pas encore été révisée. Un statut 2 correspond à une valeur à laquelle il manque un renseignement, tel que le régime ou la glose de FL. Finalement, un statut 3 renvoie à la « valeur qu’on a commencé à travailler, mais à laquelle il manque toujours des renseignements » (L’Homme, 2017). Cette balise peut aussi avoir un attribut fusion="1" s’il s’agit d’une FL fusionnée (§2.4.2). Enchâsser sous la valise ouvrante <valeur>, nous trouverons la balise <élément> qui contient un élément de valeur de la FL comme texte. Nous pouvons également trouver des balises pour le régime, les contraintes, les marques d’usage ou un exemple pour donner plus de précision à cette valeur.

Voir l’Annexe 1 pour le fichier original « _flexidico.rnc » qui représente un schéma validant la structure XML du DiCoLiLex.

33 Une balise ouvrante a nécessairement une balise fermante correspondante. Pour alléger la description, nous