Rapport entre le serbe et le croate (et le bosniaque et le monténégrin)

1.1 Profil linguistique du serbe

1.1.6 Rapport entre le serbe et le croate (et le bosniaque et le monténégrin)

Avant de poursuivre, il faut indiquer qu’il existe une langue très proche du serbe qui est mieux dotée du point de vue du TAL : le croate. Comme nous avons exploité certaines ressources construites pour cette langue dans le cadre de cette thèse, nous précisons ici le rapport entre le croate et le serbe.

Avant la décomposition de l’ex-Yougoslavie, le serbe et le croate (ainsi que le bosniaque et le monténégrin) étaient considérés comme une seule langue, typiquement désignée par le nom serbo-croate ou croato-serbe. La création des états indépendants a mené à la constitution des langues nationales. Leur statut est débattu depuis lors. Sans entrer dans des

considérations socio-politiques complexes et sensibles, on peut résumer le rapport entre ces langues, à la suite de (Thomas, 1994), en disant que le serbe, le croate, le bosniaque et le monténégrin sont quasiment identiques aux niveaux phonologique, morphologique et syntaxique. Par ailleurs, les différences existantes à ces niveaux sont largement régulières et prévisibles. Des différences plus importantes existent au niveau lexical, mais elles sont comparables à celles entre deux variétés diatopiques de la même langue et n’empêchent pas une compréhensibilité mutuelle élevée des locuteurs sur le terrain. Ces langues sont par ailleurs souvent désignées par un nouveau nom commun : bosniaque-croate-monténégrin- serbe ou BCMS.

Dans le cadre de cette thèse, nous tirons profit de cette situation particulière. En effet, parmi les quatre langues citées, le croate est le mieux doté du point de vue du TAL (cf. Agić & Ljubešić, 2014 ; Agić et al., 2014 ; Agić & Merkler, 2013 ; Agić et al., 2013a,b ; Berović et al., 2012 ; Ljubešić & Klubička, 2014 ; Ljubešić et al., 2016 ; Merkler et al., 2013 ; Tadić, 2007). Qui plus est, cette communauté pratique la libre diffusion de ressources et données. Nous explorons donc les travaux effectués sur cette langue comme une source d’indication de méthodes efficaces et comme un échelon de comparaison pour nos propres expériences. Nous exploitons également certaines ressources initialement développées pour cette langue. Ce sujet sera abordé plus en détail dans le chapitre 3.

1.2 Ressources et outils disponibles pour le traitement auto-

matique du serbe

Les premiers travaux en parsing du serbe et la première tentative de création d’un treebank pour cette langue sont très récents, (cf. Jakovljević et al., 2014). Par conséquent, le serbe a été absent de la campagne d’évaluation CoNLL dédiée au parsing multilingue en 2006 (Buchholz & Marsi, 2006) et il ne figure pas non plus parmi les langues abordées dans le cadre des journées d’étude SPMRL (cf. Tsarfaty et al., 2010 ; Seddah et al., 2013, 2014). En revanche, cette langue a fait partie du projet MultextEast (Erjavec, 2012), ce qui a permis la création d’un corpus doté d’annotations en lemmes et en informations morphosyntaxiques, ainsi que la confection d’un premier lexique morphosyntaxique (Krs- tev et al., 2004b). Par ailleurs, un ensemble de travaux assez important signale l’existence d’un dictionnaire INTEX (Vitas & Krstev, 2004), d’un WordNet (Krstev et al., 2004a), de corpus annotés en lemmes et informations morphosyntaxiques (Krstev & Vitas, 2005 ; Jakovljević et al., 2014), ou encore d’un étiqueteur basé sur des règles construites manuellement (Sečujski, 2009). Il est donc tout à fait justifié de se demander si le serbe mérite d’être qualifié de langue peu dotée du point de vue du TAL. Or, comme il a été remarqué par Agić et al. (2013b), la communauté qui travaille sur le traitement automatique du serbe ne semble pas avoir adopté la culture du libre partage et de l’échange des données.

Par conséquent, un grand nombre des ressources citées ci-dessus sont indisponibles ; ou alors, si elles sont diffusées, elles sont soumises à des licences restrictives, ne permettant pas la modification ou la rediffusion des données. Un bilan plus détaillé est donné dans la suite.

1.2.1 Les corpus du serbe

Aujourd’hui, il existe plusieurs corpus en serbe. Ils sont aussi bien monolingues (Lju- bešić & Klubička, 2014 ; Krstev & Vitas, 2005) que parallèles (Vitas & Krstev, 2006 ; Krstev & Vitas, 2011 ; Tiedemann, 2009 ; von Waldenfels, 2006 ; Čermák & Rosen, 2012), et certains d’entre eux sont également annotés à différents niveaux. Par exemple, le corpus du serbe contemporain SrpKor (Krstev & Vitas, 2005) est lemmatisé et étiqueté en parties du discours (Utvić, 2011), et srWac, le corpus web du serbe (Ljubešić & Klubička, 2014) dispose également d’annotations syntaxiques. Cependant, dans les deux cas, l’annotation a été faite de manière entièrement automatique, sans validation manuelle ultérieure. Par conséquent, ces corpus ne représentent pas une base idéale pour l’apprentissage et l’éva- luation des outils automatiques.

En effet, les corpus serbes adaptés à l’évaluation des outils du TAL ne sont pas nom- breux. Le plus connu d’entre eux est celui du projet MultextEast (Krstev et al., 2004b). La ressource contient environ 104 000 tokens, elle a été lemmatisée et dotée d’une annotation morphosyntaxique détaillée. C’est ce corpus qui est majoritairement utilisé dans les expériences de TAL sur le serbe (Popović, 2010 ; Gesmundo & Samardžić, 2012). Il est librement disponible à des fins non lucratives2. Cependant, sa pertinence peut être remise en cause, vu qu’il s’agit d’une traduction et non d’un texte original serbe : le corpus est entièrement basé sur la traduction serbe du roman 1984 de G. Orwell.

Nous avons constitué, dans le cadre d’une recherche antérieure, un corpus étiqueté et lemmatisé manuellement (Miletic, 2013). Il s’agit de ParCoTrain, qui contient environ 150 000 tokens provenant de trois ouvrages littéraires serbes du 20esiècle3. Le corpus est diffusé à des fins non lucratives4.

Quant aux treebanks, un premier effort de constitution d’un tel corpus pour le serbe est signalé par Jakovljević et al. (2014). Cependant, après la création d’un échantillon initial de 7 000 tokens utilisé dans ce travail, le projet ne semble pas avoir abouti à la

2. Téléchargeable à partir de l’adresse suivante : https://www.clarin.si/repository/xmlui/handle/ 11356/1043 sous la licence CC BY-NC-SA 4.0 (https://creativecommons.org/licenses/by-nc-sa/4. 0/)

3. Kiš, Danilo. Enciklopedija mrtvih, 2000. Beograd : BIGZ. Kiš, Danilo. Bašta, pepeo, 2010. Podgorica : Narodna knjiga. Stevanović, Vidosav. Testament, 1986. Beograd : SKZ.

4. Téléchargeable à partir de l’adresse http://parcolab.univ-tlse2.fr/en/about/resources/ ou http://redac.univ-tlse2.fr/corpus/parcotrain_fr.html sous la licence CC BY-NC-SA 3.0 (https: //creativecommons.org/licenses/by-nc-sa/3.0/).

création d’un treebank complet.

Très récemment (automne 2017), un treebank serbe a été diffusé dans le cadre du projet Universal Dependencies5. Le corpus contient 86 000 tokens provenant de journaux et de Wikipédia, et il est annoté en lemmes, traits morphosyntaxiques fins et fonctions syntaxiques. Une description initiale du projet (alors en cours) a été proposée dans (Samardžić et al., 2017). Le corpus peut être téléchargé à partir du site du projet6.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 34-37)