Tokens constituant le lexique réel - Les inconnus dans la dynamique lexicale

1.3 Les tokens inconnus

1.3.3 Les inconnus dans la dynamique lexicale

1.3.3.2 Tokens constituant le lexique réel

La représentation proposée ci-dessus permet de modéliser l’intégration de nou- veaux tokens dans la langue (dans le lexique réel). Néanmoins, elle n’explique pas les raisons qui font que des tokens, présents dans nos corpus écrits, qui peuvent nous sembler connus et admis par tous, demeurent inconnus de notre lexique de référence. En effet, elle n’explique pas clairement leur passage de la zone floue du lexique réel vers sa zone sûre. Nous tâcherons ainsi dans cette partie de détailler la diversité des tokens absents de notre lexique informatisé afin de mieux comprendre ce qui va permettre à un token d’entrer dans un lexique.

Bien qu’en théorie l’on puisse tracer une frontière nette entre les tokens répertoriés et ceux qui ne le sont pas, en pratique cette frontière est moins aisée à représenter. Nous proposons donc de considérer chacun des tokens qui composent le lexique réel comme une unité qui répond à 3 questions : (i) ce token est-il répertorié dans notre lexique informatisé de référence ? (ii) est-il intégré dans l’usage de la langue18_{? (iii) appartient-il à la norme de cette langue}19_{? Nous pouvons par} conséquent distinguer 8 types de tokens. Nous faisons le postulat que si un token est dans un lexique alors il fait au moins partie de l’usage ou de la norme. Cela restreint le nombre de types de tokens à 7. Ces derniers sont représentés dans la figure 1.3 présente ci-dessous. Le cercle gris foncé représente ici les tokens qui rentrent dans l’usage de la langue, le gris clair ceux qui font partie de la norme. Enfin, la zone rouge superposée à ces deux cercles représente l’ensemble des tokens qui figurent dans notre lexique informatisé (soit la zone sûre de Tournier). Les chiffres présents dans cette figure représentent enfin les différents types de tokens introduits précédemment et détaillés ci-dessous :

17. Les formes dérivées d’onomatopées interjections telles que hahha ou hahahaahaaa) pro- viennent quant à elles du lexique potentiel.

18. Nous considérons qu’un token rentre dans cette catégorie s’il est compris et connu par une majorité de locuteurs de cette langue

19. Cette dernière question présuppose naturellement l’existence d’une telle norme, ce qui est le cas pour toutes les langues traitées dans cette thèse.

1. Les tokens créés, mais non partagés par une communauté, qui ne figurent ainsi ni dans l’usage ni dans la norme d’une langue (ex : 2mandD, troller ) ; 2. les tokens appartenant à l’usage, mais qui ne font pas encore partie de la norme (kiffer, psychoter ) et qui ne sont pas répertoriés (donc absents de notre lexique de référence) ;

3. les tokens non répertoriés appartenant à l’usage qui peuvent aussi bien avoir été intégrés dans la norme depuis peu (ex : lol, googliser ou selfie) ou y figu- rer depuis longtemps (l’absence dans notre lexique de référence des tokens concernés par ce dernier cas ne peut pas être expliquée de manière logique puisqu’il s’agit vraiment ici d’incomplétude lexicale) ;

4. les tokens qui appartiennent encore à la norme, mais qui, n’étant plus d’usage, sortent du lexique (ex. : havir ou avertin) ;

5. les tokens répertoriés appartenant uniquement à la norme (ex. : hâlâmes ou tintinnabuler ) ;

6. les tokens présents dans notre lexique et qui figurent dans l’usage de la langue, mais pas dans la norme (ex. : kéké ou chelou) ;

7. Les tokens répertoriés qui apparaissent aussi bien dans l’usage que dans la norme de la langue (ex : faire, pomme ou penser ).

zone floue Lexique informatisé Lexique réel Norme Usage 1 2 3 4 7 6 5

Figure 1.3 – Adaptation du lexique réel

Contrairement aux tokens de type 4, ceux des types 2 et 3 ont des chances d’in- tégrer notre lexique informatisé de référence. Les tokens de type 1 quant à eux ne seront ajoutés que s’ils rentrent dans l’usage (soit lorsqu’ils passeront en type 2 ou 3).

Ce schéma nous permet enfin de mieux comprendre comment se répartissent les tokens appartenant à des domaines spécifiques (médecine, informatique...), au langage SMS ou encore aux régionalismes. En effet, ces derniers ont une carac- téristique commune, ils ne sont utilisés que par un nombre restreint de locuteurs d’une langue. Ils ne figurent donc pas systématiquement dans l’usage et/ou dans la norme et par conséquent ne sont que très rarement dans notre lexique de réfé- rence. La majorité de ces tokens se divise ainsi principalement entre les différents types de tokens ne figurant pas dans le lexique de référence (soit les types 1, 2, 3 et 4). La répartition de ces tokens dans le lexique réel est particulièrement pro- blématique en traitement de la langue puisqu’elle ne permet pas à un système de considérer ces tokens comme appartenant à la langue. Généralement, ce problème est pallié en associant le lexique de référence à des lexiques plus spécifiques des domaines ou du type de tokens que l’on veut couvrir. Ainsi, Ringlstetter et al. (2006) proposent de prendre en compte des dictionnaires spécifiques (argotiques, archaïques) afin de couvrir l’incomplétude de leur lexique de référence. De même, Dister et Fairon (2004) qui travaillent sur des corpus québécois se sont adaptés en intégrant un lexique plus spécifique au québécois et ont par ailleurs ajouté un lexique des professions et de l’orthographe réformée afin de couvrir au mieux les différents tokens considérés comme inconnus par leur système. On peut enfin citer Ren et Perrault (1992) qui proposent d’enrichir leur lexique.

2

Détection automatique des inconnus

Sommaire

2.1 Classification des inconnus . . . 30 2.1.1 Détection des entités nommées . . . 30 2.1.2 Détection des emprunts non adaptés . . . 31 2.1.3 Détection des créations lexicales . . . 32 2.1.4 Détection des emprunts adaptés . . . 34 2.2 Systèmes par analogie . . . 34 2.2.1 L’analogie . . . 35 2.2.1.1 Définition et propriétés . . . 35 2.2.1.2 Définition analogie formelle . . . 36 2.2.2 Apprentissage par analogie en TAL . . . 37 2.2.2.1 Systèmes existants d’apprentissage par analogie 38 2.2.2.2 Domaines exploitant l’analogie . . . 40

2.1 Classification des inconnus

La classification d’inconnus a toute sa place dans un travail comme le nôtre. Cela peut, entre autres, nous éviter de modifier des formes qui avaient toute leur place dans nos corpus. C’est pourquoi nous nous sommes plus particulièrement inté- ressée aux techniques de détection automatique des principaux types d’inconnus que nous avons étudié au chapitre précédent. Nous nous concentrerons ici sur la détection automatique des entités nommées, des emprunts non adaptés et celle des créations lexicales. Nous évoquerons par ailleurs rapidement le cas des emprunts adaptés. Les tokens altérés constituant l’objet de notre étude, nous nous concentrerons sur les travaux s’y référant dans le troisième chapitre.

Dans le document Normalisation orthographique de corpus bruités (Page 41-45)