Construction d'un corpus et perte d'information en analyse lexicale (Méthodes et pratiques)
Texte intégral
Documents relatifs
Out-of-domain tests show that, even though they were trained for 17th century classical theatre, the model reach their best accuracies for 18th century texts.. Such a fact
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des
En fait, dans tout texte écrit en langue française, plus du tiers des mots sont "homographes" : une graphie et au moins deux entrées différentes dans le dictionnaire!. De
Cependant, dans les outils UDPipe et Pie, et au contraire de TreeTagger, la taille des données n’est pas forcément significative pour l’amélioration de la précision mais plutôt
Envisagée comme neutralisation de fragments discursifs, la lemmatisation n‟est pas reconnue comme telle (i.e. comme mise au format d‟une unité linguistique de première
Un autre cas de figure est lié au fait que la base de graphies présentant des lacunes, le moteur de recherche peut parfois ne pas détecter des attestations d’un lemme dans les
Lorsque l'automate ne parvient pas à trancher en toute certitude, il interroge l'opérateur en lui offrant les solutions possibles avec le rappel des règles (nous évoquons plus
Ainsi, nous avons prévu la génération de toutes les formes possibles, même si elles ne sont pas possibles pour tous les verbes de ce modèle flexionnel, notamment pour des raisons