• Aucun résultat trouvé

Frantext catégoriséLors d’une recherche sur corpus, deux types de biais sont très fréquents. On qualifie de

N/A
N/A
Protected

Academic year: 2022

Partager "Frantext catégoriséLors d’une recherche sur corpus, deux types de biais sont très fréquents. On qualifie de"

Copied!
1
0
0

Texte intégral

(1)

(suite du TD 2)

On travaille sur le corpus des romans de Zola (corpus de travail → multicritères), qu’on compare au corpus des romans de Balzac. Quel auteur utilise-t-il le plus verbe chercher (conjugué) ? Justifiez.

Frantext catégorisé

Lors d’une recherche sur corpus, deux types de biais sont très fréquents. On qualifie de bruit les résultats retournés par une requête, mais non pertinents, et de silence les résultats pertinents, mais non retournés par une requête.

Familiarisation avec le corpus

Sélectionnez « tous les textes» comme corpus de travail. Allez dans « Stats ». Combien cette base textuelle comporte-t-elle de textes, de mots, et sur quelle période ? Quelle est la différence avec Frantext intégral ?

Frantext catégorisé se distingue aussi par la présence d’annotations métalinguistiques : les catégories grammaticales des mots (on parle aussi souvent de parties du discours − en anglais part of speech, POS).

Recherchez les flexions du verbe taire, et visualisez les résultats.

Dans la fenêtre de visualisation, affichez les « Codes ». Quelle information apportent ces codes ?

Recherchez la séquence en même temps. Pour Frantext, combien de mots comporte cette locution ?

Parties du discours

Codes des parties du discours : http://cid.ens-lyon.fr/aide/ac_article.asp?fic=frantext_categgram.asp Rechercher une partie du discours : &e(g=code), par exemple &e(g=V) pour les verbes.

Recherche un mot en précisant la partie du discours : &e(g=code c=mot), par exemple &e(g=S c=test) Recherche d’un mot fléchi en précisant la partie du discours : &e(g=code c=&mverbe)

Recherchez les adverbes, puis, dans un second temps, la locution adverbiale en même temps.

Recherchez le verbe taire (mot fléchi) au participe passé (partie du discours). Combien d’occurrences trouvez- vous ? Citez un biais qui cause du bruit si on n’utilise pas la catégorisation.

Quels substantifs utilise-t-on le plus souvent directement (sans article) après le verbe faire ? Avec un article ? Est-ce suffisant pour étudier les compléments d’objet préférés du verbe faire, ou bien y a-t-il du silence ?

Créez un corpus de 4 œuvres de Zola : La Curée, Germinal, L’Œuvre et L’Argent. Créez une liste de mots fléchis liés à la notion de dette : dette, créance, etc. Dans lequel de ces 4 romans ces mots sont-ils les plus fréquents ?

Quels sont les compléments d’objet direct préférés du verbe faire ? Citez un biais qui peut provoquer du silence.

Références

Documents relatifs

Mais, en réalité, la Grèce a été plongée dans une profonde récession, malgré, ou plutôt à cause d’une stricte application des réformes structurelles recommandées et

J'ai assaini mon intériorité en créant des sculptures qui sont faites pour l'espace comme un arbre qui pousse.. J'ai réalisé des

- L’hétérotrophie nécessite un apport extérieur de matière organique, comme le glucose, pour produire de l’énergie indispensable à la vie de l’individu et permet la

Comme toutes les matrices représentant un même endomorphisme dans des bases quelconques sont semblables d'après la formule de changement de base, elles ont la même trace.. On choisit

Quel sont les mots en -isme les plus fréquents pour chaque siècle.. (faites une recherche

Quel sont les mots en -isme les plus fréquents pour chaque siècle. (faites une recherche pour

Voici la liste de mots fréquents de la langue française qui représentent environ 50 % des mots d’un texte et qui permettent aux élèves d’améliorer la fluidité de leur lec- ture

Dans mon approche, je laisserai de côté le moteur de recherche du SIE, plus spécialisé et répondant à des besoins particuliers, afin de faire un peu de prospective sur les