Haut PDF Analyse lexicale de corpus en anglais

Analyse lexicale de corpus en anglais

Analyse lexicale de corpus en anglais

• les réponses à la question des problèmes prioritaires dans le cadre de l’enquête « Recherche et Environnement » ; seules les réponses parvenues avant la relance de l’enquête ont été[r]

85 En savoir plus

Les chaînes de référence dans un corpus contrastif (allemand-anglais-français) de romans réalistes du XIXe siècle : analyse quantitative et qualitative

Les chaînes de référence dans un corpus contrastif (allemand-anglais-français) de romans réalistes du XIXe siècle : analyse quantitative et qualitative

Les chaînes de référence dans un corpus contrastif (allemand-anglais-français) de romans réalistes du 19 ième siècle : analyse quantitative et qualitative Emmanuel Baumer (Univ. de Nice), Dominique Dias (Univ. Grenoble Alpes), Catherine Schnedecker (Univ. de Strasbourg)

2 En savoir plus

Le parler mixte népali-anglais : quelques éléments d'analyse descriptive à partir d'un corpus médiatique

Le parler mixte népali-anglais : quelques éléments d'analyse descriptive à partir d'un corpus médiatique

Julian Vasseur University of Rouen Normandie Résumé Notre objectif est d’effectuer une présentation d’un ensemble de caractéristiques formelles récurrentes observables dans les pratiques langagières de locuteurs bilingues népali-anglais dans les échanges en milieu médiatique au Népal. Nous avons pour cela choisi de décrire les aspects proprement linguistiques de ce mode de conversation bilingue. Le comportement langagier des dix locuteurs de notre corpus de deux heures d’émissions médiatiques transcrites, forgé en dehors de toute pression normative, ne saurait cependant s’analyser uniquement en termes de compétence linguistique mais plutôt en termes communicatifs. Il importe alors de s’intéresser à l’organisation des ressources langagières dans la planification des énoncés bilingues par les locuteurs. Au-delà de simples phénomènes d’hybridation qui seraient imputés à une disparité de la compétence des locuteurs (le népali n’est pas la langue première de tous les locuteurs, mais demeure néanmoins la langue véhiculaire principale dans les échanges intercommunautaires au Népal), notre analyse met en évidence un ensemble de procédés qui sont destinés à se mettre au service des impératifs de la communication en tendant à gommer les frontières entre les langues.
En savoir plus

30 En savoir plus

Première approche textométrique de l'analyse contrastive du corpus trilingue anglais-français-allemand GUIDES

Première approche textométrique de l'analyse contrastive du corpus trilingue anglais-français-allemand GUIDES

Au-delà des partitions logiques repérables dans le texte (situation géographique des villes, accès et transports urbains, bâtiments publiques), celui-ci contient des marques de rupture qui constituent sa respiration (phrases, paragraphes, etc.). Comme nous l’avons déjà signalé en décrivant les principes du précodage des données, il est possible de promouvoir un caractère délimiteur (ou plusieurs d’entre eux) au rang de délimiteur de section. Cette opération permet d’étudier ensuite la répartition des occurrences d’une unité textuelle quelconque parmi les sections ainsi constituées. Par exemple, sur la figure 8 (cf. ANNEXES), on matérialise les sections (unités contextuelles égales aux phrases du volet anglais du corpus GUIDES) correspondant aux ventilations des segments the most et the largest. L’affichage de la partition « ville » permet de naviguer dans le texte des guides afin de cerner les traits saillants de chaque agglomération.
En savoir plus

28 En savoir plus

Construction d'un corpus et perte d'information en analyse lexicale (Méthodes et pratiques)

Construction d'un corpus et perte d'information en analyse lexicale (Méthodes et pratiques)

Le choix entre lemmatisation et non lemmatisation est motivé par le fait que la lexicométrie n’a pas la faculté de traiter la phrase dans sa composante syntaxique. Elle est réduite à n[r]

218 En savoir plus

Analyse de la variation terminologique en corpus parallèle anglais-espagnol et de son incidence sur l'extraction des termes bilingue

Analyse de la variation terminologique en corpus parallèle anglais-espagnol et de son incidence sur l'extraction des termes bilingue

En ce qui concerne les types de variation, nous avons observé que, d’une façon générale, les termes simples et les termes complexes peuvent être sujets aux mêmes types de variation séman[r]

147 En savoir plus

Analyse comparative de l'équivalence terminologique en corpus parallèle et en corpus comparable : application au domaine du changement climatique

Analyse comparative de l'équivalence terminologique en corpus parallèle et en corpus comparable : application au domaine du changement climatique

Suivant Vinay et Darbelnet (1958), traduire c’est transférer le sens d’une langue source vers une langue cible, tant au niveau du lexique, de l’agencement (morphologie, syntaxe) ou du message (ibid. : 36–45). Leur méthode de traduction, basée sur la stylistique comparée de l’anglais et du français, comporte sept « procédés techniques » (ibid. : 46). Ces procédés se divisent en deux catégories : la traduction directe (littérale) et la traduction oblique. Les procédés directs ont recours à l’emprunt (ex. bulldozer), au calque (ex. guerre froide = > cold war) et à la traduction littérale (ex. le livre est sur la table => the book is on the table). Selon Vinay et Darbelnet, ces trois procédés reposent sur les parallélismes (structuraux, métalinguistiques) qui existent entre deux langues. Les procédés obliques, quant à eux, font appel à « des moyens équivalents » qui devront rendre la même impression globale dans les deux messages (ibid. : 46). Ces procédés sont la transposition (ex. expéditeur => from), la modulation (ex. peu profond => shallow), l’équivalence (ex. château de cartes => hollow triumph) et l’adaptation (cyclisme => cricket). Selon les auteurs, l’équivalence, en tant que procédé technique, permet de « rendre compte d’une même situation en mettant en œuvre des moyens stylistiques et structuraux entièrement différents » (ibid. : 52). Par exemple, le proverbe anglais like a bull in a china shop est généralement rendu en français par comme un chien dans un jeu de quilles. On notera au passage que Vinay et Darbelnet entretiennent un flou terminologique par l’emploi du terme équivalence et l’expression moyen équivalent. Ces sept procédés, souvent cités et pris en exemple dans l’enseignement de la traduction, sont cependant fortement critiqués, principalement en raison de l’approche prescriptive adoptée par les auteurs.
En savoir plus

328 En savoir plus

Utiliser des corpus pour amorcer une analyse thématique

Utiliser des corpus pour amorcer une analyse thématique

2.2.2. Exploitation de connaissances sur la cohésion lexicale Un deuxième ensemble de méthodes fait appel à des connaissances externes aux textes que l’on peut considérer comme générales, c’est-à-dire non spécifiques des thèmes abordés. Nous classerons dans cette catégorie les travaux sur la segmentation thématique qui exploitent une source de connaissances cherchant à rendre compte de la notion de cohésion lexicale : un réseau de mots construit à partir d’un dictionnaire dans le cas de Kozima [KOZ 93], un thesaurus dans celui de Morris et Hirst [MOR 91] ou un réseau de collocations dans le cas de Ferret [FER 98a], [FER 98d] et de Kaufmann [KAU 99]. Ces méthodes ont montré leur efficacité sur les textes au sein desquels le vocabulaire est peu spécifique et où une même notion apparaît souvent sous de multiples formes, comme pour les textes narratifs. Cette efficacité est néanmoins conditionnée par la présence du vocabulaire employé dans le texte au sein du réseau lexical utilisé.
En savoir plus

30 En savoir plus

Analyse lexicale outillée de la parole transcrite de patients schizophrènes

Analyse lexicale outillée de la parole transcrite de patients schizophrènes

2. Contexte de l’étude Si nous disposons aujourd’hui de nombreuses références d’articles traitant du su- jet de la production langagière des schizophrènes, il n’est pas aussi simple d’en tirer des conclusions. Outre que ces articles proviennent de domaines variés (psychologie, médecine, linguistique, etc.) et qu’ils sont plus ou moins récents et plus ou moins facilement disponibles selon les traditions de chaque domaine, les conditions des ex- périences décrites sont d’une telle variabilité qu’il est difficile d’en mettre les résultats en cohérence. En effet, les tailles de corpus et les protocoles varient énormément, la langue diffère, les patients sont pour certains en remédiation (et sous traitement), d’autres non. Enfin, les résultats sont comparés dans certains cas à des témoins et dans d’autres à des patients souffrant d’autres désordres ou pathologies.
En savoir plus

26 En savoir plus

Adverbes de positionnement énonciatif dans un corpus d’écrits scientifiques. Étude contrastive anglais – français – espagnol

Adverbes de positionnement énonciatif dans un corpus d’écrits scientifiques. Étude contrastive anglais – français – espagnol

informatique, médicale, par exemple). En effet, l’importance de la prise en compte de registres différents dans les études linguistiques et contrastives est largement reconnue depuis un certain nombre d’années, ainsi que l’a souligné Granger (2015), en insistant sur la nécessité de tenir compte des variations de registre pour mieux distinguer les différences interlinguistiques d’ordre systémique, dues aux langues elles-mêmes, des différences d’ordre stylistique liées au registre. L’analyse des registres est déjà bien répandue en ce qui concerne la recherche sur des corpus monolingues, mais demande à être étendue à des corpus bilingues et multilingues, qui restent encore à élaborer afin de pouvoir mener des comparaisons inter-langues fondées sur des données empiriques pertinentes, qui mettent en lumière les variations de marqueurs ou de structures caractéristiques de tel ou tel genre textuel .
En savoir plus

32 En savoir plus

Analyse lexicale appliquée à une question ouverte à l'aide d'IRaMuTeQ

Analyse lexicale appliquée à une question ouverte à l'aide d'IRaMuTeQ

Résumé (1600 caractères maximum) : IRaMuTeQ est le successeur gratuit d’Alceste, deux logiciels d’analyse lexicale. Il offre un grand nombre d’analyses. Après une lemmatisation du corpus, il propose de compter le nombre de fois que chaque lemme a été cité, de comparer entre les modalités d’une variable « hors corpus » la différence significative de vocabulaire utilisé par chacune par un test du chi2. Il permet aussi de faire une typologie de discours à l’aide de la classification descendante hiérarchique développée par Max Reinert (1983). Cette méthode débute par une AFC, puis continue par la recherche optimale d’une partition pour aboutir à la séparation du corpus en un nombre de classe voulu. Certains paramètres (ajustables ou non) doivent être compris afin d’utiliser correctement le logiciel : le nombre minimum de segments de texte par classe, la fréquence minimum d'une forme analysée et le critère de chevauchement. Ce logiciel a permis d’analyser les données de l’enquête « Tendances des consommations » du CRÉDOC de 2019. Le but étant de comprendre les représentations mentales et sociales du bonheur grâce à la question ouverte « Si je vous dis « être heureux », à quoi pensez-vous ? ». Il a été intéressant d’étudier comment comparer des données sur plusieurs années. La même question ayant été posée en 2013, et sachant qu’une typologie ne peut être vieillie, un système d’AFC appliqué sur un tableau de contingence entre les lemmes et les variables sociodémographiques à étudier par année, permet de voir l’évolution du vocabulaire entre ces deux années.
En savoir plus

28 En savoir plus

Polysémie lexicale

Polysémie lexicale

Pour obtenir automatiquement ces classes, nous avons utilisé une technique d'analyse distributionnelle sur un gros corpus 25 analysé par SYNTEX. Le principe du calcul est le suivant 26 . A chaque unité lexicale on associe sa fiche distributionnelle, constituée par la fréquence relative de ses différents contextes syntactico-lexicaux (un contexte de ce type est composé de la donnée d'un élément lexical du cotexte et de la relation qui le lie à l'unité lexicale considérée). Ce travail est effectué une fois pour toutes : chaque unité lexicale du français est donc caractérisée par sa fiche distributionnelle. Pour obtenir les classes de sélection distributionnelle associée à une construction d'un verbe donné (par exemple jouer de), on établit d'abord la liste des unités lexicales qui ont été rencontrées dans cette construction, puis on construit automatiquement des regroupements au sein de cette liste, en calculant une distance entre ces unités à partir de leur fiche distributionnelle 27 . Les premiers résultats obtenus [JAC 05b] par cette méthode semblent extrêmement prometteurs. Outre les résultats escomptés sur les exemples que nous avons déjà présentés comme jouer de l'ocarina, il faut souligner que l'on obtient d'excellents résultats sur les noms propres, qui cristallisent les différentes difficultés que nous avons évoquées. C'est ainsi que le système classe correctement les différents compléments de descendre dans les exemples suivants : descendre le Gange, descendre Chirac, et descendre le Mont Blanc. Le Gange est classé correctement dans une classe qui contient les mots fleuve et rivière, tandis que Chirac se retrouve avec les mots homme et personne, et Mont Blanc avec piste et montagne. Qui plus est, un même mot, dans différentes constructions, est classé différemment. C'est ainsi que la classe de Wimbledon dans jouer à Wimbledon contient principalement des noms de sport (elle est composée de basket, football, loterie, tennis, rugby, jeu video, base-ball, cricket, golf, et loto), alors que dans revenir de Wimbledon, elle est constituée de noms de lieux et d'activités (Allemagne, Etats-Unis, guerre, mission, et travail), et dans Wimbledon décide, elle est faite de noms d'institutions territoriales (Europe, France, Italie, monde, pays, région, et ville). ). De la même manière, la classe de morceau dans jouer un morceau est composée de chanson, pièce, instrument alors que dans couper en morceau, elle est composée de rondelle, tranche. Ces derniers exemples montrent que l'on peut effectivement désambiguïser un nom grâce à cette méthode, comme nous l'espérions.
En savoir plus

29 En savoir plus

Les erreurs syntaxiques des élèves du secondaire au Québec : analyse de corpus

Les erreurs syntaxiques des élèves du secondaire au Québec : analyse de corpus

d. Manesse  et  Cogis  (2007)  :  une  situation  qui  ne  s’améliore  pas   L’objectif  de  la  recherche  de  Manesse  et  Cogis  (2007)  est  de  comparer  l’orthographe  grammaticale  et   lexicale  des  élèves  de  1987  et  de  2005.  En  1987,  Chervel  et  Manesse  (1989)  ont  comparé  les  résultats   qu’ont  obtenus  les  élèves  de  cette  année  et  ceux  de  1877  à  une  même  dictée.  Il  en  ressort  que,  bien  que   les   élèves   de   1987   passent   moins   de   temps   à   apprendre   la   langue   que   leurs   prédécesseurs   du   siècle   dernier,   ils   réussissent   mieux.   Les   chercheurs   expliquent   cela   par   un   enseignement   de   la   langue   davantage  basé  sur  la  compréhension  du  français.  Ces  résultats  révèlent  ainsi  que  la  population  idéalise   faussement  la  maitrise  du  français  écrit  du  siècle  dernier.  En  2005,  notamment  à  la  suite  de  critiques  des   changements  apportés  au  programme  d’enseignement  de  2002,  Manesse  et  Cogis  se  demandent  si  les   résultats  des  élèves  sont  comparables  à  ceux  que  la  recherche  faite  vingt  ans  plus  tôt  avait  dévoilés.   Pour  ce  faire,  les  chercheuses  reprennent  la  même  dictée  que  celle  qui  avait  servi  en  1987  et  en  1877.   Selon  l’échelle  Dubois-­‐Buyse,  cette  dictée  comporte  34  mots  qui  devraient  être  maitrisés  à  10  ans,  12   mots   à   11   ans,   4   mots   à   12   ans   et   2   mots   à   13   ans.   Cependant,   la   syntaxe   est   considérée   plutôt   inhabituelle  pour  des  élèves  qui  rencontrent  peu  fréquemment  un  style  plus  classique  de  texte.  Ce  sont   les  classes  de  CM2,  6 e ,  5 e ,  4 e  et  3 e  de  25  collèges  publics  du  territoire  français  qui  participent  à  cette   recherche.   Les   chercheuses   conservent   la   même   grille   d’analyse   à   un   détail   près  :   les   catégories                                                                                                                            
En savoir plus

237 En savoir plus

IMAGE DE LA VILLE DANS LE TEXTE LEGISLATIF ALGERIEN ANALYSE SEMIO-LEXICALE

IMAGE DE LA VILLE DANS LE TEXTE LEGISLATIF ALGERIEN ANALYSE SEMIO-LEXICALE

 Créer, sur le plan opératoire, une prise de conscience des enjeux et des retombées spatiales et sociopolitiques de l’acte de légiférer. 5. Structure du mémoire L’architecture de ce mémoire est conçue autour de deux chapitres et d’une conclusion générale qui répondent aux questions soulevées par le projet de recherche. Le premier chapitre repose sur deux parties complémentaires, l’une consacrée à la présentation de la sémiotique en tant que discipline qui s’intéresse à la signification, puis à la présentation de l’analyse lexicale. Cette présentation se réfère aux précurseurs et aux références scientifiques qui ont participé à la construction de l’édifice épistémologique des deux types d’analyse. Elle donne également un aperçu sur leurs origines, les enjeux auxquels elles sont associées et les concepts centraux qui les ont fondées. Cette partie indique le cadre théorique dans lequel se situe la recherche. La deuxième partie, expose la méthodologie de travail adoptée ou protocole d’analyse. Celle-ci constitue une lecture particulière de ce qui a été théoriquement exposé dans la première partie. Les deux analyses qui y sont présentées se voient relues et reformulées conformément aux objectifs du projet de recherche. Le deuxième chapitre se déploie en trois moments. Le premier, présente le corpus objet de l’analyse et les critères qui ont présidé au choix des textes retenus. Le deuxième moment est celui de l’analyse proprement dite suivie de l’interprétation des résultats obtenus qui constitue le troisième moment de l’analyse. Cette troisième étape permet de mesurer l’impact des textes législatifs sur l’acte de conception et de production des villes algériennes ainsi que les retombées spatiales et sociopolitiques de l’acte de légiférer.
En savoir plus

212 En savoir plus

Le terme végane dans tous ses états : une analyse lexicale et discursive dans la presse francophone européenne

Le terme végane dans tous ses états : une analyse lexicale et discursive dans la presse francophone européenne

Le juteux business du vegan 486 D2 La nourriture, première frontière 520 NG1 Jocelyne Porcher : « Défendre les éleveurs contre les idéologues et les industriels » 446 NG2 Les articles de presse généralistes sont a priori rédigés par des journalistes qui, s’ils peuvent prendre parti, sont censés faire preuve de bonne foi, exposer différents points de vue, et globalement proposer une information la plus exhaustive possible. Certains journaux engagés et certains genres, comme l’éditorial ou la tribune, sont plus à même de laisser s’exprimer des positions individuelles fortes, et un argumentaire orienté dans leur sens. Ainsi parmi les articles que nous avons retenus, l’un d’entre eux est une tribune, qui n’a pas été rédigée par des journalistes de métier : le texte P1 est co-signé par 3 personne qui ont pris position à plusieurs reprises sur la scène publique sur la question des rapports entre les humains et les animaux, et notamment Brigitte Gothière, fondatrice de l’association L214 dont les vidéos ont d’ailleurs généré un certain nombre d’articles de notre corpus. Il s’agit donc d’un texte engagé, proposé par des personnes qui ont longuement réfléchi à ces questions et préparé un argumentaire dans le but de convaincre. Cependant cet article est comme les autres publié dans un journal à tirage national, et donc destiné au grand public, qui de plus n’est pas nécessairement informé ou ne se soucie pas forcément du nom des auteurs des articles qu’il lit. Nous estimons donc que pour le lecteur moyen, ce texte est un article de presse au même titre que les autres, même si son positionnement militant est explicite et qu’il porte le nom de « tribune ». De plus il respecte un certain nombre de contraintes liées au genre général de l’article de presse, notamment le souci d’apporter des éléments factuels, et la relative concision du texte, même si nous notons qu’il est le plus long de tous les articles étudiés dans cette partie. Nous avons donc choisi de conserver ce texte pour notre analyse, aussi parce qu’il peut avoir un rôle de témoin vis-à-vis des autres, rédigés par des journalistes non spécialistes de la question.
En savoir plus

205 En savoir plus

L'EXCES DE CONFIANCE DES DIRIGEANTS ET LA DECISION DE DISTRIBUTION DE DIVIDENDES : UNE ANALYSE LEXICALE

L'EXCES DE CONFIANCE DES DIRIGEANTS ET LA DECISION DE DISTRIBUTION DE DIVIDENDES : UNE ANALYSE LEXICALE

12 Deuxièmement, la classe 4 correspond au discours stratégique des dirigeants. Elle représente à elle seule plus de la moitié du corpus retenu et classé. L’analyse du vocabulaire des formes réduites de cette classe (tableau 3), permet d’observer la fréquence significative des mots représentants la stratégie « développement, innovation, technologie, acquisition, concurrence, enjeux, positionner, etc. ». Ce discours se caractérise aussi par le fait qu’il est chargé de surconfiance, nous retrouvons les mots « leader, majeur, affirmer, ambition, réussir, puissance, conviction, etc. » de manière assez récurrente. Voici deux extraits d’UCE illustratifs : « uce 751 Khi2 = 19 uci 47 : *année_2006 *rapport_oui *société_pernodric une (conviction) (toujours) (plus) forte, (desormais) (partagee) (avec) les 5 000 (collaborateurs)…Ces valeurs (fondent) (notre) (culture) d (entreprise). (Elles) (nous) (donnent) (egalement) une (force) (supplementaire) pour (poursuivre) (notre) (approche) a-la-fois (resolue) (et) raisonnee des (marches) ». « uce 1145 Khi2 = 13 uci 71 : *année_2007 *rapport_oui *société_creditagr (S) (appuyant) (sur) ces (acquis), le groupe (peut) envisager (avec) lucidite (et) confiance les (defis) de (demain), au (service) de (son) (ambition:) (devenir) un (leader) (europeen), a (vocation) (mondiale), de la (banque) (et) de l (assurance) ».
En savoir plus

19 En savoir plus

L’erreur lexicale au secondaire : analyse d’erreurs lexicales d’élèves de 3e secondaire et description du rapport à l’erreur lexicale d’enseignants de français

L’erreur lexicale au secondaire : analyse d’erreurs lexicales d’élèves de 3e secondaire et description du rapport à l’erreur lexicale d’enseignants de français

Moffet, responsable de l'élaboration et de la validation de l'épreuve uniforme de  français (Maisonneuve, 1997)?  Les  articles  portant  sur  l’évaluation  de  productions  écrites  que  nous  avons  consultés  (Halté,  1984  ;  Garcia‐Debanc  et  Mas,  1987  ;  Gueunier,  1989)  ne  font  que  peu  mention  du  vocabulaire,  sinon  pour  spécifier  qu’il  fait  toujours  partie  des  critères  d’évaluation.  Gueunier  (1989)  a  tout  de  même  observé  que  les  futurs enseignants français semblaient démontrer d’importantes lacunes dans le  diagnostic  de  problèmes  lexicaux.  Elle  mentionne  aussi  que  les  enseignants,  autant que les futurs maitres, démontrent des « compétences métalinguistiques  […]  plus  grandes  dans  les  domaines  relevant  de  la  surface  de  la  langue  qu’en  sémantique et grammaire du texte » (p.97). Martin (1984) souligne quant à elle  la  difficulté  d’expliquer  aux  élèves  ce  qui  ne  va  pas  dans  leurs  choix  lexicaux  douteux.  Dans  une  étude  à  petite  échelle  dans  laquelle  elle  demandait  à  des  enseignants  d’anglais  langue  seconde  d’expliquer  certaines  erreurs  lexicales  comme  ils  l’auraient  fait  à  leurs  élèves,  Zimmerman  (1993)  a  constaté  qu’ils  avaient de fortes intuitions leur permettant d’expliquer aisément certains types  de  problèmes  lexicaux  –  notamment  ceux  liés  à  la  connotation  –,  mais  qu’ils  peinaient  à  fournir  une  rétroaction  pertinente  pour  d’autres,  particulièrement  les  problèmes  de  collocation.  Malgré  ces  observations,  nous  ignorons  si  les  enseignants eux‐mêmes se sentent dépourvus devant des problèmes de nature  lexicale.  
En savoir plus

528 En savoir plus

Analyse thématique et analyse propositionnelle : application à un corpus de témoignages concernant l'injustice scolaire

Analyse thématique et analyse propositionnelle : application à un corpus de témoignages concernant l'injustice scolaire

Le logiciel Tropes (Molette & Landré, 2011) fournit des renseignements concernant les univers de référence selon trois niveaux de précision : les univers de référence 1 (niveau de généralisation le plus élevé), les univers de référence 2 (niveau de généralisation moindre) et les références utilisées. Chacune de ces fonctions indique qui sont les actants et les actés. Seuls les univers de référence 1 sont traités ainsi que les références utilisées, afin d’éviter la répétition de certains résultats communs aux univers 1 et 2. Ainsi, l’univers de référence 1 « Europe » devient, dans l’univers de référence 2, « Europe de l’Ouest » car les termes : français, néerlandais, Belgique et anglais (c’est-à-dire des cours que suivent les élèves) apparaissent dans les témoignages. Le tableau 9 présente les cinq principaux univers de référence 1; classés selon leur ordre d’importance ; ainsi que les références qu’ils contiennent. Remarquons que ces renseignements semblent contradictoires avec le résultat obtenus du logiciel Tropes (Molette & Landré, 2011) concernant le style du texte. En effet, la deuxième position en terme d’importance de l’univers 1 tend à montrer que les élèves contextualisent dans le temps leurs situations d’injustice, ce qui relèverait donc plutôt d’un style « narratif ». Pourtant, selon le logiciel Tropes (Molette & Landré, 2011) , malgré la présence de nombreuses marques de contextualisation temporelle dans leurs récits, les élèves font davantage de comparaisons entre les faits et personnes.
En savoir plus

20 En savoir plus

Présentation de l'atelier SemDis 2014 : sémantique distributionnelle pour la substitution lexicale et l'exploration de corpus spécialisés

Présentation de l'atelier SemDis 2014 : sémantique distributionnelle pour la substitution lexicale et l'exploration de corpus spécialisés

Mots-clés : Sémantique distributionnelle, substitution lexicale, tâche partagée, évaluation. Keywords: Distributional semantics, lexical substitution, shared task, evaluation. 1 Introduction Les méthodes d’analyse distributionnelle fondées sur le principe harrissien sont aujourd’hui largement répandues. Des expérimentations nombreuses ont été menées, sur différentes langues, et des travaux de synthèse ont permis récemment de stabiliser les notions et les procédures relatives au calcul distributionnel (Baroni & Lenci, 2010; Turney & Pantel, 2010). L’organisation de la première édition de l’atelier SemDis dans le cadre de la conférence TALN, en 2013, visait à rassembler des travaux relevant de cette démarche, avec une focalisation sur les expériences menées sur le français. Il nous a paru en effet utile de faire le point sur le domaine français, initialement marqué par l’importance de travaux précurseurs à la fin des années 1990, qui ont appliqué la méthode distributionnelle au traitement de corpus spécialisés (Bouaud et al., 1997; Habert & Zweigenbaum, 2002) 1 , avec des moyens et des objectifs assez éloignés de ceux qui
En savoir plus

11 En savoir plus

Distance intertextuelle et connexion lexicale : outils de catégorisation générique ou stylistique ? Approche expérimentale d'un corpus inédit : le corpus aragonien

Distance intertextuelle et connexion lexicale : outils de catégorisation générique ou stylistique ? Approche expérimentale d'un corpus inédit : le corpus aragonien

manque pour livrer ici les graphiques afférents. La conclusion rend compte succinctement des principaux résultats. 4. Conclusion Hautes et basses fréquences se sont avérées sensibles à la différenciation générique. Aucun test statistique n’a permis au critère chronologique de prévaloir sur le critère générique, même si la constitution de ce corpus qui croise les deux paramètres pouvait encourager ce résultat. Cependant, les analyses arborées qui mettent en valeur la distribution des œuvres selon l’emploi qu’elles font des hautes et des basses fréquences ne sont pas superposables ; leurs divergences peuvent être commentées. Les hautes fréquences paraissent plus sensibles à la variation chronologique, autrement dit, peuvent être postulées comme un paramètre valide pour suivre l’évolution d’une écriture au cours du temps ; les œuvres se regroupent en sous- corpus réunis par un point commun, celui d’appartenir à la même tranche chronologique. Le genre établit une classification première qui peut se subdiviser en sous-classifications selon les bouquets chronologiques. Les basses fréquences ont tendance à mieux marquer les caractères plus individualisés des œuvres : les moments de rupture d’une part (le Livre V s’individualise comme tournant qui coïncide avec la rupture qui a amené Aragon à s’éloigner du mouvement surréaliste), d’autre part les spécificités de l’écriture qui s’approprie certains mots peu répétés mais essentiels – sans doute glisse-t-on alors davantage vers ce qu’il est convenu d’appeler le stylistique, envisagé comme une appropriation de la langue par le discours d’un individu, ou encore comme « processus de singularisation » (Herschberg-Pierrot, 2006 : 31) d’une œuvre. Toutefois, en élevant le seuil de la fréquence pour observer la distribution des formes de plus de mille occurrences, on perd la distinction chronologique pour ne plus conserver que la répartition générique. La structure grammaticale – qu’on peut voir matérialisée par ces très hautes fréquences – n’est pas a priori pertinente pour ce corpus d’étude pour en tester l’éventuelle variation au cours du temps. C’est ce que confirme par ailleurs l’analyse arborée qui porte uniquement sur les codes grammaticaux tout en fournissant la surprise du rapprochement de deux œuvres qu’une trentaine d’années séparent.
En savoir plus

9 En savoir plus

Show all 9663 documents...