Haut PDF Construction d'un corpus et perte d'information en analyse lexicale (Méthodes et pratiques)

Construction d'un corpus et perte d'information en analyse lexicale (Méthodes et pratiques)

Construction d'un corpus et perte d'information en analyse lexicale (Méthodes et pratiques)

Le choix entre lemmatisation et non lemmatisation est motivé par le fait que la lexicométrie n’a pas la faculté de traiter la phrase dans sa composante syntaxique. Elle est réduite à n[r]

218 En savoir plus

Analyse comparative de l'équivalence terminologique en corpus parallèle et en corpus comparable : application au domaine du changement climatique

Analyse comparative de l'équivalence terminologique en corpus parallèle et en corpus comparable : application au domaine du changement climatique

Dans la première stratégie, les traductions sont écartées sous prétexte qu’elles sont plus susceptibles de contenir des fautes linguistiques (calques, faux amis, etc.) ou qu’elles seraient différentes des originaux. Cette stratégie, quoique radicale, peut sembler valable. Cependant, lorsque cette solution est adoptée, il est essentiel de présenter dans la méthodologie les moyens pris pour ne pas inclure de traductions dans le corpus 36 . À ce sujet, il n’est pas toujours facile de savoir si un ouvrage est une traduction ou pas, cette information n’est pas toujours mise en évidence; parfois elle est complètement absente. Un autre aspect peu envisagé est que les ouvrages collectifs sont souvent hybrides – certains chapitres ou articles sont des traductions alors que d’autres sont des originaux. D’autre part, les corpus construits avec des articles de journaux posent un problème majeur. Comment peut-on s’assurer que ce sont réellement des originaux lorsqu’on sait que les journalistes tirent souvent leurs informations des communiqués des agences de presse, Thomson Reuters entre autres? Toutes ces vérifications prennent du temps et constituent un inconvénient majeur lors de la construction des corpus, surtout pour ceux de très grande taille. Maintenant, à supposer que l’on soit en mesure de procéder à toutes ces vérifications, il reste un autre problème. Certaines traductions ont autant de poids sinon plus, du point de vue terminologique, que certains originaux. Par exemple, dans le domaine du changement climatique, les rapports du GIEC sont des traductions. Cependant, ces textes sont la source de très nombreux articles scientifiques et la terminologie qu’ils contiennent est reprise par beaucoup 37 . Que faire dans ces cas-là? Tolérer une entorse à la méthodologie de la première stratégie ou se priver d’une ressource de premier plan?
En savoir plus

328 En savoir plus

L'EXCES DE CONFIANCE DES DIRIGEANTS ET LA DECISION DE DISTRIBUTION DE DIVIDENDES : UNE ANALYSE LEXICALE

L'EXCES DE CONFIANCE DES DIRIGEANTS ET LA DECISION DE DISTRIBUTION DE DIVIDENDES : UNE ANALYSE LEXICALE

 Pour avoir le maximum de données, nous avons complété notre corpus par les « messages des dirigeants » figurants dans les lettres que ces derniers adressent à leurs actionnaires dites « lettres d’actionnaires ». A la différence des rapports annuels qui obéissent à une obligation d’information très réglementée par l’AMF, les lettres aux actionnaires correspondent à une communication volontaire de la part des sociétés. A ce titre, le « message du président » est à priori spontané, ce qui rend cette variable explicative plus crédible à tester à condition qu’elle contienne des indications sur le comportement de distribution de la société émettrice.
En savoir plus

19 En savoir plus

IMAGE DE LA VILLE DANS LE TEXTE LEGISLATIF ALGERIEN ANALYSE SEMIO-LEXICALE

IMAGE DE LA VILLE DANS LE TEXTE LEGISLATIF ALGERIEN ANALYSE SEMIO-LEXICALE

 Créer, sur le plan opératoire, une prise de conscience des enjeux et des retombées spatiales et sociopolitiques de l’acte de légiférer. 5. Structure du mémoire L’architecture de ce mémoire est conçue autour de deux chapitres et d’une conclusion générale qui répondent aux questions soulevées par le projet de recherche. Le premier chapitre repose sur deux parties complémentaires, l’une consacrée à la présentation de la sémiotique en tant que discipline qui s’intéresse à la signification, puis à la présentation de l’analyse lexicale. Cette présentation se réfère aux précurseurs et aux références scientifiques qui ont participé à la construction de l’édifice épistémologique des deux types d’analyse. Elle donne également un aperçu sur leurs origines, les enjeux auxquels elles sont associées et les concepts centraux qui les ont fondées. Cette partie indique le cadre théorique dans lequel se situe la recherche. La deuxième partie, expose la méthodologie de travail adoptée ou protocole d’analyse. Celle-ci constitue une lecture particulière de ce qui a été théoriquement exposé dans la première partie. Les deux analyses qui y sont présentées se voient relues et reformulées conformément aux objectifs du projet de recherche. Le deuxième chapitre se déploie en trois moments. Le premier, présente le corpus objet de l’analyse et les critères qui ont présidé au choix des textes retenus. Le deuxième moment est celui de l’analyse proprement dite suivie de l’interprétation des résultats obtenus qui constitue le troisième moment de l’analyse. Cette troisième étape permet de mesurer l’impact des textes législatifs sur l’acte de conception et de production des villes algériennes ainsi que les retombées spatiales et sociopolitiques de l’acte de légiférer.
En savoir plus

212 En savoir plus

Analyse haut niveau du corpus Cogni-CISMeF

Analyse haut niveau du corpus Cogni-CISMeF

Nous avons vu que les phases de dialogue étaient identiques entre les deux corpus et que le dialogue consiste en une phase d’ouverture, de verbalisation, de construction de la première requête puis d’un cycle lancement de la requête - présentation et évaluation des résultats - réparation de la requête pour terminer sur une phase de clôture. Nous avons vu que la stratégie globale adoptée par l’expert impacte les phases de dialogue. Ainsi, les phases de verbalisations du corpus AL sont sensiblement plus courtes que les phases de verbalisations du corpus VD (cf. 2.1.2). Elles conduisent à un cadrage beaucoup plus flou des besoins en information de l’enquêté qui motivent la recherche. Cela influe sur les phases d’évaluation qui présentent maintenant des demandes de clarifications sur la recherche de l’enquêté. Ces phases d’évaluation sont menées par l’expert qui se fie à son propre jugement (cf. 2.1.3). Il sollicite très peu l’enquêté sur l’adéquation des ressources obtenues. Néanmoins, l’enquêté n’hésite pas à intervenir spontanément pour donner son avis. Nous avons retrouvé les cas particuliers de jugement de l’inadéquation d’une ressource par rapport à la demande de l’enquêté vu dans le corpus VD (cf. 2.1.3). Nous avons détecté un nouveau cas particulier : l’expert est capable de juger un document comme trop général s’il est indexé par un nombre trop important de termes comparés à ceux de la requête. La principale critique de la stratégie globale de l’expert est le risque de déviation par rapport à l’objectif initial (cf. 2.1.3).
En savoir plus

139 En savoir plus

Présentation de l'atelier SemDis 2014 : sémantique distributionnelle pour la substitution lexicale et l'exploration de corpus spécialisés

Présentation de l'atelier SemDis 2014 : sémantique distributionnelle pour la substitution lexicale et l'exploration de corpus spécialisés

(2) IRIT-MELODI : CNRS & Université de Toulouse Résumé. Il s’agit d’un article d’introduction aux actes de SemDis 2014, atelier dédié aux méthodes d’analyse sé- mantique distributionnelle, avec une focalisation sur la construction de ressources distributionnelles en français. Il décrit les deux tâches qui ont été proposées dans le cadre de l’atelier : la première est une tâche compétitive de substitution lexicale, basée sur le corpus FRWAC. La seconde, plus exploratoire, consiste à analyser un corpus spécifique relevant du champ du TAL. Nous rendons compte de l’évaluation des systèmes qui ont participé à la tâche compétitive, et donnons un aperçu de la diversité des méthodes qui ont été utilisées par les participants dans les deux tâches.
En savoir plus

11 En savoir plus

Le terme végane dans tous ses états : une analyse lexicale et discursive dans la presse francophone européenne

Le terme végane dans tous ses états : une analyse lexicale et discursive dans la presse francophone européenne

Le juteux business du vegan 486 D2 La nourriture, première frontière 520 NG1 Jocelyne Porcher : « Défendre les éleveurs contre les idéologues et les industriels » 446 NG2 Les articles de presse généralistes sont a priori rédigés par des journalistes qui, s’ils peuvent prendre parti, sont censés faire preuve de bonne foi, exposer différents points de vue, et globalement proposer une information la plus exhaustive possible. Certains journaux engagés et certains genres, comme l’éditorial ou la tribune, sont plus à même de laisser s’exprimer des positions individuelles fortes, et un argumentaire orienté dans leur sens. Ainsi parmi les articles que nous avons retenus, l’un d’entre eux est une tribune, qui n’a pas été rédigée par des journalistes de métier : le texte P1 est co-signé par 3 personne qui ont pris position à plusieurs reprises sur la scène publique sur la question des rapports entre les humains et les animaux, et notamment Brigitte Gothière, fondatrice de l’association L214 dont les vidéos ont d’ailleurs généré un certain nombre d’articles de notre corpus. Il s’agit donc d’un texte engagé, proposé par des personnes qui ont longuement réfléchi à ces questions et préparé un argumentaire dans le but de convaincre. Cependant cet article est comme les autres publié dans un journal à tirage national, et donc destiné au grand public, qui de plus n’est pas nécessairement informé ou ne se soucie pas forcément du nom des auteurs des articles qu’il lit. Nous estimons donc que pour le lecteur moyen, ce texte est un article de presse au même titre que les autres, même si son positionnement militant est explicite et qu’il porte le nom de « tribune ». De plus il respecte un certain nombre de contraintes liées au genre général de l’article de presse, notamment le souci d’apporter des éléments factuels, et la relative concision du texte, même si nous notons qu’il est le plus long de tous les articles étudiés dans cette partie. Nous avons donc choisi de conserver ce texte pour notre analyse, aussi parce qu’il peut avoir un rôle de témoin vis-à-vis des autres, rédigés par des journalistes non spécialistes de la question.
En savoir plus

205 En savoir plus

Gestualité et construction des chaînes de référence dans un corpus d’interactions tandem

Gestualité et construction des chaînes de référence dans un corpus d’interactions tandem

RÉSUMÉS Dans cet article, nous étendons la notion de chaîne de référence au discours oral et l’envisageons d’un point de vue multimodal au cours de l’interaction en tandem linguistique, contexte qui peut être propice à l’instabilité référentielle. L’analyse qualitative de deux séquences interactionnelles montre comment les chaînes de référence se déploient en combinant discours et gestualité. Nous précisons la notion de reprise gestuelle à l’appui d’approches formelles, en décomposant le geste en un ensemble de traits (localisation, configuration, orientation et mouvement, mais aussi durée, vitesse et amplitude) pour caractériser la réduction et l’expansion de la reprise gestuelle. La réduction des reprises gestuelles peut s’envisager comme un processus de conventionnalisation à l’échelle de la séquence. A l’instar des proformes en discours, les reprises gestuelles réduites reflètent l’accessibilité de la référence et le statut d’information connue. L’expansion d’un geste repris permet d’élaborer ou de requalifier le référent. Elle met en jeu le geste comme élément d’un pot commun de ressources réutilisables, décomposables et transformables pour la co-construction du sens en interaction.
En savoir plus

25 En savoir plus

Exploitation d'une ressource lexicale pour la construction d'un étiqueteur morphosyntaxique état-de-l'art du français

Exploitation d'une ressource lexicale pour la construction d'un étiqueteur morphosyntaxique état-de-l'art du français

Abstract. This paper presents MElt fr , an automatic POS tagger for French. This system relies on a sequential probabilistic model that exploits information extracted from an external lexicon, namely Lefff . When evaluated on the FTB corpus, MElt fr achieves an accuracy of 97.75% (91.36% on unknow words) using a tagset of 29 categories. This corresponds to an error rate decrease of 18% (36.1% on unknow words) compared to the same model without Lefff information. We investigate in more detail the contri- bution of this resource through two sets of experiments. These reveal in particular that the Lefff features allow for an increased coverage and a finer-grained modeling of the context at the right of a word.
En savoir plus

11 En savoir plus

La construction d'un corpus (les prologues anglais et le vocabulaire de la connaissance)

La construction d'un corpus (les prologues anglais et le vocabulaire de la connaissance)

Lyon, les 27 et 28 nov. 2006, L'historien, le texte et l'ordinateur 4 Pour explorer ces différentes hypothèses, j’ai dans un premier temps entrepris d’analyser une série de prologues d’œuvres écrites en anglais entre 1350 et 1450 pour tenter de définir les différents champs lexicaux de la connaissance, de l’autorité, du politique… et de comprendre comment ils s’y articulent – mais je précise tout de suite que je ne m’attarderai aujourd’hui que sur les problèmes de définition et de typologie de ce corpus. Cela est lié bien sûr au temps qui m’est imparti, mais aussi au fait que ces problèmes constituent les préliminaires indispensables de toute analyse lexicale – la structuration et la catégorisation d’un corpus sont les cadres indispensables de cette analyse (comme toute analyse historique, bien sûr).
En savoir plus

10 En savoir plus

La compréhension des métaphores chez les enfants : une analyse de corpus

La compréhension des métaphores chez les enfants : une analyse de corpus

congruentes apparaissant dans le discours des enfants. Nous tenterons ici encore d'en tirer des conclusions sur l'émergence des capacités de traitement métaphorique. Le mémoire présent visera à ancrer notre analyse dans un cadre théorique assez large qui pourra être complété par la suite. Il abordera, dans un premier chapitre, la problématique de la définition du procédé métaphorique. À travers un point de vue en intension puis en extension, les conceptions de la rhétorique classique seront confrontées à celles plus récentes de la rhétorique constructiviste. Un deuxième chapitre sera consacré aux travaux ayant étudié la compréhension des métaphores chez les enfants. Il s'agira, dans un premier temps, d'études expérimentales établissant des correspondances avec le développement cognitif, tel qu'il est établi par Piaget (1964). Des expérimentations mettant davantage l'accent sur l'évolution des capacités linguistiques ou métalinguistiques seront ensuite évoquées. L'ensemble de ces données sera complété avec celles issues de travaux s'intéressant au traitement des formes idiomatiques. Enfin, notre cadrage théorique se terminera par une confrontation des différentes tâches expérimentales utilisées par les différents chercheurs.
En savoir plus

109 En savoir plus

Analyse comparative de corpus : cas de l'ingénierie des connaissances

Analyse comparative de corpus : cas de l'ingénierie des connaissances

mot outil dans le corpus 1 Le module U PERY calcule pour chaque mot ou syntagme la liste de ses contextes Tête et de ses contextes Expansion. Dans notre expérience, n’ont été exploités que les syntagmes qui apparaissent dans au moins 3 articles. Dans la partie 3.4, nous étudierons les différences entre les deux corpus : quels sont les termes qui sont présents dans les deux corpus, mais avec des contextes Tête ou Expansion très différents. La méthode mise en œuvre ici pour repérer ces fluctuations, joliment qualifiées d’ « ondoiements » dans (Habert et al., 2002), consiste à comparer pour chaque terme les listes des contextes Tête et Expansion qu’il possède dans les deux corpus. Si ces contextes sont sensiblement différents d’un corpus à l’autre, nous faisons l’hypothèse que c’est un indice d’évolution sémantique. Cette méthode ne s’applique bien entendu qu’aux termes qui ont suffisamment de contextes dans l’un ou l’autre des deux corpus. La comparaison se fait sur la base de deux coefficients de proximité, l’un (proxT) pour la comparaison des contextes Tête et l’autre (proxE) pour la comparaison des contextes Expansion. Le coefficient proxT est calculé ainsi : soit un terme t. Le module U PERY a calculé la liste LcT 1 des contextes Tête du terme
En savoir plus

18 En savoir plus

Construction d'un corpus multilingue annoté en relations de traduction

Construction d'un corpus multilingue annoté en relations de traduction

Une autre famille d’approches importante exploite des corpus multilingues parallèles, disponibles en abondance pour certaines paires de langues et certains domaines. L’approche la plus étudiée repose sur l’équivalence de traduction entre segments (Bannard & Callison-Burch, 2005), et sur l’hypothèse selon laquelle si deux segments dans la même langue partagent une ou plusieurs traductions com- munes (considérées comme des "pivots") dans une ou plusieurs langues étrangères, alors ils sont potentiellement des paraphrases (voir une illustration sur la figure 1). Cette méthode exploite les informations des tables de traduction statique générées par les systèmes de traduction automatique basés sur les segments (PBSMT). Le travail ultérieur de Callison-Burch (2008) a affiné cette approche en imposant que les segments partagent la même structure syntaxique CCG (Combinatory Categorial Grammar), ce qui a permis d’améliorer la substituabilité grammaticale pour les paires produites. En se basant sur cette même approche, mais dans le but d’obtenir une meilleure généralisation, Zhao et al. (2008) ont utilisé des arbres de dépendances pour apprendre des patrons de paraphrases qui incluent des variables de partie du discours.
En savoir plus

16 En savoir plus

Apport des termes complexes à l'acquisition lexicale multilingue à partir de corpus comparables spécialisés : entre intuition et réalité

Apport des termes complexes à l'acquisition lexicale multilingue à partir de corpus comparables spécialisés : entre intuition et réalité

Apport des termes complexes à l’acquisition lexicale multilingue à partir de corpus comparables spécialisés : entre intuition et réalité Emmanuel Morin.. To cite this version: Emmanuel M[r]

11 En savoir plus

L’erreur lexicale au secondaire : analyse d’erreurs lexicales d’élèves de 3e secondaire et description du rapport à l’erreur lexicale d’enseignants de français

L’erreur lexicale au secondaire : analyse d’erreurs lexicales d’élèves de 3e secondaire et description du rapport à l’erreur lexicale d’enseignants de français

influencé l’enseignement du français au cours des dernières décennies. Voici les  raisons qui nous poussent à inscrire notre réflexion sur l’erreur lexicale dans ce  courant de recherche.  Tout d’abord – nous l’avons déjà mentionné et le verrons plus en détail dans les  prochaines  sections  –,  la  TST  propose  une  caractérisation  très  claire  et  exhaustive  de  la  notion  de  « mot »,  notion  cruciale  pour  toute  réflexion  sur  l’erreur lexicale; la description lexicographique constitue la clé de voute de cette  approche linguistique, contrairement à d’autres théories, comme la grammaire  générative,  dans  lesquelles  la  place  centrale  est  occupée  par  la  syntaxe.  Il  faut  par  ailleurs  mentionner  que  les  concepts  lexicaux  auxquels  nous  ferons  appel  dans  cette  thèse  ne  sont  pas  exclusifs  à  la  TST;  la  plupart  sont  des  concepts  généralement  admis  en  linguistique,  mais  dont  les  définitions  sont  parfois  élastiques,  ce  qui  peut  conduire  à  une  certaine  confusion,  d’où  la  nécessité  de  choisir  un  cadre  théorique  précis.  L’intérêt  de  la  TST  pour  nous  est  qu’elle  fournit  des  définitions  claires  et  non  ambigües  de  l’ensemble  des  concepts  linguistiques  essentiels  à  notre  travail  et  qu’elle  les  ordonne  dans  un  système  cohérent où les liens qui les unissent sont mis en évidence. Elle associe aussi à ce  réseau  conceptuel  une  terminologie  précise,  qui  permet  d’atteindre  un  niveau  d’abstraction favorisant la distanciation nécessaire à toute réflexion « méta » sur  la  langue.  Par  ailleurs,  les  formalismes  puissants  et  la  rigoureuse  méthode  de  description que propose la LEC constituent quant à eux des outils formidables  pour  la  description  lexicographique  qui,  nous  en  sommes  convaincu,  se  révèleront  précieux  pour  aborder  la  tâche  difficile  de  description  d’erreurs  linguistiques. 
En savoir plus

528 En savoir plus

ANalyse et exploitation des données de corpus linguistiques : présentation

ANalyse et exploitation des données de corpus linguistiques : présentation

Présentation D OSSIERS D ’HEL 11, 2017 © SHESL 5 Enfin, Rossana D E A NGELIS discute les différentes analyses critiques qui s’intéressent aux transformations du rapport entre texte, corpus, discours, impliquées par le développement du numérique, notamment la dématérialisation et la délinéarisation du texte. Elle montre en particulier comment l’approche herméneutique numérique permet d’appréhender ces nouvelles formes textuelles, et donne l’exemple du site The World of

4 En savoir plus

Internet opportunities for distributed construction information

Internet opportunities for distributed construction information

The use of the Internet is growing exponentially. In many areas the information flow and volume are doubling in less than a year. The ICARIS information system, for example, delivered 82 kilobytes of information per day and was accessed by 234 client programs (at least as many different humans) in June 1994. In November 1994, only 5 months later, 1307 people accessed ICARIS and downloaded an equivalent of 300 technical papers (similar in length and complexity to this paper) in a month, averaging to 450 kilobytes per day. In contrast, the total usage of the WWW server at Faculty of Civil Engineering in Ljubljana grew ten-fold in a similar period of time. On weekdays this host server delivers approximately 6000 "pages" of information, or about 20 megabytes to the construction community: - an equivalent of twenty books each 500 pages long. Comparing the five-fold increase in ICARIS to the ten-fold change in other areas illustrates that the construction industry and its research must still catch up with the silicon (and optical) curve - curves which mean doubling the computing power every 18 months.
En savoir plus

26 En savoir plus

Gouverner sans les instruments ? La difficile construction des politiques relatives à la perte d'autonomie des personnes âgées

Gouverner sans les instruments ? La difficile construction des politiques relatives à la perte d'autonomie des personnes âgées

Ce dernier point est original au regard des expériences dont nous avons connaissance. Pour le moment, les travaux dans le domaine de l’environnement et de l’aménagement du territoire se sont concentrés sur un type de dispositif, par exemple le SCOT – Schéma de Cohérence Territoriale (Vitry et Chia, 2014). Dans le cas des politiques de la vieillesse, le dispositif MAIA semble aujourd’hui isolé en tant que méthode de déploiement. De plus il cherche à interfacer des éléments existants. Ceci est indispensable mais la politique de prise en charge de la perte d’autonomie est encore largement en cours de développement, notamment de services complémentaires sur les territoires pour offrir une palette de services suffisante pour répondre à la variété des besoins individuels (Gand, Hénaut et al., 2014). Il s’agit donc d’instrumenter la manière dont un territoire arrive à élaborer des plans d’action cumulatifs de services en les articulant plutôt que de déployer un dispositif seul.
En savoir plus

13 En savoir plus

Analyse thématique et analyse propositionnelle : application à un corpus de témoignages concernant l'injustice scolaire

Analyse thématique et analyse propositionnelle : application à un corpus de témoignages concernant l'injustice scolaire

méthodologique, les deux types d’analyses répondent à des objectifs différents (Fallery & Rodhain, 2007). L’analyse thématique, de type mixte (Mukamurera, Lacourse & Couturier, 2006) montre que la typologie issue des travaux de François Dubet (1999) englobe presque entièrement la totalité des témoignages des élèves. Cette tripartition composée des principes du mérite, de l’égalité et du respect propose un angle d’approche adéquat et complet afin d’appréhender les sentiments d’injustice des élèves (Caillet, 2009 ; Duru-Bellat & Brinbaum, 2009) dès lors que la grille d’analyse se construit de façon itérative sur base d’une revue de la littérature complémentaire ainsi de l’encodage du corpus en unités de sens. Un tel constat est moins marquant si l’on se centre sur l’unique analyse propositionnelle. L’utilisation de cette méthode, différente et complémentaire, montre que les diverses situations sont fortement ancrées dans des faits concrets. Les élèves y décrivent des personnes, des lieux, des moments et des faits les touchant directement. Ils font en effet abondamment référence aux professeurs, aux élèves, à la classe. A ce titre, il est clair qu’ils explicitent les divers principes de justice tout en mobilisant leurs critères en fonction des situations qu’ils rencontrent (Caillet, 2009). Cette contextualisation des témoignages, plutôt que la remise en cause du système, pourrait être rapportée à l’hypothèse d’un monde juste (Lannegrand-Willems, 2004). Cette théorie expliquerait alors que les élèves, qui relient les injustices à des personnes et actes concrets plutôt qu’au système scolaire en général, agissent de la sorte afin d’accepter au mieux leur situation, si peu enviable soit-elle parfois. Une étude qui se baserait sur l’investissement des divers principes en fonction du degré de justice du monde, ou de la situation scolaire avérée de l’élève, pourrait confirmer ou infirmer ces propos.
En savoir plus

20 En savoir plus

Petits et grands corpus en analyse linguistique des gestes

Petits et grands corpus en analyse linguistique des gestes

également être construits dans un avenir proche, à partir de collections de corpus plus petits. 34 Plus largement, l’analyse multimodale est l’occasion de réinterroger les limites du linguistique, en proposant d’intégrer d’autres ressources sémiotiques que la parole dans l’analyse d’une langue. Elle invite à remettre en question la dichotomie entre analyses qualitatives sur petits corpus et analyses quantitatives sur grands corpus. Loin de s’opposer, analyses qualitatives et quantitatives, petits et grand corpus, sont à maints égards complémentaires, notamment parce qu’ils permettent de répondre à des questions de recherche différentes (larges ou étroites) et de proposer des savoirs d’origines différentes (généralisabilité des processus observés ou généralisabilité des résultats), dont la légitimité est elle aussi de nature différente (consilience des experts ou réfutabilité des résultats). Qu’il s’agisse d’approches qualitatives ou quantitatives, c’est le travail d’interprétation des données et des processus observés, qu’on le nomme théorisation ou discussion, qui constitue le véritable apport d’une recherche. Comme le conclut Fillmore (1992), la linguistique perdrait tout intérêt si l’on considérait que les données brutes obtenues par analyses automatisées ou par méthodes statistiques constituent des résultats de recherche en eux-mêmes, car la pratique de réflexion du linguiste serait vidée de sa substance :
En savoir plus

22 En savoir plus

Show all 10000 documents...