• Aucun résultat trouvé

Le corpus PFC/LVTI Toulouse et Marseille

4.5 Outils d’exploration des données

4.5.2 Outils quantitatifs

4.5.2.5 Régression à effets mixtes

Les deux types de régression que nous avons jusqu’à présent abordés sont des régressions dites à effets fixes. C’est-à-dire que si l’on cherche à prédire plusieurs Y en fonction de ses variables explicatives, par exemple combien de mètres parcourra une voiture pour s’arrêter si elle roule à 10, 20 ou encore 25 km/h, nous suppo-sons une indépendance entre toutes les valeurs de Y possibles. En modélisant une seule droite ou une seule courbe en « S » avec les précédents procédés, nous po-sons de fait l’hypothèse qu’il n’existe qu’une seule tendance pour expliquer un jeu de données. Ce point n’est pas problématique dans certains cas, or, nous verrons que, par exemple, en linguistique de corpus et/ou en linguistique expérimentale48

ces effets fixes peuvent empêcher de comprendre au mieux les données. En effet, lorsque l’on répertorie des données sur la base de production et/ou de perception de locuteurs, ces derniers vont montrer un certain degré de corrélation dans leurs résultats, même s’il est possible de dégager des tendances générales. Pour illustrer nos propos, nous nous baserons sur une expérience de décision lexicale. Plusieurs locuteurs doivent décider si un mot proposé existe dans la langue ou non. Suite à ce type d’expérience, on peut vouloir savoir quelles sont les variables explicatives de la vitesse de décision lexicale parmi la fréquence, des mots ou pseudomots pré-cis, etc. Nous donnons dans la Figure 4.33 des nuages de points issus du jeu de données lexdec qui font apparaître pour plusieurs locuteurs les temps de réponses en fonction de la fréquence des mots. Si l’on effectue sur ce type de données une ré-gression linéaire à effets fixes, nous pourrons nous rendre compte qu’il est possible de modéliser une droite qui affiche une tendance générale où plus les mots sont fréquents, plus la vitesse de décision lexicale est rapide. Le problème de ce type de modèle est que l’on ne prend pas en compte le fait que certains temps de décision sont fortement corrélés entre eux. Par exemple, une personne peut répondre en moyenne très rapidement alors qu’une autre sera plus lente. Pour ces locuteurs là, la tendance générale est respectée mais le modèle prédictif ne nous donne pas de relevés précis de leur comportement spécifique. En prenant en compte ces com-portements singuliers, il est possible de diminuer la variation non expliquée des données. Une solution est de mettre en œuvre un modèle qui nous permette d’avoir accès à, d’une part la tendance générale des résultats (la vitesse de décision lexi-cale est plus courte si les mots sont fréquents) : les effets fixes, et d’autre part, la singularité de chaque locuteur (tâche effectuée plus ou moins rapidement) : les effets aléatoires. Ce type de modèle est appelé modèle à effets mixtes.

Pour ajouter une variable aléatoire à la régression linaire simple, il suffit de

4.6. Conclusion

Figure 4.33 – Diagramme de dispersion du temps de décision lexicale en fonction de la fréquence des lemmes de lexdec avec des points de couleur représentant trois sujets différents, d’après Thuilier (2012), p. 71.

rajouter à la formule affine une constante aléatoire et/ou un coefficient aléatoire49:

y = (α + αi) + (β + βi)x

Dans cette formule, les effets fixes sont représentées par la constante α et le coefficient β. Les effets aléatoires sont ici présents avec l’indice i que ce soit pour la constante αi et pour le coefficient βi. Les remarques que nous avons faites jusqu’à présent valent aussi bien pour les modèles de régression linéaire simple que multiple ainsi que pour les modèles de régression logistique simple et multiple. Il est possible d’effectuer les modèles à effets mixtes sur le logiciel R grâce à l’extension lme4.

4.6 Conclusion

Dans le cadre de ce chapitre, nous avons posé les grandes bases de ce travail de thèse. Nous avons commencé par exposer les principes défendus par les pro-grammes PFC et LVTI. Ces deux propro-grammes cumulatifs partagent les mêmes buts. Nous avons montré que le programme LVTI se concentre plus particulière-ment sur des points d’enquête bien précis pour mener des enquêtes de plus grande envergure. Pour mener à bien ces enquêtes, il est prévu de prendre en compte 49. Pour déterminer s’il faut uniquement la constante aléatoire, uniquement la pente aléatoire ou bien les deux, il faut comparer chacun des modèles avec un test ANOVA et trouver le meilleur modèle en terme à la fois de simplicité et d’explication des données.

les productions de locuteurs écartés par le programme PFC comme des enfants ou encore des personnes n’étant pas à l’aise avec les tâches de lecture. De plus, des enquêtes plus « écologiques » doivent être menées. Une des problématiques phare de ce programme est celle du changement en cours. En effet, à travers ces enquêtes, le programme LVTI se propose d’apporter des éléments de réponse à la dynamique du changement et donc du nivellement en France et en Grande-Bretagne en commençant par des enquêtes à Toulouse et à Manchester. Dans un deuxième temps, nous avons présenté les grands aspects des protocoles PFC et LVTI. Nous avons notamment exposé les quatre tâches que l’enquêteur doit sou-mettre aux témoins : la lecture d’une liste de mots et d’un texte, une conversation axée autour des thèmes Langue, Ville, Travail, Identité et une conversation plus informelle. Nous avons également pu montrer que la force de ces programmes ne tient pas seulement à un protocole d’enregistrement commun à chaque locuteur. En effet, les coordinateurs de ces programmes défendent le principe selon lequel un bon corpus n’est pas seulement le recueil d’enregistrements. Toute une procé-dure administrative doit être suivie ; notamment chaque locuteur doit donner un consentement de participation et remplir une fiche signalétique. L’enquêteur doit également renseigner précisément les informations relatives à l’enregistrement en remplissant une fiche enquête. Le protocole ne s’arrête pas à la phase d’enregis-trement puisque des conventions de transcriptions orthographiques et de codages sont clairement établies. Les environnements de travail Praat et Dolmen sont les principaux outils de ces programmes.

Dans la suite de ce chapitre, nous avons principalement montré comment nous nous sommes appropriée ce protocole en constituant notre propre corpus. Nous avons, dans un premier temps, présenté nos enquêtes Toulouse et Marseille en justifiant pourquoi notre choix s’est porté sur ces centres urbains. Nous avons éga-lement précisé comment nous avons activé nos réseaux pour que les phases d’enre-gistrements se déroulent au mieux. Nous avons brièvement présenté les quarante-cinq locuteurs qui composent notre corpus d’étude. Nous venons de l’exposer, un corpus n’est pas seulement constitué d’enregistrements, c’est pourquoi nous avons présenté dans un deuxième temps les annotations que nous avons effectuées. Plusieurs codages ont été développés et appliqués sur nos données : codages des voyelles moyennes et des voyelles nasales. Nous avons également appliqué les co-dages prévus par les protocoles PFC et LVTI : codage du schwa et de la liaison. Des segmentations ont été effectuées sur les voyelles basses et moyennes de la liste de mots des locuteurs afin de mettre en place des relevés formantiques semi-automatiques. Nous fournissons dans les Figures 4.34 et 4.35 un extrait de la liste de mots et de la conversation guidée du locuteur 31cam1 sur l’environnement de travail Praat. Dans ces Figures, nous pouvons observer les duplicatas de la pre-mière tire « transcription orthographique ». La deuxième et la troisième tires sont

4.6. Conclusion

Figure 4.34 – Extrait de la liste de mots de 31cam1 sur l’environnement Praat.

dédiées au codage du schwa et de la liaison. Étant donné qu’il n’y a pas de site de liaison potentielle dans la liste de mots, il n’est pas étonnant de voir que la troisième tire est vide dans la Figure 4.34. La quatrième et la cinquième tire sont respectivement dédiées aux codages des voyelles nasales et des voyelles moyennes. Enfin, on trouve dans la liste de mots les segmentations des voyelles moyennes et des voyelles basses dans les tires 6 et 7.

Au total, nous avons donc à disposition 97 892 voyelles codées dont 5 020 avec des informations formantiques. Sur la base de ces codages et/ou relevés, nous dis-posons de plusieurs bases de données : une base répertoriant les informations for-mantiques des voyelles basses et une autre contenant celles des voyelles moyennes. Nous avons également créé grâce à Dolmen des bases de données contenant les informations des codages et des métadonnées pour le schwa et pour les voyelles nasales.

Pour finir, nous avons développé les outils d’exploration des données dont nous nous sommes servie tout au long de ce travail de thèse. Nous avons commencé par

Figure 4.35 – Extrait de la conversation guidée de 31cam1 sur l’environnement Praat.

présenter des outils de visualisation bi- et tridimensionelle des données forman-tiques en proposant des scripts sur le logiciel R. Nous avons également expliqué que les visualisations sous forme de dendrogrammes pourront nous aider à clusteriser nos voyelles. Enfin, nous avons brièvement présenté les différents tests statistiques ainsi que les modèles de régression utilisés dans les analyses que nous proposerons dans la suite de ce travail.

Deuxième partie