• Aucun résultat trouvé

93

Nous avions expliqué que l'algorithme ADoReVA permettait également de corréler des anno-tations fonctionnelles à la détection automatique des variations de registre. Suite à l'étape 5 donc, nous obtenons la table 59 que nous utilisons pour nos analyses statistiques. Elle permet

93. Les données à partir desquelles ont été eectuées les analyses sont sur CD-ROM, ANNEXES_CHAP3 : Table2.

ainsi d'observer les possibles corrélations entre l'annotation en DSP d'un côté et la hau-teur (KEY), l'étendue (RANGE), la diérence de hauhau-teur (DIFFKEY), la diérence d'éten-due (DIFFRANGE), la distance euclidienne (EUCLY), les distances entre les noeuds feuilles obtenues à gauche et à droite pour chacun des paramètres (LEFTDISTK, RIGHTDISTK, LEFTDISTR, RIGHTDISTR, LEFTDISTE et RIGHTDISTE), i.e. à partir de DIFFKEY, DIFFRANGE et EUCLY, de l'autre côté.

Figure 59 Extrait de la table obtenue pour le locuteur 13aACtw du corpus PFC. La colonne FILENAME indique le locuteur, UNITS l'unité en question, HERTZ la hauteur de l'unité en Hz, KEY la hauteur de l'unité en log de base 2, RANGE l'étendue en log de base 2, DIFFKEY, la diérence de hauteur entre deux unités, DIFFRANGE, la diérence d'étendue entre deux unités, EUCLY, la distance euclidienne entre deux unités, LEFTDSP le DSP à gauche de l'unité, i.e. entre une unité et sa précédente, RIGHTDSP le DSP à droite de l'unité, i.e. entre une unité et sa suivante, LEFTDISTK et RIGHTDISTK la distance à gauche et à droite de l'unité pour le paramètre DIFFKEY, LEFTDISTR et RIGHTDISTR, pour le paramètre DIFFRANGE, et LEFTDISTE et RIGHTDISTE, pour le paramètre EUCLY.

An de modéliser la relation entre l'annotation fonctionnelle et les valeurs de hauteur et d'étendue du registre, nous avons mené plusieurs analyses de variance. Nous avons en ef-fet étudier l'eet du facteur DSP sur les variables quantitatives KEY, RANGE, DIFFKEY, DIFFRANGE, EUCLY, LEFTDISTK, LEFTDISTR et LEFTDISTE. Nous proposons de pré-senter séparément les résultats obtenus pour les corpus PFC, PAC, CID et AM.

5.3.1 PFC : Résultats

Les analyses de variance montrent que la hauteur du registre (KEY), la diérence de hauteur entre deux unités (DIFFKEY) et la distance gauche entre les noeuds feuille (LEFTDISTK) sont fortement corrélées aux intentions de discours (DSP) (respectivement : F(2,1963)=15.58, p-val=1.927e-07 ; F(2,1952)=69.36, p-val< 2.2e-16 ; et F(2,1963)=110, p-val< 2.2e-16). Elles montrent également que RANGE, DIFFRANGE, EUCLY, LEFTDISTR et LEFTDISTE sont signicativement corrélées à DSP, ce qui n'est pas surprenant puisque RANGE est calculée à

partir de KEY. Plus le DSP est haut dans la structure intentionnelle (e.g. DSP2), plus l'unité qu'il annonce détient un registre haut et étendu, et plus la rupture entre les deux unités qu'il sépare est grande, ce que nous pouvons observer en 60.

Figure 60 Boîtes à moustaches de la hauteur du registre (KEY) par DSP à gauche ; boîtes à moustaches de la diérence de hauteur du registre (DIFFKEY) par DSP à droite - corpus PFC.

Les changements de topique en français et en lecture oralisée sont donc caractérisés par des variations de registre où l'unité qui marque le changement de topique a un registre plus haut et plus étendu que l'unité qui la précède. On observe donc une remise à niveau du registre aux changements de topique.

Figure 61 Tracés des DSP2 (changements de topique) pour les 10 locuteurs du corpus PFC.

Au vu du graphique 61, la remise à niveau ne semble pas aectée par la place des DSP2 dans la structure du texte, où un DSP2 en début de texte n'est pas nécessairement plus haut qu'un DSP2 en n de texte. Nous pouvons par conséquent formuler l'hypothèse qu'il serait plus opportun de rechercher les eets de déclinaison et de remise à niveau partielle au sein d'un domaine délimité par des changements de topique.

5.3.2 PAC : Résultats

Au vu des boîtes à moustaches représentées en 62, on peut se poser la question d'une éven-tuelle corrélation entre la hauteur du registre (KEY) et les intentions du discours (DSP) et la diérence de hauteur entre deux unités (DIFFKEY) et DSP pour le corpus PAC. Bien que la médiane et les quartiles de KEY et de DIFFKEY soient supérieurs pour DSP2 que pour DSP1 et DSP0, les déciles de KEY pour DSP0 et de DIFFKEY pour DSP1 sont, en eet, su-périeurs à ceux pour DSP2. Les analyses de variance, pourtant, révèlent que KEY, DIFFKEY et LEFTDISTK sont signicativement corrélées à DSP (respectivement : F(2,2489)=39.78, F(2,2481)=155.8, F(2,2489)=249.6 ; p-val< 2.2e-16 ). L'étendue étant corrélée à la hauteur, les analyses de variance rapportent également que l'étendue (RANGE), la diérence d'éten-due entre deux unités (DIFFRANGE), la distance euclidienne (EUCLY), la distance entre les noeuds feuilles calculée à partir du paramètre étendue (LEFTDISTR) et la distance entre les

noeuds feuilles calculée à partir du paramètre EUCLY (LEFTDISTE) sont fortement corrélées à DSP.

Figure 62 Boîtes à moustaches de la hauteur du registre (KEY) par DSP à gauche ; boîtes à moustaches de la diérence de hauteur du registre (DIFFKEYN) par DSP à droite - corpus PAC.

On peut donc conclure, à partir de ces analyses, que, en anglais et en lecture oralisée, les changements de topique sont aussi caractérisés par une rupture du registre, où l'unité annon-çant un nouveau topique a un registre plus haut et plus étendu que sa précédente. Au vu du graphique 63, il est intéressant de noter que la structure intentionnelle est similaire en termes de registre pour l'ensemble des locuteurs. Les trois premiers changements de topique semblent marqués par une remise à niveau totale alors que les deux derniers seraient caractérisés par une remise à niveau partielle. Nous pouvons formuler l'hypothèse selon laquelle l'abaissement du registre au niveau des deux derniers changements de topique résulterait de la structure même du texte et indiquerait que le locuteur est sur le point de nir sa lecture. Une autre hypothèse serait que ces deux derniers changements de topique ne se situent pas au même niveau de la structure intentionnelle, i.e. à un niveau inférieur (de type DSP1) par rapport aux autres changements de topique.

Figure 63 Tracés des DSP2 pour les 8 locuteurs du corpus PAC.

5.3.3 CID : Résultats

Si nous observons la médiane et les quartiles de la hauteur (KEY) et de la diérence de hauteur (DIFFKEY) pour DSP0, DSP1 et DSP2 à partir des boîtes à moustaches données en 64, il semble que les niveaux DSP0 et DSP1 ne soient pas caractérisés par des variations de hauteur, et donc, par des variations d'étendue. Les analyses ANOVA conrment nos prédictions. Elles montrent que KEY n'est pas corrélée à DSP1 (p-val=0.01729) et que l'eet de DSP2 sur KEY est faible (p-val= 0.0096). L'eet de DSP1 sur DIFFKEY est également faible (p-val=0.0349) alors que DSP2 est fortement corrélé à DIFFKEY (p-val< 2.2e-16). L'analyse de variance pour LEFTDISTK révèle que LEFTDISTK n'est pas corrélée à DSP1 (p-val=0.154) mais qu'elle est fortement corrélée à DSP2 (p-val< 2.2e-16). L'étendue (RANGE) étant corrélée à la hauteur, nous comprenons aisément qu'elle n'est pas corrélée à DSP1 et très peu à DSP2, que la diérence d'étendue (DIFFRANGE) et la distance euclidienne (EUCLY) sont faiblement corrélées à DSP1 et fortement corrélées à DSP2 et que LEFTDISTR et LEFTDISTE ne sont pas corrélées à DSP1 et signicativement corrélées à DSP2.

Figure 64 Boîtes à moustaches de la hauteur du registre (KEY) par DSP à gauche ; boîtes à moustaches de la diérence de hauteur du registre (DIFFKEYN) par DSP à droite - corpus CID.

En français et en parole conversationnelle donc, les changements de topique (DSP2) sont caractérisés par des variations de hauteur et d'étendue de registre. Les intentions de niveau inférieur (DSP1) ne le sont pas. On n'observe en eet aucune diérence signicative entre les niveaux DSP1 et DSP0 en termes de registre. Nous pouvons formuler l'hypothèse qu'en parole conversationnelle, les ruptures de registre sont uniquement utilisées à des hauts niveaux de la structure intentionnelle.

5.3.4 AM : Résultats

Au vu des boîtes à moustaches qui gurent en 65, il semblerait que la hauteur du registre (KEY) ne soit corrélée à DSP et que seul DSP2 ait un eet sur la diérence de hauteur (DIFF-KEY). Les analyses ANOVA révèlent que DSP1 est faiblement corrélée à KEY (p-val=0.00823) quand DSP2 l'est fortement (p-val=9.7e-06). Il est à noter, en revanche, que le registre est plus bas pour DSP1 que pour DSP0, ce qui va à l'encontre d'une augmentation du registre en fonction du niveau de l'intention. DIFFKEY est également faiblement corrélée à DSP1 (p-val=0.0143) et fortement à DSP2 (p-val<2e-16). DSP1 n'a pas d'eet sur LEFTDISTK (p-val=0.826) quand DSP2 en a (p-val=5.41e-12). Les analyses ANOVA montrent également que l'étendue (RANGE), la diérence d'étendue (DIFFRANGE) et la distance euclidienne (EUCLY) sont faiblement corrélées à DSP1 et fortement à DSP2 et que la distance entre les noeuds feuilles obtenues avec le paramètre RANGE (LEFTDISTR) et EUCLY (LEFTDISTE)

ne sont pas corrélées à DSP1 et fortement à DSP2.

Figure 65 Boîtes à moustaches de la hauteur du registre (KEY) par DSP à gauche ; boîtes à moustaches de la diérence de hauteur du registre (DIFFKEYN) par DSP à droite - corpus AM.

En anglais et en parole authentique (i.e. dont le but est de communiquer), les analyses montrent que les changements de topique (DSP2) sont indiqués par des ruptures de registre, où l'unité qui suit la rupture est caractérisée par un registre plus haut et plus étendu que celle qui la précède. Les niveaux d'intention DSP1, en revanche, ne sont pas marqués par des variations de registre. Nous pouvons formuler également ici l'hypothèse qu'en parole authentique, seuls les hauts niveaux de la structure intentionnelle sont caractérisés par des ruptures de registre.

Au vu de ces résultats, et à partir de nos échantillons de données, nous pouvons conclure qu'en français et en anglais, les changements de topique, en lecture oralisée de texte et en parole authentique et conversationnelle, sont marqués par des changements de registre, plus précisément, par une remise à niveau de la hauteur et de l'étendue du registre. Les niveaux d'intentions DSP1, également caractérisés par des variations de registre en lecture oralisée, en revanche ne le sont pas en parole conversationnelle ou authentique.

Avant de conclure cette section, nous portons notre intérêt sur les résidus que nous avions pu observer dans les diérents diagrammes de Tukey ou boîtes à moustaches, et ce pour les diérents corpus. On peut se demander en eet la raison de leur présence, un point que nous proposons de traiter dans la section suivante.