• Aucun résultat trouvé

4.4.1 Analyse du problème . . . 67

4.4.2 Comparaison de différentes architectures sur BUCKEYE-DEV 67

4.4.3 Résultats sur BUCKEYE-TEST . . . 69

4.4.4 Généralisation à d’autres langues. . . 71

4.1

Introduction

4.1.1 Segmentation

La segmentation audio est le processus, humain (cognitif) ou automatique (quand il est réalisé par une machine), qui vise à identifier des frontières entre des unités (accords, notes, mots, syllabes, phonèmes, etc.) dans un enregistrement ou un flux sonore. En parole, c’est un sous-problème qui a diverses applications en reconnais- sance automatique de la parole (RAP). Si la plupart des systèmes de RAP segmente le signal de parole en entrée en trames régulièrement espacées dans le temps (typique- ment des trames de 20 ms avec un décalage de moitié), il existe des systèmes fondés sur une segmentation préalable en zones homogènes. Ces segmentations peuvent être réalisées, sans a priori, directement sur le signal (ANDRE-OBRECHT1988), mais

également plus ciblées sur le contenu, telles les segmentations parole/non-parole appelées détection d’activité vocale (qui a un long historique, par exemple (GERVEN

et XIE1997) et suscite un regain d’intérêt récemment comme par exemple (GELLYet

GAUVAIN2018)), segmentation en locuteurs (ROUVIERet al.2013), segmentation en

genres (homme/femme/enfant). . .

Certains modèles de découverte non supervisée de sous-unités lexicales (C.-y. LEEet J. GLASS 2012; C.-T. CHUNG, CHANet L.-s. LEE2013; SIUet al.2014; KAM- PER, LIVESCU et GOLDWATER 2017), de même que des outils d’annotation de cor-

pus (MUMTAZ et al. 2014), peuvent eux aussi utiliser une segmentation en sous-

unités lexicales.

Actuellement, la recherche automatique de segments permettant d’identifier des mots ou des unités sous-lexicales est portée par l’intérêt pour l’apprentissage non- supervisé de ces unités, soit pour construire un lexique de prononciation en identi- fiant les mots et l’inventaire de phonèmes sans connaissance linguistique a priori (C.-y. LEE, O’DONNELLet J. GLASS 2015), soit pour faire des liens avec l’humain et l’ac-

quisition du langage, en particulier par les enfants (JANSEN, DUPOUXet al.2013).

Dans notre contexte de recherche d’unités sous-lexicales, nous souhaitons évaluer la pertinence d’une segmentation préalable à cette tâche. Une évaluation spécifique sera présentée dans le chapitre6.

4.1.2 Plan

Dans ce chapitre, nous allons aborder la segmentation automatique en phonèmes en modélisant les frontières de segments, plus précisément nous traitons cette tâche comme un problème de classification binaire présence / absence de frontière au ni- veau des trames acoustiques. Nous comparons les performances obtenues par des réseaux denses (MLP) et par des réseaux convolutionnels (CNN) sur le corpus BU- CKEYE. Après une brève description de notre système dans la section4.2et des mé- triques d’évaluation en section4.3, nous comparons dans la section4.4différentes ar- chitectures (nombre de neurones, de filtres. . .). Nous illustrons également l’influence des données utilisées (faible quantité, langue différente telle que le xitsonga) lors de l’apprentissage des réseaux de neurones.

4.2

Description du système

Le schéma4.1représente les différentes étapes de notre système permettant d’ob- tenir la segmentation phonétique du signal de parole. Les trois étapes sont détaillées dans les sous-sections suivantes.

Paramétrisation Recherche Maxima locaux Réseau de neurones Segments

FIGURE4.1 – Schéma du système de segmentation phonétique

4.2.1 Paramétrisation

De manière similaire au chapitre précédent, nous avons testé différents para- mètres temporels et fréquentiels. Après expériences, nous avons opté pour des bancs de filtres, calculés sur le signal découpé en fenêtres de 16 ms, avec un pas de 4 ms. Utiliser un faible décalage entre les trames nous a permis d’obtenir l’emplacement des frontières avec une plus grande précision.

4.2.2 Réseau de neurones

Dans ce chapitre, nous comparons deux types de réseaux de neurones : CNN et MLP. Leur objectif est de reconnaître les variations dans les bancs de filtres marquant un changement de phone.

Le réseau de neurones réalise la tâche de segmentation comme une tâche de clas- sification binaire : présence / absence de frontière. En général, pour attribuer une classe à une occurrence, le modèle calcule la probabilité de chaque classe puis donne en sortie la classe la plus probable. Cependant, cette dernière étape rencontre deux difficultés. D’une part, les deux classes (présence, absence de frontière) étant répar- ties en des proportions inégales (environ 1/20 de frontières avec un pas de 4 ms dans le corpus BUCKEYE), les probabilités en sortie sont moins favorables à la présence d’une frontière. D’autre part, lorsqu’une trame a une probabilité élevée d’être une frontière, alors ses voisines ont de grandes chances d’avoir elles aussi cette probabi- lité élevée.

Plutôt que d’utiliser telles quelles les prédictions binaires brutes, nous traitons les probabilités en sortie du réseau de neurones. Afin d’identifier les bornes des seg- ments phonétiques, nous utilisons une méthode de recherche de maxima locaux. 4.2.3 Recherche de maxima locaux

La figure4.2illustre le processus de recherche des maxima locaux. Pour chaque fenêtre d’analyse, le réseau de neurones calcule une probabilité que celle-ci contienne une frontière (passage d’un phone à un autre). Chaque enregistrement donne lieu à une courbe de probabilités (200 valeurs sur la figure4.2). Pour éviter de détecter des variations locales dues au bruit, nous lissons la courbe à l’aide d’une convolution par une fenêtre de Hamming de petite taille (5 échantillons, dans notre cas). Nous détectons ensuite les sommets (maxima locaux) et nous ne conservons que ceux su- périeurs à un seuil. La valeur du seuil peut varier selon les besoins de privilégier la précision, le rappel ou la F-mesure (cf. section4.3). Suite à nos expériences, comme nous le verrons dans la section4.4.4, le seuil maximisant la F-mesure correspond approximativement à 12 phonèmes par seconde pour le corpus de parole conversa- tionnelle BUCKEYE et 9 phonèmes pour le corpus lu NCHLT.

probabilités 0 100 200 0 0.5 1 lissage 0 100 200 0 0.5 1

détection des sommets

0 100 200

0 0.5 1

FIGURE4.2 – Illustration de notre recherche de maxima locaux sur un

enregistrement constitué de 200 fenêtres d’analyse

4.3

Métriques d’évaluation

Comme toute tâche de segmentation, une certaine marge d’erreur est tolérée lors de l’attribution de la frontière. Nous avons appliqué deux marges différentes : la marge la plus courante dans la littérature (20 ms) et une marge plus petite (10 ms). Pour évaluer les résultats, nous avons utilisé les métriques classiques de précision, rappel et F-mesure. Selon le seuil choisi pour la recherche des maxima locaux, nous repérons plus ou moins de frontières, privilégiant la précision ou le rappel. La F- mesure est une mesure qui combine le rappel et la précision. Soit P l’ensemble des éléments prédits comme frontières et F l’ensemble des éléments correspondant à des frontières :

Rappel= |P∩F|

|F| (4.1)

Précision = |P∩F|

|P| (4.2)

F-mesure=2∗ Rappel∗Précision

Rappel+Précision (4.3)

Les courbes DET (Detection Error Trade-off ) ont en abscisse le taux de faux positifs et en ordonnée le taux de faux négatifs. Ces courbes permettent de visualiser facile- ment les différents résultats selon les seuils testés (MARTINet al.1997). Un exemple

de tracé optimal, dont nous souhaitons nous rapprocher durant les expériences et donc qui serait obtenu pour une classification parfaite, serait une courbe en angle droit épousant l’axe des abscisses et des ordonnées.