• Aucun résultat trouvé

Les environnements sonores dans lesquels nous évoluons sont extrêmement variés (campagne, rue, salle de concert, gare, etc.). Quelque soit le contexte sonore, il est captivant de constater à quel point notre perception auditive est performante dans la reconnaissance et la compréhension des sources sonores qui nous entourent. Cette compréhension est le résultat d'une faculté de séparation de sources qui intrigue et inspire la communauté scientique. Une situation particulière de séparation de sources est la situation de Cocktail Party (CP) décrite par Cherry [Cherry, 1953, Cherry and Taylor, 1954]. Il introduit le terme de Cocktail Party pour désigner la situation dans laquelle plusieurs locuteurs parlent simultanément. Le terme de parole superposée est utilisé dans le domaine de la reconnaissance de parole pour désigner la situation de mélange de parole. Dans le reste du manuscrit, parole superposée et Cocktail Party seront utilisé indiéremment. Lorsque plusieurs locuteurs parlent simultanément nous parvenons aisément à suivre à volonté le locuteur qui nous intéresse. Ceci est rendu possible par la faculté de séparation de parole que possède notre système auditif. Cette faculté est issue de mécanismes complexes faisant intervenir d'une part des connaissances a priori sur les sources sonores et d'autre part des traitements eectués sur l'onde sonore perçue, parmi lesquels se trouve l'estimation de F0. Cette thèse est orientée vers l'estimation de F0 et propose un nouvel algorithme d'estimation de F0 (AEP) conçu pour traiter des signaux de parole superposée. Cet algorithme d'estimation de F0 a été élaboré de manière à être l'un des premiers étage d'un système automatique de séparation de parole. Il sera détaillé au chapitre 5 et évalué au chapitre 6. L'objectif du présent chapitre est de clarier notre positionnement scientique en posant au préalable l'ensemble des dénitions nécessaires à la compréhension du manuscrit. Il convient de clarier les termes de F0, d'estimation de F0 et de séparation de parole. Ces trois points sont respectivement abordés dans les paragraphes 2.1.1, 2.1.2 et 2.1.3. Une fois ces dénitions posées, la section 2.2 décrit en quoi la F0 est un indice acoustique utilisé par notre système auditif pour séparer de la parole. La section 2.3 montre en quoi l'estimation de F0 peut être utile pour un système de séparation de parole.

2.1.1 Fréquence fondamentale, F0 et pitch

Estimation de F0 et séparation de parole

Figure 2.1: Illustration de la quasi-périodicité d'une voyelle réelle.

La fréquence fondamentale F0 est une grandeur phy-sique qui est à rapprocher de la manière dont est produit le son. Lorsqu'une source sonore émet un son produit par la vibration de certaines de ses parties (biologiques ou non), la fréquence de vibration est nomméeF0. Pour un signal de parole, elle correspond à la fréquence de vibration des cordes vocales d'un locuteur. Le signal de parole n'est pas le seul signal qui puisse comporter une F0. Un signal de musique émis par un instrument comporte également uneF0qui cor-respond à la fréquence de vibration de l'instrument (ex : vi-bration de la corde pour un piano ou un violon, vivi-bration des lèvres du trompettiste pour une trompette). LaF0 est donc une caractéristique de la source sonore. Il faut ici distinguer la F0 qui est une grandeur physique propre à la source so-nore et la hauteur ou pitch qui est une grandeur perceptive donc propre au récepteur du signal soso-nore.

Toutefois, cette distinction n'est pas toujours respectée strictement. Il existe des expressions consacrées qui sont apparues dans le domaine de l'estimation de F0 comme estimation multipitch et pour lesquelles pitch est employé pour désigner F0. Dans le reste du manuscrit, F0 ou pitch pourront être utilisés indiéremment tout en gardant à l'esprit que ces termes se référeront toujours à la grandeur physiqueF0 et donc à la vibration des cordes vocales d'un locuteur.

La périodicité d'un signal quelconque s au sens strict et mathématique du terme est donné dans l'équation 2.1 [de Cheveigne, 2006].T représente une des périodes du signals.T est une des périodes descar en dénitive il en existe une innité. En eet siT est une période des, alors tous les multiples de T le sont aussi.

∃T ∈R+,∀t∈R, s(t+T) =s(t) (2.1) Par dénition, la période fondamentale notéeT0 correspond à la plus petite des valeurs deT, périodes de s. L'équation 2.2 formalise mathématiquement T0. La notation {T} correspond à l'ensemble des périodes des. La fréquence fondamentaleF0 est l'inverse de la période fondamentale.

T0 =min({T}) F0 = T1

0

(2.2) La périodicité d'un signal de parole réelle ne vérie pas strictement la périodicité mathématique.

Toutefois le signal acoustique présente une série de motifs susamment ressemblants pour que l'on puisse parler de quasi-périodicité. Un exemple de quasi-périodicité est présentée dans la gure 2.1. Le signal présenté est un extrait de 40ms d'une voyelle /a/.

2.1.2 Estimation de F0 monopitch et multipitch

L'estimation de F0 est le problème central de cette thèse. Il faut distinguer deux situations d'es-timation de F0. La première situation concerne les signaux dits monopitch. Ces signaux monopitch comportent au plus une F0. Par exemple des signaux de parole mono-locuteur ou de musique non

8

Estimation de F0 et séparation de parole polyphoniques (ex : la ute) enregistrés en solo. De manière générale, les signaux monopitch peuvent comporter plusieurs sources sonores mais exactement une seule de ces sources comporte une F0. La situation d'estimation de F0 pour des signaux monopitch est nommée elle-même estimation deF0 mo-nopitch. Dans ce cas, l'estimation revient à estimer à chaque instant la fréquence de vibration de la source sonore étudiée à partir de l'analyse de la forme d'onde du signal reçu. Cela revient à analyser le signal reçu du coté récepteur et retrouver la fréquence fondamentale de l'émetteur avec toutes les distorsions apportées par le canal de communication entre les deux. Pour la parole, l'estimation de F0 monopitch revient à calculer en chaque instant la fréquence de vibration des cordes vocales d'un locuteur à partir de la forme d'onde d'un signal de parole. Voici quelques exemples des applications possibles de l'estimation de F0 en situation monopitch :

• Séparation d'un signal de parole mélangé à un autre signal intrus ne comportant pas deF0. Cette application se nomme débruitage.

• Analyse du contour intonatif d'un locuteur. Cette analyse peut participer à l'étude de l'intonation des langues ou bien encore à l'étude de l'expressivité dans la parole.

• Aide à l'élaboration d'un codage plus ecace de la parole. En eet, la connaissance de laF0 peut permettre de coder de manière plus ecace en représentant tout une structure harmonique par une simple valeur deF0.

• Transcription de la voix chantée ou d'instruments monophoniques.

• Requête par fredonnement dans des systèmes d'indexation multimédia.

La seconde situation concerne les signaux dits multipitch . Ces signaux multipitch sont des signaux qui comportent plusieurs F0. De tels signaux se trouvent aisément dans les signaux musicaux qui sont polyphoniques par nature. Ils se trouvent également en parole dans des situations de parole superposée dans lesquelles plusieurs signaux mono-locuteur sont mélangés dans un même canal. La situation de parole superposée est souvent moins polyphonique que la musique et il est assez rare d'avoir plus de deux signaux de parole de niveau sonore comparable mélangés. Dans nos expériences, les évaluations porteront sur une situation de parole superposée à deux locuteurs que nous nommerons situation bi-locuteur ou bipitch. Toutefois, l'algorithme d'estimation que nous proposons ne requiert pas la connaissance du nombre de locuteurs et pourra donc être utilisé dans des situations où le nombre de locuteurs mélangés est supérieur à deux et n'est pas connu à priori. Actuellement, l'estimation de F0 pour des signaux de parole mélangés est en pleine émergence sous l'impulsion de plusieurs facteurs, par exemple :

• L'importance emblématique de la situation de CP.

• L'importance de domaines de recherche comme la reconnaissance de parole qui analysent des signaux de moins en moins contraints, de plus en plus spontanés et qui se retrouvent donc dans des situations de CP. Par exemple, l'analyse de données d'interviews politiques français [Adda et al., 2007] montre que sur huit heures de débat politique, le taux de parole superposée est d'environ 5% soit environ 25 minutes. Les systèmes de reconnaissance de parole actuels fonctionnent mal sur ces segments.

L'ensemble de ces perspectives d'application justie l'intérêt porté à l'estimation deF0 multipitch. Des exemples de débouchés applicatifs sont donnés dans la liste suivante :

• Aide à la séparation de la parole. L'ambition initiale de la thèse est d'utiliser l'estimation de

Estimation de F0 et séparation de parole

F0 pour de la séparation de parole. Ce point est détaillé ci-dessous et dans les sections 2.2 et 2.3.

• Aide à l'estimation du nombre de locuteurs d'une situation de parole superposée. La connaissance des évolutions du pitch de chacun des locuteurs à chaque instant apporte une information sur le nombre de locuteurs de la scène auditive.

• Aide à la séparation des instruments composants une scène musicale.

• Aide à la transcription automatique d'instruments de musique polyphoniques tels que le piano.

L'estimation deF0 apparaît comme une étape de traitement pouvant se placer en amont de nombreuses applications. Dans cette thèse, l'estimation deF0est justement envisagée comme un traitement de bas niveau d'un système de séparation de parole. Cette façon de considérer le problème oblige à rendre l'étape d'estimation de F0 la plus able possible. En eet, plus l'étape d'estimation de F0 est able, moins les traitements de niveau supérieur seront nécessaires pour corriger les erreurs. L'élaboration d'un algorithme d'estimation de F0 robuste et performant est une étape préliminaire obligatoire dans la construction de systèmes plus complexes.

2.1.3 Séparation de parole

La séparation de parole a pour objectif d'élaborer un système automatique capable de traiter un mélange de signaux de parole pour en extraire un, plusieurs ou tous les signaux de parole qui constituent le mélange. Plusieurs dénitions de séparation de parole peuvent être envisagées :

• Retrouver tous les signaux constituants le mélange. Par exemple, séparer deux locuteurs pour être capable de restituer l'un ou l'autre au choix, comme s'il était isolé. C'est le problème le plus dicile, voisin du problème de Cocktail Party.

• Isoler une des composantes du mélange et la suivre au cours du temps. Cela ressemble à du débruitage (en anglais enhancement). Ce problème est bien connu et traitable quand le bruit a une structure identiable et distincte de la cible. Pour de la parole superposée, le bruit est de même nature que la cible et le problème ne peut donc pas se résumer à du débruitage.

Pour chacune de ces acceptions, plusieurs niveaux de séparation peuvent être dénis pour le signal (ou les signaux) résultant(s) :

• Reconstruire un signal dont la forme d'onde est la même que le signal isolé. L'évaluation peut dans ce cas utiliser des critères d'évaluation objectifs comme une distance euclidienne par exemple.

• Reconstruire un signal perceptivement équivalent au signal isolé. Il faut alors utiliser des critères d'évaluation subjectifs et passer par des expériences d'écoute.

• Identier la présence ou non dans le mélange dune information spécique à l'un des signaux.

Ceci doit permet de reconnaître une source sonore d'intérêt, sans pour autant devoir reconstruire le signal correspondant de manière exacte ou approchée.

Dans ce travail, la séparation de parole est considérée comme la capacité de suivre au cours du temps un des signaux composant le mélange. Ce suivi n'implique pas forcément la reconstruction du signal mais plutôt la détection à chaque instant de tel ou tel indice acoustique caractérisant tel locuteur. En particulier, un objectif pourra être de reconstruire les trajectoires des F0 de chacun des locuteurs au cours du temps.

10

Estimation de F0 et séparation de parole Un système automatique capable de séparer la parole peut donner lieu à des applications telles que le débruitage, la reconnaissance de parole, la reconnaissance de locuteur ou l'amélioration des prothèses auditives. Depuis plusieurs décennies, des eorts de recherche conséquents ont été menés autour de la thématique du traitement automatique de la parole. Néanmoins, aucun des systèmes automatiques actuels élaborés en séparation de parole, en reconnaissance de parole ou en débruitage ne fonctionne parfaitement. Des témoignages de malentendants indiquent que l'ecacité perceptive des prothèses auditives devrait être encore largement améliorée, notamment dans la situation où plusieurs interlo-cuteurs parlent simultanément. Pourquoi ces systèmes restent-ils encore perfectibles ? Cela s'explique en partie par le fait que tous sont conçus pour fonctionner sous certaines conditions. Avec une gamme restreinte de signaux par exemple, ou encore avec des signaux propres et isolés. Dès lors qu'un de ces systèmes est soumis à un signal qui sort des limites de fonctionnement, il ne fonctionne plus aussi bien.

Par exemple, les systèmes actuels de reconnaissance de parole fonctionnent bien lorsque le signal à analyser est un signal isolé et exempt de bruit et de réverbération (enregistrement avec un micro près de la bouche ou en salle anéchoïque) mais leurs performances se dégradent nettement quand ils sont utilisés en environnement réel. De même les systèmes actuels de séparation de parole ont généralement besoin d'avoir autant de microphones que de sources sonores dans la scène auditive. Enn, les personnes malentendantes ont des problèmes de compréhension lorsqu'elles sont immergées dans des situations de mélange de parole. Or, en condition naturelle, les signaux que nous percevons ne sont pas isolés mais mélangés. Ces signaux ne sont pas exclusivement de la parole mais peuvent être de toute nature. Les sources sonores peuvent être mobiles et leurs intensités respectives sont uctuantes. L'environnement sonore introduit également de la réverbération. Le système auditif des personnes normo-entendantes sait très bien traiter ces signaux divers, mélangés et bruités. Si nous voulons un jour être en mesure d'améliorer les systèmes d'aide aux malentendants il faut commencer par situer nos études dans des conditions plus proches de la communication de tous les jours, c'est-à-dire considérer que la situation normale est d'avoir à traiter plusieurs signaux simultanés.

Pour aborder ces problèmes il est judicieux d'essayer de comprendre comment le système auditif humain nous permet d'être aussi performant dans la séparation de parole. Il convient donc d'étudier les travaux menés en Analyse de Scènes Auditives ou Auditory Scene Analysis (ASA). Une scène auditive correspond à un contexte sonore particulier constitué de plusieurs sources sonores. L'ASA a pour objet d'étude la perception auditive humaine immergée au sein de scènes auditives diverses et notamment en situation de parole superposée. En parole superposée, une scène auditive est constituée uniquement de locuteurs. Pour le problème d'estimation de F0, il est nécessaire d'observer les études menées par l'ASA sur l'utilité de laF0dans des situations de séparation de parole. La section 2.2 de ce chapitre présente les travaux clés de l'ASA dans l'analyse de l'apport de laF0 en situation de Cocktail Party. Néanmoins, les études psycho-acoustiques de l'ASA ne sont pas susantes pour construire des systèmes de séparation de parole. Il est également intéressant d'étudier les systèmes de séparation de parole existants pour déterminer l'importance que revêt l'utilisation de la F0 dans ces systèmes. La section 2.3 présente ces systèmes de séparation de parole en précisant lesquels utilisent laF0 et lesquels non. Enn, la section 2.4 récapitulera les points importants de ce chapitre et notre positionnement scientique.

Estimation de F0 et séparation de parole