Classification audio sous contrainte de faible latence

(1)

HAL Id: tel-01395495

https://tel.archives-ouvertes.fr/tel-01395495

Submitted on 10 Nov 2016

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Joachim Flocon-Cholet

To cite this version:

Joachim Flocon-Cholet. Classification audio sous contrainte de faible latence. Traitement du signal

et de l’image [eess.SP]. Université Rennes 1, 2016. Français. �NNT : 2016REN1S030�. �tel-01395495�

(2)

ANNÉE 2016

THÈSE / UNIVERSITÉ DE RENNES 1

sous le sceau de l’Université Bretagne Loire

pour le grade de

DOCTEUR DE L’UNIVERSITÉ DE RENNES 1

Mention : Traitement du signal et télécommunications

École doctorale MATISSE

présentée par

Joachim Flocon-Cholet

Préparée à l’UMR 6074 IRISA

Institut de Recherche en Informatique et Systèmes Aléatoires

Classification audio

sous contrainte de

faible latence

Thèse soutenue à Rennes

le 29 juin 2016

devant le jury composé de :

Geoffroy PEETERS

Chargé de recherche à l’IRCAM

Rapporteur

Emmanuel VINCENT

Chargé de recherche à l’INRIA

Rapporteur

Gaël RICHARD

Professeur à Télécom ParisTech

Examinateur

Régine LE BOUQUIN-JEANNÈS

Professeur à l’Université de Rennes 1

Examinatrice

Ludovick LEPAULOUX

Ingénieur de recherche chez NXP Software

Invité

Pascal SCALART

Professeur à l’Université de Rennes 1

Directeur de thèse

Julien FAURE

Ingénieur de recherche à Orange Labs

Encadrant

Alexandre GUÉRIN

Ingénieur de recherche à Orange Labs

(3)

(4)

Remerciements

J’aimerais, en premier lieu, remercier mon équipe d’encadrement, composée de Julien Faure, Alexandre Guérin et Pascal Scalart, pour m’avoir permis de faire cette thèse et de m’avoir fait confiance pendant ces trois années, ainsi que de s’être toujours montré optimistes sur l’évolution des travaux de recherche. Ensuite, je tiens à remercier chaleureusement les membres du jury, avec en particulier Geoffroy Peeters et Emmanuel Vincent pour avoir accepter d’être rapporteurs sur ce travail de thèse, et Gaël Richard, Régine Le Bouquin-Jeannès et Ludovick Lepauloux en tant qu’examinateurs et invité. Je remercie les membres du jury pour ses encouragements et son lot de remarques très constructives.

Au cours de ces trois années, j’ai eu l’occasion de rencontrer de nombreuses personnes que j’aimerais saluer ici, à commencer par l’équipe TPS à Orange Labs : Bruno Lozach, Stéphane Ragot, Jérôme Daniel, Rozenn Nicol, Serge Le Boucher, Grégory Pallone, Marc Emerit, Arnaud Lefort, Balazs Kovesi, Valérie Gauthier-Turbin. Je salue également les membres de l’équipe ISI et MOV (avec qui nous partagions le couloir), et spécialement Arnaud Nagle.

Je remercie également les personnes que j’ai pu côtoyer au plus près pendant ces trois années et qui ont participé à rendre agréables tous les moments passés ensemble. Merci, amis doctorants, apprentis, stagiaires ou prestataires. Je vous rends hommage en vous créditant au générique de cette histoire : Julian Palacino (et Carolina par la même occasion), Samuel Moulin, Felipe Rugeles Ospina, Magdalena Kaniewska, Paul Tchoumi, Cédric Thao, Gaël Simon, Pierre-Yohan Michaud, Jerôme Dufour, Arthur Mingasson, Hamidou Balde, Damien Corolleur, Bertrand Fatus, Jean-Léon Bouraoui, David Diaz Pardo De Vera, Pratik Gajane, Tatiana Ekeinhor Komi, William Diego, Djamel Ouled Amar, Ali Sanhaji, Zied Aouini, Alassane Samba, Wafae Bakkali.

Je remercie également les membres de l’équipe Cairn/Granit pour leur accueil dans les locaux de l’Enssat pendant les mois d’octobre et de novembre pour la fin de la rédaction de ce manuscrit.

Une pensée également à Olivier Roger, Marc Giovanni, Pierre Guigues et Julien Faure (encore) avec qui j’ai pu participer à la formation et à l’essor du quintet de jazz JSON. Pouvoir échanger quelques notes de musique les jeudis sur l’heure de midi était vraiment quelque chose de très appréciable.

Je remercie bien évidemment mes parents et mes sœurs pour leur soutien indéfectible dans toutes les situations.

Enfin, merci à toi Ewa, pour ta présence bienveillante au quotidien, tes conseils, tes encouragements ou encore ton sens de l’humour qui m’ont permis d’avancer pendant cette aventure.

(5)

(6)

Résumé

Cette thèse porte sur la classification audio sous contrainte de faible latence. La classification audio est un sujet qui a beaucoup mobilisé les chercheurs depuis plusieurs années. Cependant, on remarque qu’une grande majorité des systèmes de classification ne font pas état de contraintes temporelles : le signal peut être parcouru librement afin de rassembler les informations nécessaires pour la prise de décision (on parle alors d’une classification hors ligne). Or, on se place ici dans un contexte de classification audio pour des applications liées au domaine des télécommunications. Les conditions d’utilisation sont alors plus sévères : les algorithmes fonctionnent en temps réel et l’analyse du signal et le traitement associé se font à la volée, au fur et à mesure que le signal audio est transmis.

De fait, l’étape de classification audio doit également répondre aux contraintes du temps réel, ce qui affecte son fonctionnement de plusieurs manières : l’horizon d’observation du signal se voit nécessairement réduit aux instants présents et à quelques éléments passés, et malgré cela, le système doit être fiable et réactif.

Dès lors, la première question qui survient est : quelle stratégie de classification peut-on adopter afin de faire face aux exigences du temps réel ? On retrouve dans littérature deux grandes approches permettant de répondre à des contraintes temporelles plus ou moins fortes : la classification à la trame et la classification sur segment. Dans le cadre d’une classification à la trame, la décision est prise en se basant uniquement sur des informations issues de la trame audio courante. La classification sur segment, elle, exploite une information court-terme en utilisant les informations issues de la trame courante et de quelques trames précédentes. La fusion des données se fait via un processus d’intégration temporelle qui consiste à extraire une information pertinente basée sur l’évolution temporelle des descripteurs audio.

À partir de là, on peut s’interroger pour savoir quelles sont les limites de ces stratégies de classification ? Une classification à la trame et une classification sur segment peuvent-elles être utilisées quel que soit le contexte ? Est-il possible d’obtenir des performances convenables avec ces deux approches ? Quelle mode de classification permet de produire le meilleur rapport entre performance de classification et réactivité ? Aussi, pour une classification sur segment, le processus d’intégration temporelle repose principalement sur des modélisation statistiques mais serait-il possible de proposer d’autres approches ?

L’exploration de ce sujet se fera à travers plusieurs cas d’étude concrets. Tout d’abord, dans le cadre des projets de recherche à Orange Labs, nous avons pu contribuer au développement d’un nouvel algorithme de protection acoustique, visant à supprimer très rapidement des signaux potentiellement dangereux pour l’auditeur. La méthode mise au point, reposant sur la proposition de trois descripteurs audio, montre un taux de détection élevé tout en conservant un taux de fausse alarme très bas, et ce, quelles que soient les conditions d’utilisation.

Par la suite, nous nous sommes intéressés plus en détail à l’utilisation de l’intégration temporelle des descripteurs dans un cadre de classification audio faible latence. Pour cela, nous avons proposé et évalué plusieurs méthodologies d’utilisation de l’intégration temporelle permettant d’obtenir le meilleur compromis entre performance globale et réactivité.

Enfin, nous proposons une autre manière d’exploiter l’information temporelle des descripteurs. L’ap-proche proposée s’appuie sur l’utilisation des représentations symboliques permettant de capter la struc-ture temporelle des séries de descripteurs. L’idée étant ensuite de rechercher des motifs temporels carac-téristiques des différentes classes audio. Les expériences réalisées montrent le potentiel de cette approche.

(7)

(8)

Abstract

This thesis focuses on audio classification under low-latency constraints. Audio classification has been widely studied for the past few years, however, a large majority of the existing work presents classification systems that are not subject to temporal constraints : the audio signal can be scanned freely in order to gather the needed information to perform the decision (in that case, we may refer to an offline classification). Here, we consider audio classification in the telecommunication domain. The working conditions are now more severe : algorithms work in real time and the analysis and processing steps are now operated on the fly, as long as the signal is transmitted.

Hence, the audio classification step has to meet the real time constraints, which can modify its behaviour in different ways : only the current and the past observations of the signal are available, and, despite this fact the classification system has to remain reliable and reactive.

Thus, the first question that occurs is : what strategy for the classification can we adopt in order to tackle the real time constraints ? In the literature, we can find two main approaches : the frame-level

clas-sification and the segment-level clasclas-sification. In the frame-level clasclas-sification, the decision is performed

using only the information extracted from the current audio frame. In the segment-level classification, we exploit a short-term information using data computed from the current and few past frames. The data fusion here is obtained using the process of temporal feature integration which consists of deriving relevant information based on the temporal evolution of the audio features.

Based on that, there are several questions that need to be answered. What are the limits of these two classification framework ? Can an frame-level classification and a segment-level be used efficiently for any classification task ? Is it possible to obtain good performance with these approaches ? Which classification framework may lead to the best trade-off between accuracy and reactivity ? Furthermore, for the segment-level classification framework, the temporal feature integration process is mainly based on statistical models, but would it be possible to propose other methods ?

Throughout this thesis, we investigate this subject by working on several concrete case studies. First, we contribute to the development of a novel audio algorithm dedicated to audio protection. The purpose of this algorithm is to detect and suppress very quickly potentially dangerous sounds for the listener. Our method, which relies on the proposition of three features, shows high detection rate and low false alarm rate in many use cases.

Then, we focus on the temporal feature integration in a low-latency framework. To that end, we pro-pose and evaluate several methodologies for the use temporal integration that lead to a good compromise between performance and reactivity.

Finally, we propose a novel approach that exploits the temporal evolution of the features. This ap-proach is based on the use of symbolic representation that can capture the temporal structure of the features. The idea is thus to find temporal patterns that are specific to each audio classes. The experi-ments performed with this approach show promising results.

(9)

(10)

Table des matières

Remerciements i Résumé iii Abstract v Notations xi 1 Introduction générale 1 1.1 Présentation du sujet . . . 1 1.2 Axes d’étude . . . 2

1.3 Résumé des contributions . . . 2

1.4 Structure du document . . . 3

2 État de l’art 5 2.1 Introduction . . . 5

2.2 Caractérisation du signal audio . . . 8

2.2.1 Descripteurs temporels . . . 8

2.2.2 Descripteurs spectraux . . . 9

2.2.3 Descripteurs cepstraux et perceptifs . . . 9

2.2.4 Discussion . . . 10

2.3 Sélection de descripteurs . . . 10

2.3.1 Sélection indépendante du classifieur . . . 11

2.3.2 Sélection liée au classifieur . . . 13

2.4 Méthodes de classification . . . 13

2.4.1 Méthodes génératives . . . 14

2.4.2 Méthodes discriminatives . . . 16

2.5 Construction d’un modèle d’apprentissage . . . 20

2.5.1 Capacité de généralisation et sur-apprentissage . . . 20

2.5.2 Protocole de validation . . . 23

2.5.3 Mesures de performance . . . 24

2.6 Conclusions . . . 25

3 Classification audio temps réel 27 3.1 Propriétés d’un système temps réel . . . 27

3.1.1 Un prise de décision rapide . . . 27

3.1.2 Un système à faible latence . . . 28

3.1.3 Sévérité et criticité des systèmes temps réel . . . 28

3.2 État de l’art de la classification audio temps réel . . . 29

3.2.1 Approches pour une classification faible latence . . . 30

3.2.2 Faible complexité . . . 33

3.3 Discussion . . . 34

3.3.1 Bilan des systèmes temps réel . . . 34

(11)

4 Protection acoustique 37

4.1 Introduction . . . 38

4.2 Protection acoustique : positionnement du problème . . . 38

4.2.1 Description des signaux . . . 38

4.2.2 Origine des perturbations . . . 41

4.3 Sur la perception des sons . . . 41

4.3.1 Échelle de bruits . . . 41

4.3.2 Perception tonale . . . 42

4.3.3 Temps de réaction . . . 43

4.3.4 Conséquences sur l’audition . . . 43

4.3.5 Conclusions sur le problème . . . 43

4.4 État de l’art sur les méthodes de protection acoustique . . . 44

4.4.1 Réglementations et normes en vigueur . . . 44

4.4.2 Méthodes dédiées . . . 44

4.4.3 Techniques de détection . . . 45

4.4.4 Conclusions sur l’état de l’art . . . 47

4.5 Proposition d’une méthode de protection audio . . . 48

4.5.1 Résumé du problème de classification . . . 48

4.5.2 Principe des descripteurs . . . 48

4.5.3 Comportement des descripteurs . . . 50

4.6 Évaluations . . . 52

4.6.1 Bases de données audio . . . 52

4.6.2 Protocole . . . 52

4.6.3 Résultats . . . 53

5 Intermède 59 5.1 Introduction . . . 59

5.2 Corpus audio pour la classification parole/musique/mix . . . 60

5.2.1 Classes audio . . . 60

5.2.2 Construction de la base audio . . . 60

5.3 Protocole . . . 61

5.3.1 Descripteurs audio et système de classification . . . 61

5.3.2 Mesures de performances . . . 61

5.4 Comparaison des paradigmes de classification . . . 62

5.4.1 Classification à la trame . . . 62

5.4.2 Classification sur segment . . . 63

6 Intégration temporelle 67 6.1 Introduction . . . 67

6.2 Quelles méthodes pour traiter l’information temporelle ? . . . 68

6.3 Fonctions d’intégration temporelle des descripteurs . . . 69

6.3.1 Regroupement (stacking) . . . 70

6.3.2 Statistiques . . . 70

6.3.3 Caractéristiques spectrales . . . 70

6.3.4 Modèles autorégressifs . . . 71

6.3.5 Autres modélisations . . . 71

6.4 Modèles d’apprentissage pour des données temporelles . . . 72

6.4.1 Modèles de Markov Cachés (HMM) . . . 72

6.4.2 SVM et noyaux temporels . . . 72

6.5 Positionnement du problème . . . 74

6.5.1 Choix de l’approche pour l’intégration temporelle . . . 74

6.5.2 Discussion sur l’utilisation de l’intégration temporelle . . . 74

6.6 Méthodologies pour l’intégration temporelle des descripteurs . . . 75

6.7 Evaluation Parole/Musique/Mix . . . 76

6.7.1 Protocole d’évaluation . . . 76

6.7.2 Intégration temporelle sur une fenêtre fixe . . . 78

(12)

TABLE DES MATIÈRES

7 Intégration temporelle par représentation symbolique 85 7.1 Introduction . . . 85

7.1.1 Anscombe’s quartet . . . 85

7.1.2 Exemples de motifs caractéristiques à partir de données audio . . . 87

7.2 Méthodes de représentation des séries temporelles . . . 89

7.2.1 Piecewise Aggregate Approximation . . . 91

7.2.2 SAX, Symbolic Aggregate approXimation . . . 91

7.2.3 The clipped representation . . . 94

7.2.4 Mesures de similarité . . . 95

7.2.5 Conclusions sur les méthodes de représentations . . . 96

7.3 Recherche de motifs temporels pour la classification audio . . . 97

7.3.1 Positionnement du problème . . . 97

7.3.2 Adaptation de la méthode de représentation SAX . . . 97

7.3.3 Recherche de motifs discriminants . . . 100

7.4 Exploitation des motifs temporels dans un cadre d’apprentissage automatique . . . 103

7.4.1 Problématique de l’utilisation de motifs temporels . . . 103

7.4.2 Utilisation de manière corrective : SVM + DT . . . 104

8 Conclusions 109

(13)

(14)

Notations

Symboles, fonctions et opérateurs mathématiques

x scalaire x vecteur X matrice

µ_c Centre des exemples de la classe c

Σc Matrice de covariance des échantillons de la classe c

¯

x approximation de la série temporelle x ˆ

X Transformée de Fourier de x

p(x) Densité de probabilité de la variable aléatoire x E[.] Espérance mathématique

E[x|y] Espérance conditionnelle de x sachant y

N (z|µ, Σ) Densité de probabilité de la loi normale ayant pour paramètres la moyenne µ et la matrice de covariance Σ

D(x, y) Distance entre deux séries temporelles x et y

Noms de variables et acronymes

Algorithmes de classification

GMM Gaussian Mixture Model, Modèle de Mélange de Gaussiennes

HMM Hidden Markov Model, Modèle de Markov Caché

SVM Support Vector Machine, Machine à Vecteurs de Support

NN Neural Network, Réseau de Neurones

DT Decision Tree, Arbre de Décision

RF Random Forest, Forêt aléatoire

PCA Principal Component Analysis, Analyse en Composantes Principales

IRMFSP Inertia Ratio Maximization using Feature Space Projection

Outils pour la représentation des séries temporelles

PAA Piecewise Aggregate Approximation

SAX Symbolic Aggregate approXimation

iSAX indexable Symbolic Aggregate approXimation

APCA Adaptive Piecewise Constant Approxmation

DTW Dynamic Time Warping

SVD Singular Value Decomposition, Décomposition en Valeurs Singulières

DWT Discret Wavelet Transform, Transformée en Ondelettes Discrète

FFT Fast Fourier Transform, Transformée de Fourier Rapide

DFT Discret Fourier Transform, Transformée de Fourier Discrète

(15)

(16)

Chapitre 1

Introduction générale

Sommaire

1.1 Présentation du sujet . . . . 1

1.2 Axes d’étude . . . . 2

1.3 Résumé des contributions . . . . 2

1.4 Structure du document . . . . 3

1.1 Présentation du sujet

Ce document présente les travaux réalisés pendant mon doctorat en convention CIFRE à Orange Labs. Ces recherches s’inscrivent dans une démarche d’amélioration de la qualité des services conversationnels en s’intéressant tout particulièrement à la problématique de la classification audio sous contraintes de faible latence.

Dans le domaine des télécommunications, les services conversationnels font usage de nombreux al-gorithmes permettant de traiter le signal audio. Codage, réduction de bruit ou protection acoustique sont autant de techniques permettant d’améliorer le confort d’écoute de l’utilisateur final. Bien que ces techniques puissent généralement fonctionner quelle que soit la nature du signal audio, il est cependant possible d’améliorer la qualité de ces traitements lorsque l’on connaît plus précisément le type de signal à traiter. L’exemple le plus typique dans le domaine des télécommunications concerne le codage audio. Afin que le signal puisse être transporté efficacement sur le réseau, il est tout d’abord compressé selon une cer-taine méthode de codage. Cependant, il existe des techniques de codage différentes selon que l’on souhaite traiter un signal de parole ou un signal de musique. Afin d’obtenir une qualité audio optimale, une étape préalable d’identification du signal est alors nécessaire. De la même manière, les algorithmes de protection acoustique destinés à éliminer des signaux gênants doivent en premier lieu identifier précisément quand ces signaux gênants apparaissent, sans quoi une dégradation du signal pourrait être perçue.

Dans le but d’appliquer un traitement sur mesure, il est donc nécessaire d’avoir recours à une classi-fication audio. La classiclassi-fication audio consiste à associer certaines portions du signal à l’une des classes audio prédéfinies (classes parole, classe musique etc.) afin d’avoir une vision structurée du signal. Ces informations serviront par la suite à guider le choix du traitement audio.

La classification audio est un sujet qui a beaucoup mobilisé les chercheurs depuis plusieurs années, en l’appliquant à des domaines divers comme l’analyse musicale, la reconnaissance de scènes auditives ou encore l’archivage sonore. Les systèmes mis en place se distinguent alors selon leurs applications (e.g. quels signaux cherche-t-on à reconnaître ?), mais également selon leurs caractéristiques techniques : quels descripteurs sont utilisés ?, quelle stratégie de classification est adoptée ? etc.

Cependant, on remarque qu’une grande majorité des systèmes de classification ne font pas état de contraintes temporelles : le signal peut être parcouru librement afin de rassembler les informations né-cessaires pour la prise de décision (on parle alors d’une classification hors ligne). Or, on se place ici dans un contexte de classification audio pour des applications liées au domaine de télécommunications. Les conditions d’utilisation sont alors plus sévères : les algorithmes fonctionnent en temps réel et l’analyse du signal et le traitement associé se font à la volée, au fur et à mesure que le signal audio est transmis.

(17)

De fait, l’étape de classification audio doit également répondre aux contraintes du temps réel, ce qui affecte son fonctionnement à plusieurs niveaux. Tout d’abord, on est confronté à un problème de causalité et, comparé aux systèmes de classification hors ligne, il n’est pas possible d’avoir à disposition l’intégra-lité du signal. Ici, la prise de décision sera effectuée en exploitant seulement les observations courantes et passées. La première conséquence des contraintes temps réel est donc la quantité d’informations nécessai-rement limitée pour prendre une décision, comparée à un système hors ligne. Ensuite, un système temps réel se doit de répondre à une certaine réactivité, dans le sens où dès qu’un événement acoustique appa-raît, le système doit permettre de le prendre en compte dans des délais imposés. Par exemple, certains systèmes de classification requièrent qu’un événement acoustique soit détecté au plus tard 50 ms après son apparition. On précise également que cette contrainte n’est pas qu’une question de temps de calcul mais bel et bien de conception du système de classification.

Ces contraintes temporelles influent donc fortement sur la manière d’opérer la classification et c’est la gestion de ces contraintes qui nous importe ici.

1.2 Axes d’étude

Les recherches s’articulent autour de plusieurs grandes questions qui seront adressées dans ce docu-ment.

• Quelles stratégies de classification adopter pour faire face aux contraintes

tempo-relles ?

En s’appuyant sur les travaux antérieurs visant à mettre en place des systèmes de classification audio respectant des contraintes temporelles, on remarquera deux paradigmes de classification : une classification à la trame et une classification sur segment. La classification à la trame consiste, comme son nom l’indique, à prendre une décision en ne considérant que les informations issues de la trame courante. La classification sur segment désigne une prise de décision en exploitant les informations issues de la trame courante et de quelques trames précédentes. On peut donc s’interroger sur les conditions d’utilisation de ces deux approches.

• Quelles sont les limites de ces stratégies de classification ?

Une classification à la trame et une classification sur segment peuvent-elles être utilisées quel que soit le contexte ? Est-il possible d’obtenir des performances convenables avec ces deux approches ? Quelle mode de classification permet de produire le meilleur rapport entre performance de classi-fication et réactivité ?

• Quelles techniques employer pour extraire l’information la plus pertinente à partir

d’une quantité de signal limitée ?

Dans le cadre de la classification sur segment, on a recours au processus d’intégration temporelle qui consiste à exploiter l’évolution des descripteurs plutôt que les descripteurs eux-mêmes. Plusieurs techniques ont été proposées pour dériver une information pertinente à partir de cette évolution temporelle, principalement basée sur des modélisations statistiques, mais serait-il possible de pro-poser d’autres approches ?

1.3 Résumé des contributions

Au cours de l’exploration de ce sujet qu’est la mise en place d’un système de classification sous contraintes de faible latence, nous avons apporté les contributions suivantes.

Tout d’abord, dans le cadre des projets de recherche à Orange Labs nous avons pu contribuer au développement d’un nouvel algorithme de protection acoustique, visant à supprimer des signaux poten-tiellement gênants pour l’auditeur final. Les contraintes temporelles sont ici très fortes puisque dans certains cas, l’exposition à ces signaux peut avoir des conséquences graves pour l’audition. Les signaux doivent alors être identifiés puis supprimés en quelques dizaines de millisecondes. Il est dont nécessaire de mettre en place un système capable d’identifier dans des délais très brefs les signaux perturbateurs. Pour cette application, nous avons proposé l’utilisation de trois descripteurs audio permettant de capter précisément les caractéristiques des signaux à reconnaître. Parmi ces trois descripteurs, un descripteur de stabilité fréquentielle a été développé spécialement pour cette tâche de classification. Les performances du système final montrent un taux de détection élevé tout en conservant un taux de fausse alarme très

(18)

1.4 Structure du document

bas, et ce, quelles que soient les conditions d’utilisation.

Ce projet de protection acoustique nous a servi de point de départ en étudiant un système de clas-sification à la trame. Par la suite, nous nous sommes également intéressés aux systèmes de clasclas-sification sur segment et faisant donc intervenir le processus d’intégration temporelle des descripteurs. Les mé-thodes d’intégration temporelle que l’on retrouve dans la littérature ont été principalement évaluées pour des systèmes de classification hors ligne. Nous avons donc mené une évaluation détaillée des principales méthodes d’intégration temporelle en observant leur impact lors d’une classification faible latence. Par ailleurs, nous avons établi plusieurs méthodologies pour l’utilisation de l’intégration temporelle afin de rétablir le lien qui existe entre les descripteurs et les fonctions d’intégration temporelle.

Le processus d’intégration temporelle, qui repose principalement sur l’extraction de statistiques sur les séries temporelles des descripteurs, offre des performances satisfaisantes. Cependant, nous proposons de nous intéresser à une autre manière d’exploiter l’évolution temporelle des descripteurs. L’approche propo-sée s’appuie sur l’utilisation des représentations symboliques permettant de capter la structure temporelle des séries de descripteurs. L’idée étant ensuite de rechercher des motifs temporels caractéristiques des différentes classes audio. Le système de classification mis en place, combinant l’utilisation des fonctions d’intégration temporelle classiques et l’utilisation de motifs temporels, permet d’améliorer un peu plus les performances de classification, montrant ainsi que l’emploi de l’information basée sur la morphologie des séries temporelles est prometteur.

1.4 Structure du document

Le document présenté ici est organisé autour de six chapitres.

Tout d’abord dans le chapitre 2 nous rappelons les principaux concepts liés à la classification audio ainsi que les différents outils d’apprentissage automatique qui seront utilisés tout au long de cette étude. Dans le chapitre 3, on s’intéresse à la notion de temps réel et on affine un peu plus l’étude des systèmes de classification audio en s’intéressant plus particulièrement à ceux développés pour répondre à des contraintes temporelles. C’est de cette étude qu’on réussira à dégager deux paradigmes de classification : la classification à la trame et la classification sur segment.

Le chapitre 4 décrit une première tâche de classification avec des contraintes temporelles fortes : la protection acoustique. L’enjeu ici est de réussir à détecter des signaux gênants dans des délais très courts. On présente dans ce chapitre le contexte particulier de cette étude, les mécanismes perceptifs qui expliquent pourquoi ces signaux peuvent représenter un risque pour l’auditeur puis, une recherche des travaux antérieurs nous donnera quelques pistes pour concevoir un système de détection efficace. Par la suite on décrit la technique proposée et en particulier les trois descripteurs mis en avant. La pertinence de l’algorithme développé est soutenue par une évaluation détaillée et en comparaison avec un système de détection de l’état de l’art.

Dans le chapitre 5, on discute des limites d’une classification à la trame comparée à une classification sur segment. On s’appuie pour cela sur un changement de tâche de classification, à savoir la classification parole/musique/mix. Les conclusions de cette étude intermédiaire nous engagent alors à nous intéresser à la classification sur segment et plus particulièrement au processus d’intégration temporelle des descrip-teurs.

Tout le chapitre 6 est consacré à l’étude de l’intégration temporelle en présentant les différentes techniques disponibles pour extraire à partir de l’évolution temporelle des descripteurs, l’information la plus pertinente pour la tâche de classification. Outre les techniques d’intégration temporelle, on s’intéresse également à la méthodologie générale de la mise en place du processus d’intégration temporelle. On évalue différentes méthodologies pour montrer le lien qui existe en les descripteurs et les fonctions d’intégration temporelle.

Enfin, dans le chapitre 7, on propose une manière différente d’exploiter l’information temporelle. En partant du constat qu’une description des séries temporelles reposant uniquement sur des statistiques n’est pas toujours suffisante, on introduit l’utilisation des représentations symboliques qui permettent, elles, de capter la morphologie des séries temporelles. On détaille l’adaptation de la représentation sym-bolique choisie, représentation nommée SAX, et on propose une méthode permettant d’intégrer les motifs temporels avec les techniques d’intégration temporelle classiques.

Le dernier chapitre dresse le bilan de ces travaux et propose quelques pistes d’étude pour prolonger ces recherches.

(19)

(20)

Chapitre 2

État de l’art

Sommaire

2.1 Introduction . . . . 5

2.2 Caractérisation du signal audio . . . . 8

2.2.1 Descripteurs temporels . . . 8

2.2.2 Descripteurs spectraux . . . 9

2.2.3 Descripteurs cepstraux et perceptifs . . . 9

2.2.4 Discussion . . . 10

2.3 Sélection de descripteurs . . . . 10

2.3.1 Sélection indépendante du classifieur . . . 11

2.3.2 Sélection liée au classifieur . . . 13

2.4 Méthodes de classification . . . . 13

2.4.1 Méthodes génératives . . . 14

2.4.2 Méthodes discriminatives . . . 16

2.5 Construction d’un modèle d’apprentissage . . . . 20

2.5.1 Capacité de généralisation et sur-apprentissage . . . 20

2.5.2 Protocole de validation . . . 23

2.5.3 Mesures de performance . . . 24

2.6 Conclusions . . . . 25

2.1 Introduction

L’objectif de la classification audio est de déterminer de manière automatique la nature du signal sonore, en associant certaines portions du signal à l’une des différentes classes audio. On se place ici dans le cadre d’une classification supervisée (e.g. analyse discriminante), c’est-à-dire que les classes audio sont déterminées à l’avance en fonction de l’application visée, par opposition à la classification non supervisée où les classes sont déduites du processus d’apprentissage (e.g. clustering).

La classification audio est une tâche que l’on retrouve dans de nombreux domaines d’application tels que les télécommunications, le multimédia ou encore la robotique. On liste ici quelques applications cou-rantes ayant recours à une classification audio :

• Analyse de flux radiophonique. Dans le but d’avoir une vision structurée d’un document audio, on retrouve de nombreuses méthodes permettant de distinguer les principaux événements sonores comme la parole, la musique, les jingles, les bruits environnants etc (Nitanda et al. 2005), (Xie et al. 2011). Des extensions de ces techniques permettent également de reconnaître les locuteurs

ainsi que d’autres propriétés pouvant apporter une information supplémentaire sur le contenu au-dio, telle que l’âge (Bocklet et al. 2008) ou encore le genre (Harb et al. 2004).

• Archivage vidéo. De la même manière, certains systèmes d’archivage vidéo se basent sur le contenu sonore pour guider l’analyse d’une scène vidéo. Des événements peuvent en effet être pré-sents à l’écoute mais non visibles à l’image (Cotton et al. 2011), (Lee & Ellis 2010), (Zhang & Kuo 2001), (Zhang & Kuo 1999a), (Zhang & Kuo 1999b), (Minami et al. 1998).

(21)

• Codage audio. Afin de tirer parti des différentes techniques de codage, les codeurs audio pro-posent désormais une approche adaptative : le mode de codage est choisi en fonction de la nature du signal traité. Ce codage contextuel a pour but d’améliorer la qualité audio finale mais égale-ment d’adapter l’utilisation de la bande passante (Burred & Lerch 2004). Les classes audio

impliquent très souvent les signaux de parole et de musique (Greer & DeJaco 2001), (Goudar et al. 2006), (Lim & Chang 2011), mais d’autres techniques ont été proposées pour effectuer

un découpage plus fin comme par exemple la classification selon les sons voisés, non-voisés et les transitoires (Jelinek et al. 2004).

• Classification musicale. Le domaine de la Recherche d’Information Musicale (ou MIR pour

Music Information Retrieval) s’emploie à l’extraction d’informations relatives à la musique à

par-tir de base de données musicale. Pour les applications faisant appel à la classification audio, on retrouve par exemple la reconnaissance du genre musical d’un morceau de musique (Tzanetakis & Cook 2002), (McKinney et al. 2003), (Burred & Peeters 2009), la reconnaissance des

instruments de musique (Essid 2005), (Joder et al. 2009), ou encore la reconnaissance de la

voix chantée (Ramona et al. 2008), (Regnier 2012).

• Reconnaissance de scènes auditives. La reconnaissance de scènes auditives (CASR,

Com-putational Auditory Scene Recognition) a pour objectif d’identifier les sons d’un environnement

quotidien (Schilit et al. 1994). Ces sons peuvent ici être de natures très diverses : bruits dans

la rue, ambiances dans un café, dans un bureau, en extérieur, etc (Peltonen et al. 2002a), (Wang & Brown 2006), (Kalinli et al. 2009). Cette analyse peut être mise au service de

nombreuses applications telles que les systèmes de monitoring pour la reconnaissance de sons do-mestiques (Liao et al. 2011), en robotique cela peut permettre à une machine intelligente de

percevoir un environnement (Chu et al. 2006), en télécommunications, on peut se servir de cette

analyse pour moduler le fonctionnement d’un mobile ou d’objets connectés (Ma et al. 2003), (Malkin & Waibel 2005), ou alors modifier le comportement d’appareils auditifs en changeant

automatiquement de mode de filtrage selon le contexte sonore (Ravindran & Anderson 2005), (Eronen et al. 2006).

Ces exemples montrent que la classification audio peut intervenir sur des applications très diverses avec des signaux à identifier variés. Cependant, malgré le nombre pléthorique de systèmes proposés, l’architecture d’un système de classification audio, elle, reste identique. En effet, tout système s’articule autour de deux éléments centraux : la description du signal, qui permet de mettre en évidence des ca-ractéristiques pertinentes pour la résolution d’un problème donné, et la phase de classification qui fait appel à un classifieur, entraîné pour modéliser le comportement des descripteurs vis-à-vis des classes audio. Le schéma 2.1 détaille les différentes étapes que l’expérimentateur peut aborder lors de l’élaboration d’une méthode de classification audio.

La classification supervisée sous-entend un fonctionnement à deux niveaux : une phase d’apprentissage et une phase d’évaluation. Durant la phase d’apprentissage, le système dans son intégralité est mis au point : choix des descripteurs et réglage de la méthode de classification. La phase d’évaluation permet de valider le modèle en le confrontant à des données qui ne figurent pas dans la base d’apprentissage.

La caractérisation du signal audio peut se faire par la construction de nouveaux descripteurs ou bien par la recherche de descripteurs pertinents parmi un ensemble d’attributs déjà existants. En effet, du fait de l’engouement pour la classification audio, de nombreux descripteurs ont été proposés pour différentes applications. Le nombre de descripteurs potentiellement pertinents peut alors être très grand, ce qui n’est pas forcément souhaitable dans l’optique de mettre au point un système peu complexe. La caractérisation audio s’accompagne donc souvent d’une phase de sélection des descripteurs dont le but est de ne conserver qu’un sous-ensemble optimal d’attributs.

Ensuite, un algorithme de classification est utilisé pour faire le lien entre les descripteurs audio et les classes mises en jeu. Le choix de la méthode de classification et l’ajustement de ses paramètres repré-sentent une étape cruciale pour assurer les bonnes performances du système.

L’objectif de ce chapitre est de présenter tous les principaux concepts liés à l’élaboration d’un système de classification audio, qui seront utilisés tout au long de ce document. Sans être exhaustif, ce chapitre apportera des réflexions sur la manière de mettre en œuvre la classification.

(22)

2.1 Introduction −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 104 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10

trame

Extraction des descripteursaudio

•

Recherche ou mise en place d’attributs

pertinents

•Le nombre de descripteurs peut être grand

Sélection des descripteurs

Réduction à un sous-ensemble pertinent

Construction du modèle d’apprentissage

•Choix classifieur

•Affinage des paramètres du modèle

Modèle d’apprentissage

Modèle appris

PHASE D’APPRENTISSAGE

PHASE D’EVALUATION

Le système de classification (descripteurs + modèle)

est testé sur des données inconnues

Figure 2.1 – Architecture générale pour l’élaboration d’un système de classification audio. Le dérou-lement se fait suivant deux phases : une phase d’apprentissage (conception) et une phase d’évaluation. Lors de la phase d’apprentissage, on procède à l’extraction des descripteurs jugés pertinents. Le nombre de descripteurs retenus peut être grand. L’étape de sélection permet de réduire cet ensemble en un sous-ensemble. A partir de ces données, un modèle d’apprentissage est construit en ajustant les paramètres du modèle. Lors de la phase d’évaluation, le système complet (i.e. le jeu de descripteur choisi et le modèle) est testé sur des nouveaux signaux.

(23)

2.2 Caractérisation du signal audio

Un signal audio peut être observé grâce à sa forme d’onde, décrivant les variations d’amplitude de l’onde acoustique au cours du temps (figure 2.2). Cependant, cette représentation brute ne permet pas une caractérisation suffisante pour pouvoir être utilisée par la suite en classification.

De ce fait, la première étape pour tout système de classification audio consiste à extraire des

descrip-teurs ou attributs, mettant en évidence certaines propriétés du signal jugées pertinentes pour permettre

de discriminer les différentes classes audio.

Pour cela, le signal est découpé en segments élémentaires, appelée trames, variant selon les applications d’une dizaine à une centaine de millisecondes. Lors de ce découpage, le pas d’avancement peut corres-pondre à la taille de la trame, les trames sont alors non-recouvrantes, ou alors être inférieur à la taille de la trame, les trames sont alors recouvrantes. Ce sont sur ces trames que sont extraits les descripteurs.

0 20 40 60 80 100 −0.5 0 0.5 Temps (s) Amplitude

Figure 2.2 – Forme d’onde d’un extrait audio contenant de la musique et de la parole.

On distingue généralement les descripteurs selon le domaine dans lequel ils sont calculés. On retrouve alors les descripteurs temporels, les descripteurs spectraux et les descripteurs cepstraux et également des descripteurs perceptifs visant à prendre en compte le fonctionnement de la perception humaine.

Avec l’intérêt qu’ont porté les chercheurs sur la classification audio, afin de répondre à des applica-tions très diverses et pour discriminer une grande variété de signaux audio, il existe à l’heure actuelle une importante collection de descripteurs. On trouvera dans la littérature des présentations détaillées des principaux descripteurs, notamment dans (Peeters 2004) ou l’annexe C dans (Ramona 2010),

et également des implémentations libres, comme YAFAE (pour Yet Another Audio Feature Extractor )

(Mathieu et al. 2010).

En complément, plusieurs auteurs se sont attachés à proposer une évaluation détaillée des principaux descripteurs audio pour différentes tâches de classification (Carey et al. 1999), (Li et al. 2001),

permettant ainsi d’avoir un aperçu de la force des descripteurs utilisés.

Par la suite, on rappelle brièvement les descripteurs couramment employés pour les tâches de classi-fication audio.

2.2.1 Descripteurs temporels

Les descripteurs temporels sont extraits à partir de la forme d’onde du signal uniquement. Puisqu’au-cune transformation n’est requise, généralement ces descripteurs présentent l’avantage d’être faiblement complexes.

• Le taux de passage par zero (ZCR, pour Zero Crossing Rate) présenté dans (Kedem 1986)

comptabilise le nombre de changement de signe de la forme d’onde sur une portion de signal. • Les mesures d’énergies reposent sur le calcul de l’énergie RMS (Root Mean Square) dans une

trame. Par exemple dans le cas de la discrimination parole/musique, on peut montrer que la parole présente une plus grande variation d’énergie que la musique (Scheirer & Slaney 1997), (Lu et al. 2001), (Wang et al. 2003).

• Les coefficients de corrélation sont utilisés pour rendre compte de la structure harmonique dans le signal. En effet, la mesure d’autocorrélation d’un signal fera apparaître un maximum lorsque le signal est quasi-périodique.

(24)

2.2 Caractérisation du signal audio

2.2.2 Descripteurs spectraux

Les descripteurs spectraux sont généralement extraits à partir du spectre de Fourier, estimé par la Transformée de Fourier Discrète (TFD). La TFD, calculée sur une trame après pondération (par une fenêtre de Hamming par exemple), est définie pour une trame de N échantillons par :

X(k) =

N −1 X n=0

x(n) exp−2jπkNn ∀k ∈ [0, ..., N − 1]. _(2.1)

• Les moments statistiques spectraux sont les quatre premiers moments statistiques calculés sur le spectre :

- Centroïde spectral : estime le point d’équilibre entre les hautes et les basses fréquences du spectre.

- Largeur spectrale : décrit l’étalement du spectre autour de son barycentre.

- L’asymétrique spectrale (skewness) rend compte de l’équilibre de la répartition des hautes et des basses fréquences.

- La platitude spectrale (kurtosis) permet de connaître l’allure du spectre (plat ou très resserré autour de son barycentre).

• Les mesures de platitude d’amplitude spectrale (SFM, Spectral Flatness Measure et SCM

Spectral Crest Measure) permettent de mettre en évidence le rapport entre le contenu tonal et le

bruit dans une partie du spectre (Peeters 2004).

• La pente spectrale décrit le taux de décroissance du spectre.

• La fréquence de coupure est la fréquence du spectre en dessous de laquelle se trouve une certaine partie de l’énergie du spectre (généralement 95%).

• Le flux spectral mesure la variation du spectre entre deux trames consécutives (Scheirer & Slaney 1997).

• Les coefficients LPC (Linear Prediction Coding) reposent sur la modélisation du signal par un processus autorégressif et permettent de caractériser l’enveloppe du spectre.

• Les coefficients LSF (Linear Spectral Frequencies) sont une représentation alternative aux LPC et sont utiles par exemple pour estimer les fréquences des formants d’un spectre de parole (Itakura & Saito 1970), (Paliwal 1992).

• Les coefficients OBSI et OBSIR (pour Octave Band Signal Intensities et Octave Band

Si-gnal Intensities Ratios respectivement), mesurent les log-énergies dans chaque bande d’octave du

spectre permettant ainsi d’avoir une information sur la structure spectrale du signal (Essid 2005).

• Les mesures de modulation d’amplitude permettent de mettre en évidence des phénomènes de variation d’intensité, comme la modulation d’énergie à 4 Hz, connue pour être caractéristique du débit syllabique.

2.2.3 Descripteurs cepstraux et perceptifs

Le cepstre, défini par Bogert et al. (Bogert et al. 1963), permet d’avoir une information sur les

variations du spectre. Le cepstre réel correspond à “la valeur absolue au carré de la transformée de Fourier inverse du logarithme de l’amplitude au carré de la transformée de Fourier du signal x” (Norton & Karczub 2003) : C(n) = F−1 log|F {x(n)}|2 2 . (2.2)

• Les coefficients MFCC (Mel-Frequency Cepstral Coefficients), présentés dans (Davis & Mer-melstein 1980), correspondent au cepstre réel calculé sur le spectre de Fourier exprimé sur une

échelle Mel. Dans la littérature on retrouve de nombreuses extensions des MFCC, (Hossan et al. 2010), (Zhou et al. 2008), (Mubarak et al. 2006), ou de descripteurs dont le fonctionnement

est directement inspiré des MFCC, comme Octave-based Spectral Constrast (Jiang et al. 2002), (West & Cox 2005).

Enfin, les descripteurs perceptifs permettent de produire des mesures intégrant le fonctionnement de la perception humaine avec par exemple les notions de loudness, mais surtout la notion de hauteur perçue (pitch) :

(25)

• La fréquence fondamentale issue de l’algorithme YIN (De Cheveigné & Kawahara 2002).

• La mesure d’apériodicité mesure le caractère tonal d’un signal.

2.2.4 Discussion

Il est intéressant de remarquer que même si certains descripteurs sont définis dans des domaines différents (domaine temporel, spectral ou cepstral), les caractéristiques qu’ils mettent en avant peuvent être très proches. En effet, dans (Xie et al. 2011), l’auteur fait remarquer que les descripteurs peuvent

généralement être regroupés en quatre catégories : les mesures d’énergies, les statistiques spectrales, les descriptions de l’enveloppe spectrale et les mesures du pitch. Pour les descripteurs cités plus haut, nous pouvons faire les regroupements suivants :

• Mesures d’énergies : mesure RMS, modulation d’énergie à 4 Hz, premier coefficient MFCC. • Statistiques spectrales : ZCR, centroïde spectral, étalement spectral, skewness, kurtosis, flux

spec-tral, platitude spectrale, fréquence de coupure, pente spectrale.

• Enveloppe spectrale : coefficients MFCC, coefficients LPC, coefficients LSF, coefficients OBSI et OBSIR.

• Mesures de pitch : fréquence fondamentale, mesure d’autocorrélation.

En plus de représenter dans certains cas des caractéristiques proches, certains descripteurs peuvent également être très corrélés. L’exemple le plus typique est celui de la mesure de ZCR et du centroïde spectral (Peltonen et al. 2002b), qui, bien que calculés dans des domaines différents, produisent des

résultats corrélés.

Ce constat d’une possible redondance dans les descripteurs calculés nous amène à la deuxième étape de la construction d’un système de classification : la phase de sélection des descripteurs.

2.3 Sélection de descripteurs

A l’issue de la phase d’extraction de descripteurs, le signal peut être représenté par un grand nombre de descripteurs. Bien qu’une représentation la plus exhaustive possible semblerait être une situation idéale, il existe trois raisons pour lesquelles il est préférable de réduire la dimensionnalité de l’espace de représentation (i.e. nombre de descripteurs) : réduire la complexité du système global, améliorer les

performances de classification et permettre une meilleure compréhension du problème.

L’objectif de la phase de sélection est de ne retenir qu’un jeu de S descripteurs parmi un ensemble de D descripteurs avec S < D. Ne retenir qu’un nombre limité de descripteurs favorisera naturellement un système de faible complexité puisque le nombre d’opérations et l’espace mémoire requis sera réduit. De plus, le modèle créé au niveau du classifieur sera plus simple et donc moins complexe si le nombre de descripteurs est restreint.

S’affranchir de certains descripteurs originaux revient à dire qu’ils peuvent être soit non pertinents, soit redondants. Dans les deux cas ils ne vont pas améliorer les performances de classification, voire plutôt les dégrader du fait de la malédiction de la dimensionnalité (Bellman et al. 1961). En effet, on peut

observer en pratique un phénomène qui voit la détérioration des performances d’un classifieur lorsqu’on ajoute des descripteurs pour un nombre d’exemples d’apprentissage fini. Ce comportement est paradoxal puisque l’ajout d’informations, qui devrait aider à résoudre le problème, se révèle être néfaste pour la construction du modèle. La conséquence d’un point de vue pratique de la malédiction de la dimensionnalité est que lors de la construction d’un système d’apprentissage/classification, l’expérimentateur ne devrait conserver qu’un nombre limité de descripteurs pertinents, lorsque l’ensemble d’apprentissage est restreint. Bien que la relation exacte entre l’erreur de prédiction, le nombre d’exemples d’apprentissage, le nombre de descripteurs et le nombre de paramètres soit difficile à établir, on retrouve des règles de conduite permettant de limiter l’apparition de ce phénomène. Par exemple, Jain et Chandrasekaran dans (Jain & Chandrasekaran 1982) proposent, pour un nombre d’exemples d’apprentissage N et un nombre de

descripteurs retenus D, le critère suivant : N

D > 10 .

Enfin, d’un point de vue pratique il est intéressant de ne travailler qu’avec peu de descripteurs car cela peut amener à une meilleure compréhension du problème par l’interprétation physique des descripteurs. En analyse statistique, l’utilisation d’outils de réduction de dimension permet justement d’identifier les variables les plus importantes pour un problème donné et de déceler celles qui n’ont au contraire, aucune

(26)

2.3 Sélection de descripteurs

influence. Cette analyse sera d’autant plus intéressante si le nombre de descripteurs à analyser est réduit. Toute la question réside dans la manière de déterminer quels attributs seront plus pertinents. Comment mesurer la pertinence d’un descripteur ? Comment estimer la pertinence d’un ensemble de descripteurs ? Nous discutons par la suite les méthodes couramment utilisées.

On peut distinguer deux modes de sélection de descripteurs, les méthodes exploitant les descripteurs indépendamment du classifieur, et les méthodes prenant en compte l’interaction avec le classifieur. On présente par la suite quelques méthodes remarquables.

2.3.1 Sélection indépendante du classifieur

Les méthodes qui procèdent indépendamment du classifieur sont appelées filtres et peuvent être vues comme une étape de prétraitement.

L’une des techniques les plus populaires permettant d’éliminer l’information redondante et de com-prendre l’interaction entre les descripteurs est l’Analyse en Composantes Principales (PCA,

Prin-cipal Component Analysis) (Pearson 1901), (Hotelling 1933), également appelée transformation de

Karhunen-Loève. La PCA permet de caractériser des données d’un espace à D dimensions vers un sous-espace de dimension S (avec S < D) en minimisant la perte d’information due à la projection (en maximisant la variance projetée) (Shlens 2014).

En partant d’un jeu de descripteurs originaux X de dimension N × D contenant N observations et D descripteurs, le principe de la PCA repose sur le calcul des vecteurs propres de la matrice de covariance de X. La transformation permettant de réduire le nombre de descripteurs à S avec S ≤ D est obtenue par la transformation :

Y = XH, (2.3)

où H la matrice D × S de transformation linéaire dont les colonnes sont les vecteurs propres et Y est la matrice des descripteurs transformés de dimension N × S. Lorsque le nombre de descripteurs à retenir

S est connu, il suffit de ne conserver que les descripteurs ayant les plus grandes valeurs propres. Lorsque S n’est pas fixé à priori, un critère de sélection consiste à ne garder que les descripteurs contenant la plus

grande partie de la variance totale (on trouve par exemple 95% de la variance totale (Ntalampiras & Fakotakis 2012)).

On remarque toutefois que la transformation appliquée ici est linéaire, or il existe des extensions à ces méthodes pour des transformations non linéaires, comme avec l’Analyse en Composantes

Non-Linéaires (ou Kernel PCA) (Schölkopf et al. 1998), (Fukunaga 2013). Aussi, il est à noter que les

descripteurs qui pourront être utilisés dans le cadre d’une tâche de classification seront les descripteurs transformés et non originaux. La nécessité d’une transformation demande donc une étape de calcul supplémentaire.

Enfin, la PCA peut être vue comme une méthode de sélection des descripteurs non-supervisée puisque la classe à laquelle appartiennent les données n’est jamais exploitée. La PCA permet d’éliminer la re-dondance d’information et d’extraire les variables les plus descriptives mais n’apporte pas d’information sur le pouvoir discriminant des données, ce qui dans le cadre d’une tâche de classification, serait le plus souhaitable.

Plusieurs critères permettent de rendre compte des propriétés discriminatives d’un jeu de données, comme la matrice de dispersion intra-classe Sw (w pour within-class scatter matrix) et la matrice de

dispersion inter-classe Sb (b pour between-class scatter matrix) définies pour un problème à K classes

par : Sw= K X k=1 X xi∈Sk (xi− µk)(xi− µk) T_, _(2.4) Sb= 1 n K X k=1 nk(µk− µ)(µk− µ) T_, _(2.5) où µ_k = 1 nk P

xi∈Skxi est le centre des exemples de la classe k et µ le centre de tous les exemples

(µ = _n1P

(27)

matrice Sb décrit, elle, la distance moyenne entre les centres de chaque classe et le centre global. En utilisant la dispersion intra-classe et la dispersion inter-classe, il est possible de former le critère de séparabilité des classes J , qui est au cœur du critère de Fisher (Bishop 2006) :

J = trSb

trSw

, (2.6)

où l’élément tr{Sw}, désigne la somme des éléments de la diagonale de la matrice Sw. L’objectif est de maximiser J ce qui implique que les données soient bien regroupées autour de leur moyenne pour chaque classe (faible Sw) et que les clusters des différentes classes soient bien séparés (Sbest grand) (Fukunaga

2013).

L’Analyse Discriminante Linéaire (LDA, Linear Discriminant Analysis) (McLachlan 2004)

utilise également ce critère et, là où la PCA recherchait les vecteurs propres sur la matrice de covariance, la LDA recherche les vecteurs propres sur la matrice S−1_w Sb. En d’autres termes, là où la PCA permettait de trouver les directions de l’espace “utiles à la représentation des données”, la LDA permet de trouver les directions “utiles à une bonne discrimination des classes”.

Le critère de séparabilité des classes peut également être employé sans qu’aucune projection ne soit nécessaire en utilisant une version simplifiée, ici formulée pour un problème à deux classes (Duda et al. 2001) : R(d) = |µ1,d− µ2,d| 2 σ2 1,d+ σ 2 2,d , (2.7) avec σ2

i,d, la variance des exemples du descripteur d pour la classe i. Cette méthode consiste à effectuer un classement des descripteurs et ne retenir que ceux qui présentent un grand pouvoir de séparation. Cependant, ce critère caractérise chaque descripteur individuellement et ne permet pas de prendre en compte les possibles interactions. Des attributs redondants peuvent alors être retenus.

Dans (Peeters & Rodet 2003), Peeters propose un algorithme de sélection, nommé IRMFSP (pour

Inertia Ratio Maximization using Feature Space Projection) qui repose sur les même bases que le critère de

Fisher (critère de séparation des classes) mais y ajoute une phase d’orthogonalisation permettant d’éviter la sélection d’attributs redondants. Le critère de pertinence choisi pour sélectionner les descripteurs est le rapport entre la dispersion inter-classes et la dispersion globale, qui peut se formuler pour des données uni-dimensionnelles par : Rd= P k=1,2nk(µk,d− µd) 2 Pn i=1(xi,d− µd)2 . (2.8)

La sélection se fait de manière séquentielle : le descripteur d maximisant Rdest retenu puis une procédure d’orthogonalisation est effectuée par rapport au descripteur sélectionné, sur les descripteurs restants (pro-cédure de Gram-Schmidt), afin de limiter la corrélation entre ces derniers et les descripteurs sélectionnés. Cette méthode de sélection des descripteurs reste peu coûteuse mais les phases d’orthogonalisation successives peuvent se révéler dangereuses, on peut finir par travailler sur des descripteurs totalement bruités. À noter que cette technique, au même titre que la LDA respecte l’espace original des descripteurs, puisqu’aucune transformation des descripteurs n’est appliquée.

Les méthodes filtres présentent l’avantage d’être peu coûteuses et faciles à mettre en œuvre, ce qui explique leur popularité. Les techniques présentées ici permettent de voir la diversité des méthodes exis-tantes et la manière dont elles sont utilisées. On peut par exemple faire appel à des transformations (linéaire ou non), prendre en compte ou non la dépendance inter-descripteurs (univarié/multi-varié) ou bien rechercher les variables explicatives ou les variables discriminatives, comme nous l’avons montré avec le critère de séparabilité.

Cependant, le principal inconvénient des méthodes filtres est qu’elles ne garantissent pas d’aboutir à la sélection du meilleur sous-ensemble de descripteurs. En effet, du fait qu’elles ne prennent pas en compte le classifieur, il n’est pas possible de savoir si les k meilleurs descripteurs choisis représentent le meilleur sous-ensemble de k descripteurs. La manière dont sont sélectionnés les descripteurs influe également :

(28)

2.4 Méthodes de classification

on peut faire un tri des meilleurs descripteurs ou ne retenir que ceux non corrélés mais on n’aura pas de mesure de l’efficacité de l’ensemble global, puisque pour avoir la performance de cet ensemble, il faut l’évaluer grâce au classifieur. On pourra par exemple se renseigner sur les expériences menées par Guyon et Elisseeff (Guyon & Elisseeff 2003) montrant que dans certains cas, les pires k descripteurs considérés

individuellement peuvent former le meilleur sous-ensemble de k descripteurs.

Toutefois, même si lorsqu’on parle de méthodes filtres on prétend que celles-ci sont indépendantes du classifieur, on note que certaines emploient des caractéristiques bien particulières des classifieurs. Par exemple, les méthodes à noyaux proposées dans (Ramona et al. 2012) utilisent des critères de

séparabi-lité des classes dans l’espace projeté grâce à l’utilisation de fonctions noyaux, comme le ferait l’algorithme SVM.

2.3.2 Sélection liée au classifieur

On distingue deux grandes manières d’inclure le classifieur dans le processus de sélection : les mé-thodes dites enveloppeurs (wrappers) et les algorithmes de sélection embarquée (embedded methods).

L’idée des méthodes enveloppeurs est d’utiliser le résultat de la classification pour guider le processus de sélection. Par apprentissages successifs, on peut connaître directement la pertinence d’un sous-ensemble donné. L’approche la plus directe consisterait à évaluer les D_S = D!

S!(D−S)! possibilités (lorsque S est connu) puis retenir le sous-ensemble donnant les plus grandes performances. Cependant, cette recherche exhaustive se révèle très vite irréalisable même pour des faibles valeurs de D et S.

Bien que dans (Cover & Van Campenhout 1977) les auteurs montrent qu’aucune procédure de

recherche non-exhaustive ne permette de garantir d’obtenir un sous-ensemble optimal de descripteurs, on trouve toutefois plusieurs alternatives permettant d’accélérer la recherche : Sequential Forward Selection (SFS), Sequential Backward Selection (SBS) et “ajoute l, retire r” (Jain & Zongker 1997). La méthode

SFS consiste à choisir le meilleur descripteur individuel puis à ajouter à chaque itération un descripteur qui, en combinaison avec ceux déjà sélectionnés, va maximiser les performances. A l’inverse, l’approche SBS considère tout d’abord tous les descripteurs puis retire successivement un descripteur. Enfin la dernière procédure est un mélange de SFS et SBS : le sous-ensemble de descripteurs accueille l descripteurs en utilisant SFS puis en retire r grâce à l’approche SBS (avec l > r). D’après les auteurs de (Jain & Zongker 1997), les approches Sequential Forward Floating Search (SFFS) et Sequential Backward

Floating Search (SBFS) qui sont une généralisation de l’approche “ajoute l, retire r” sauf que les valeurs de l et r sont déterminées automatiquement et mises à jour dynamiquement, permettent d’obtenir une solution proche de l’optimale.

Le principal défaut de ces méthodes de sélection vient de leur temps de calcul dû à de nombreuses phases d’apprentissage du classifieur.

Les algorithmes de sélection embarquée concernent une classe de classifieurs pour lesquels la sélection de descripteurs fait directement partie du processus de classification. L’exemple des arbres de décision de type CART (Classification And Regression Trees) (West & Cox 2004) est le plus typique de cette

approche. De même, lors de la phase d’apprentissage, les réseaux de neurones déterminent simultanément le sous-ensemble optimal de descripteurs et le réseau optimal pour le classifieur (Castellano et al. 1997).

Le principal avantage de ces méthodes est qu’on connaît directement les performances du sous en-semble de descripteurs sélectionné, mais cette performance n’est valable que pour le classifieur utilisé pendant la procédure de sélection. Toutefois, ces méthodes nécessitent un grand nombre de phases d’ap-prentissage et d’évaluation, qui rend leur usage prohibitif lorsque le nombre de descripteurs est élevé.

2.4 Méthodes de classification

Une fois qu’un sous-ensemble d’attributs a été sélectionné pour décrire le problème, un classifieur peut alors être modélisé afin de faire le lien entre les descripteurs et les classes cibles.

Il existe de nombreux algorithmes de classification, reposant sur des principes de classification diffé-rents. En apprentissage statistique, on distingue généralement deux grandes approches : les méthodes