• Aucun résultat trouvé

3.2 Statistique et traitement du signal

3.2.1 Généralité

Un signal x(t) est la variation temporelle d’une grandeur physique porteuse d’information, dit autrement une représentation physique de l’information. Par exemple, un signal audio comme la voix ou la musique, est une variation temporelle de la pression de l’air. Dans le cas général, le signal est trop complexe pour être représenté par une fonction mathématique. On préfèrera représenter le signal comme un ensemble de valeurs plutôt que sous sa forme fonctionelle :

{x(t1), x(t2), x(t3), . . . , x(tN)} . (3.1) Par exemple, la figure 3.1 montre l’amplitude du signal sonore obtenue lorsque l’on prononce le mot “artificial”.

L’extraction de l’information contenue dans un signal n’est généralement pas aisée. En effet, il ne suffit pas de connaitre la fonction décrite par le signal ou l’ensemble des valeurs que prend le signal pour extraire directement l’information. Par exemple, il n’est pas facile de développer un algorithme de reconnaissance vocale à partir d’un signal audio seul : pour associer un chanteur à une voix particulière, il faut pouvoir déterminer ce qui différencie plusieurs voix. Cette information est contenue dans la distribution fréquentielle de la voix, que l’on appelle son spectre.

CHAPITRE 3. STAMP-AS : CHAÎNE D’ANALYSE DÉDIÉE À LA RECHERCHE D’ONDES GRAVITATIONNELLES DE LONGUE DURÉE

Figure 3.1 – Signal audio d’une personne prononçant le mot “artificial”. Le signal peut être décomposé en plusieurs segments correspondant aux différentes syllabes. Le signal trop complexe pour être mis sous forme fonctionnelle est parfaitement décrit par un ensemble de valeurs discrètes.

Pour accéder au contenu spectral d’un signal, nous utilisons la transformée de Fourier définie par : ˜

x(t) = Z

x(t)e−2πjf tdt , j2 = −1 , (3.2)

qui va projeter le signal dans l’espace des fréquences. Nous possédons donc deux représentations du signal : dans le domaine temporel et dans le domaine fréquentiel.

La transformée de Fourier d’un signal est une fonction complexe des fréquences qui décrit l’amplitude du spectre et sa phase.

La distribution spectrale d’un signal nous apporte une information inaccessible en considérant la représentation temporelle d’un signal. Par exemple, lorsqu’un violon et une flûte jouent un “la” 440 Hz, le signal possède la même fréquence de “base” ou “fondamentale” puisqu’ils jouent la même note, cependant les harmoniques engagées sont différentes donnant un timbre différent au son. Cette différence est visible directement en considérant la représentation spectrale sur la figure 3.2.

Figure 3.2 – Spectre du “la” 440 Hz joué par un violon (droite) et une flûte (gauche). L’axe des abscisses représente les harmoniques, c’est-à-dire les multiples de 440 Hz. On voit la différence de timbre entre les deux instruments qui jouent la même note.

Le mot signal est pratiquement toujours associé au mot bruit qui désigne une perturbation indésirable qui se superpose au signal et aux données utiles. Ce bruit d’origine multiple dépend du signal que l’on cherche : pour un opérateur sonar, les perturbations produites par les poissons contribuent au bruit, pour un pécheur, elles contribuent au signal.

Le problème fondamental en traitement du signal est d’extraire le signal utile du bruit. La difficulté dépend en particulier de la proportion entre signal et bruit que l’on appelle SNR.

Dans le cadre de la recherche d’ondes gravitationnelles, le signal est émis de façon aléatoire : deux cas s’offrent donc à nous :

— les données contiennent du bruit uniquement (hypothèse H0) ; — les données contiennent du signal et du bruit (hypothèse H1).

Si nous simplifions au maximum le problème, le but de notre chaîne d’analyse est de pouvoir décider si oui ou non un signal est présent dans les données. Il s’agit d’un problème de test d’hypothèse binaire : notre but est d’utiliser au mieux les données pour permettre de décider entre les deux possibilités (H0 et H1) dans la majorité des cas. Dans le cas d’une chaîne de détection, l’ensemble des cas possibles est résumé dans la table suivante :

Hypothèse

Bruit (H0) Bruit + Signal (H1) Signal détecté fausse alarmeα bon fonctionnement1 − β Signal non detecté bon fonctionnement1 − α signal manquéβ

Table 3.1 – Différentes possibilités obtenue dans le cas d’une chaîne de détection où α et β sont nommés respectivement les risques de première et seconde espèce.

Seul le risque de première espèce α que l’on appelle encore probabilité de fausse alarme (FAP) est choisi à priori. Le but est donc de minimiser β ou maximiser 1 − β, encore appelé probabilité de détection, tout en asservissant α.

On modélise les données d(t) du détecteur par une série temporelle qui vérifie les relations suivantes : d(t) =

(

n(t) + s(t) hypothèse H1

n(t) hypothèse H0 (3.3)

où s(t) représente le signal de l’onde gravitationnelle dans les données, et n(t) représente le bruit du détecteur d’origine multiple.

Dans le cas des détecteurs d’ondes gravitationnelles, une des difficultés vient du fait que le bruit des détecteurs interférométriques n’est pas associé à une distribution stationnaire ni gaussienne : en plus d’évoluer au cours du temps, de nombreux excès de bruits de courte durée (glitches) sont présents dans les données.

Comme le signal est trop complexe pour être mis sous forme fonctionnelle, nous représenterons les données des détecteurs de façon discrète, échantillonnée à une fréquence fs. Il est donc plus juste de les modéliser suivant la relation suivante :

di= d(i/fs) = (

ni+ si = n(i/fs) + s(i/fs) hypothèse H1

CHAPITRE 3. STAMP-AS : CHAÎNE D’ANALYSE DÉDIÉE À LA RECHERCHE D’ONDES GRAVITATIONNELLES DE LONGUE DURÉE

avec i ∈ [0, M], M = T/fs et T la durée de l’échantillon.

Pour accéder au spectre du signal, nous utiliserons la forme discrète de la transformée de Fourier : ˜ dk= N −1 X i=0 die−2πjkNi . (3.5)

Afin de distinguer les deux hypothèses H0 et H1, il faut pouvoir extraire le signal si des données di, c’est le but du traitement de données. À ce stade, il est possible de diviser le problème en deux cas :

— le signal est connu, nous utiliserons le filtrage adapté ;

— le signal est inconnu, nous utiliserons une analyse temps-fréquence.