Panorama des méthodes - Stratégie de compression de données

4.2 Stratégie de compression de données

4.2.2 Panorama des méthodes

Les fondations théoriques de la compression de données ont été jetées dès 1948 par Shanon avec la théorie de l’information [213][214]. Depuis lors, les quantités d’information transmises, enregis-trées, stockées, ou encore analysées n’ont eu de cesse d’augmenter, entraînant avec elles un essor très important des techniques de compression. Ce paragraphe ne cherchera donc pas à proposer une revue exhaustive des approches mais plutôt à donner une vision d’ensemble permettant d’aiguiller un choix de méthode [215][216][217].

Il faut d’abord mentionner les méthodes de compression qui travaillent avec la représentation binaire des données. Ce type de technique cherche à optimiser le nombre de bits requis pour écrire la donnée, aboutissant ainsi à des compressions sans perte [217][218] :

— le codage entropique — tel que codage d’Huffman [219] ou le codage arithmétique — cherchent par exemple à compresser une suite de symboles en les remplaçant par une série de bits d’autant plus courte que le symbole apparaît souvent. Ce codage est exploité dans le format jpegpar exemple.

6. Deux vecteurs de sortie sont voisins s’ils correspondent à des inspections menées avec des paramètres d’entrée voisins. On peut parler d’un voisinage dans l’espace des paramètres d’entrée.

— la compression par dictionnaire rationalise l’utilisation de bits en formant un dictionnaire des séries de bits déjà utilisées. Les travaux de Ziv et Lempel [220] sur le sujet ont par exemple inspirés le format gzip.

— le codage prédictif approche la compression d’une manière un peu différente. Il est supposé que les données à compresser présentent des corrélations entre elles. Par exemple, pour une image, la valeur d’un pixel dépend de la valeur des pixels adjacents. L’idée consiste à modéliser ces dépendances par un modèle, puis à ne stocker que l’erreur entre la prédiction faite par le modèle et la donnée réelle. Si le modèle est efficace, les erreurs à stocker seront peu volumineuses.

Ces méthodes optimisent efficacement la représentation de la donnée et ont ainsi gagné une grande popularité7. Par contre, elles ne s’appliquent pas directement aux données mais à leur représenta-tion binaire. De ce fait, le résultat de la compression est tout aussi dépendant de la représentareprésenta-tion binaire choisie pour les données que de la donnée elle-même ! Le lien entre l’espace compressé et la physique à l’origine des données devient si complexe qu’espérer y construire un méta-modèle est très probablement vain. Par rapport aux pré-requis listés précédemment, l’espace compressé manque de représentativité.

Les autres approches de compression travaillent directement au niveau de la donnée, si bien que l’espace compressé est en lien plus direct avec la physique sous-jacente. La donnée à com-presser n’est pas représentée sous forme binaire mais garde sa forme d’échantillons temporels Y “`upt0q, ¨ ¨ ¨ , uptqq^˘^|. Il faut juste noter que cette forme est équivalente à :

Y ptq “

i“0

uieiptq (4.1)

avec : eiptq “ δpt ´ tiq vecteur de la base des échantillons temporels, à savoir eiptq est nul sauf pour eipt “ tiq “ 1;

ui coefficient de la décomposition correspondant à l’amplitude de l’onde ul-trasonore mesurée à l’instant ti;

q nombre d’échantillons temporels.

Certaines méthodes de compression consistent alors à transformer ce signal en le projetant dans une nouvelle base telle que Y ptq “ ř^q^r

i“0

wiΨiptq. Si cette base est appropriée, alors bon nombre de wi se trouvent être proches de zéro et peuvent être éliminés sans induire une perte importante d’information. Après cette troncature des composantes non essentielles, une compression avec perte “raisonnable” est obtenue : qr ă q. Il existe un très large panel de bases utilisables pour la compression, elles seront séparées en deux familles :

Base générique Ces bases sont qualifiées ici de génériques en ce sens qu’elles existent indépendamment des données à compresser. Elles sont généralement utilisées pour transformer des signaux en vue de leur analyse mais ces bases présentent également des propriétés intéressantes pour la compression [218] :

— les polynômes orthogonaux s’avèrent efficaces pour modéliser certains phéno-mènes physiques et peuvent servir de base de compression. Ψiptqsera alors un polynôme d’Hermite, de Laguerre, de Jacobi, etc. Des travaux sur la compression d’électrocardiogrammes se basent notamment sur cette technique [221].

— les séries de Fourier — grand classique de l’analyse fréquentielle — réduisent considérablement la taille des signaux périodiques grâce à Ψiptq “ expp´j2πfitq, avec fi la fréquence associée à la fonction de base. Plusieurs méthodes s’en inspirent telles que la transformée de Fourier discrète, la transformée en cosinus discrète, etc.

— les ondelettes permettent une analyse à la fois en temps et en fréquence. Ces fonctions de base sont fabriquées à partir d’une ondelette de référence qui est décalée en temps et contractée ou dilatée : Ψiptq “ Ψτ_i,s_iptq “1{^?s_iΨ

t´τi

s_i

¯ , si contrôlant l’échelle et τi le décalage temporel. Le signal compressé devient

une somme d’ondelettes à différentes échelles et différentes positions tempo-relles. Cette transformation est très étudiée pour la compression d’image, la compression de signaux sismiques [215], ou la compression de signaux ultraso-nores [222]. Dans cette dernière référence, l’auteur propose une méthode per-mettant de rendre les ondelettes spécifiques aux données.

Base spécifique La compression peut s’appuyer sur des bases spécialement conçues à partir des données à traiter. De cette manière, les différentes fonctions de la base s’adaptent au mieux au comportement des données. Les techniques d’extraction d’une telle base sont nombreuses [216] :

— l’analyse en composantes principales construit l’espace compressé en utilisant une combinaison linéaire des signaux Yiptq connus : Ψiptq “

j“0

p_iY_iptq. Les pi sont calculés de sorte que les Ψiptq capturent le maximum de variance des données. Cette technique est très largement exploitée car elle permet de rendre compte de l’essentiel de la donnée en un minimum de coefficients wi non corré-lés. Cette approche fait écho à la technique de Décomposition Orthogonale aux valeurs Propres (DOP) (cf. 2.2.1) et utilise le même outil : la décomposition en valeurs singulières (SVD). On parlera de compression par SVD.

— la poursuite de correspondance [223] est une compression par dictionnaire direc-tement appliquées sur les données. En d’autres termes, la méthode cherche dans les données des motifs qui se répètent et qu’il suffit de stocker qu’une seule fois. Ces motifs répétés sont appelés des atomes Ψiptq et, pour des signaux ultraso-nores, ils peuvent être vus comme des échos. La compression s’effectue à partir d’une collection de formes d’écho possibles. La méthode sélectionne d’abord les échos qui décrivent le mieux les données à compresser, puis, le signal est com-pressé en enregistrant l’amplitude et la position des échos à additionner pour obtenir un signal équivalent. Cette méthode est notamment développée pour les signaux audio qui ont des caractéristiques proches des signaux ultrasonores. L’avantage par rapport aux ondelettes réside dans le fait que les atomes peuvent être de formes très différentes.

— les auto-encodeurs présentent le problème de compression sous forme d’un réseau de neurones artificiels par propagation avant (cf. 2.2.2.2.4). Ce réseau possède une structure particulière. La couche d’entrée contient autant de neurones que la couche de sortie, par contre, les couches intermédiaires contiennent moins de neurones et forment un goulot d’étranglement. Le réseau est entraîné à répliquer les données mises en entrée sur les neurones de sortie. A cause de la quantité plus faible de neurones intermédiaires, le réseau est contraint de compresser l’informa-tion puis de la décompresser pour pouvoir la restituer en sortie. Des expériences concluantes ont été menées notamment sur des données sismiques [224] mais la phase d’apprentissage est coûteuse en temps de calcul.

— l’analyse en composantes principales par noyau présente une extension de l’ana-lyse en composantes principales. Les vecteurs de la base de compression Φi sont construits à partir d’une combinaison non-linéaire des signaux connus. Ces com-posantes principales capturent généralement mieux la variance des données à compresser mais l’aspect non linéaire complexifie leur extraction. L’algorithme fait appel à l’astuce du noyau (cf. glossaire) qui permet de calculer plus simple-ment la version compressée des données mais qui ne permet pas une décompres-sion facile. La difficulté à décompresser8rend cette technique incompatible avec le besoin de rapidité de la simulation opérationnelle.

8. Ce type d’approche calcule directement les coefficients du signal compressé sans jamais calculer explicitement les Φi. Leur calcul nécessaire à la décompression n’est pas immédiat [225] et Huhle [226] montre qu’il rend la méthode inadaptée à la compression des images. En fait, cette approche sert à l’analyse de données multi-dimensionnelles, i.e. visualiser, comprendre ou traiter la donnée en condensant l’information dans un minimum de coefficients. Dans ce cadre-là, la phase de décompression comporte moins d’intérêt, voire même aucun. Il en va de même pour les techniques similaires (isomap, metric multi-dimensional scaling, locally linear embedding ou encore semi-definite embedding [227]).

Pour terminer, il faut noter un dernier type d’approche qui reste basé directement sur les données mais qui n’exploite pas le formalisme de projection. Ces méthodes de compression ne retiennent du signal à compresser que certains échantillons temporels à partir desquels la décom-pression est capable de prédire le signal original. On parle parfois de comdécom-pression par prédiction. L’algorithme de prédiction peut prendre différentes formes notamment des chaînes de Markov ou des interpolateurs de type spline ou polynôme voire d’autres prédictions plus complexes. Dans un cas extrême, la compression des données d’une inspection de CND pourrait revenir à estimer les paramètres de l’inspection — taille et position du défaut, type de matériau, etc. — tandis que la décompression nécessiterait de simuler l’inspection à partir de ces paramètres... Ce cas limite illustre une difficulté de ces méthodes : la phase de décompression est longue puisqu’elle nécessite une prédiction. En équilibrant judicieusement la quantité d’informations à conserver, le temps de décompression peut être réduit. Dans le domaine du CND par ultrasons, une méthode de compres-sion très largement déployée s’apparente à cette famille d’approches. Il s’agit de la comprescompres-sion multi-pic : seuls les extrema du A-scan sont conservés. La décompression n’est quasiment jamais appliquée car les opérateurs s’intéressent principalement aux extrema et ils y ont un accès direct. La lenteur de décompression n’entre donc pas en considération ici, mais cette approche dégrade évidement considérablement le réalisme du A-scan. Dans le cadre de cette thèse, une autre mé-thode a été explorée : l’approximation de l’enveloppe des A-scans par une somme de gaussiennes. L’algorithme proposé est itératif. A partir de l’enveloppe, le maximum est détecté, une gaussienne est localement adaptée à la courbe (sa position en temps, son amplitude et son écart-type sont enregistrés), puis cette gaussienne est soustraite à l’enveloppe et la procédure est répétée sur ce résidu. Finalement, le signal est décrit par une somme de gaussiennes plus une fréquence centrale. Pour restituer la totalité du signal, une phase arbitraire est choisie puis le contenu fréquentiel est modulée par la somme des gaussiennes. Les résultats sont visuellement proches des A-scans comme le montre la Figure 4.3 en revanche, l’information de phase est perdue. Lors d’une inspection, plu-sieurs A-scans sont observés pour différentes positions du traducteur et, s’ils présentent tous un même contenu fréquentiel simplement modulé par une enveloppe différente, alors ils ne seront pas perçus comme réalistes. De plus, l’information de phase sert parfois aux opérateurs pour lever des doutes sur la nature du défaut. Cette approche de compression est donc à réserver pour la compression des enveloppes seules.

Pour motiver le choix de la méthode de compression la plus adaptée, une étude comparative est proposée. Il s’agit de tester l’efficacité de chaque compression dans le cas de signaux ultrasonores acquis sur des pièces en matériau composite comportant des TFP. Deux groupes de données sont considérés : le premier contient 729 A-scans correspondant à l’inspection d’une pièce d’épaisseur 21,8 mm contenant 2 TFP de diamètres différents, le second contient 729 autres A-scans corres-pondant à l’inspection d’une pièce d’épaisseur 14,5 mm contenant 2 TFP de diamètres différents. L’intérêt des deux groupes de données est de pouvoir évaluer la flexibilité des méthodes. En effet, certaines méthodes extraient une base de compression à partir de la connaissance préalable des données à compresser, mais que se passe-t-il si de nouvelles données un peu différentes doivent également être compressées ? Dans ce chapitre, les paramètres variables sont des paramètres géo-métriques qui induisent essentiellement des décalages en temps de vol des échos du A-scan. Les deux groupes de données permettent d’évaluer cet effet, avec des écho de défaut et de fond à des temps de vol différents. En Figure 4.4a, les données d’initialisation des méthodes de compression sont les mêmes que les données à compresser9; tandis qu’en Figure 4.4b, les données du premier groupe sont utilisées pour l’initialisation et les données du second groupe sont compressées10. Pour chaque méthode, l’écart quadratique moyen entre les signaux originaux et les signaux compressés/décom-pressés — aussi appelées signaux reconstruits — est reporté pour différents degrés de réduction des données. Le code des méthodes de compression est issus de modules Python tels que pywt pour les ondelettes [228], mptk pour la poursuite de correspondance [229], zlib pour la compression sans perte, tandis que les modules numpy et scipy [44][45] ont permis l’implémentation des calculs de polynômes orthogonaux, de la transformée de Fourier, de la SVD, de l’approche multi-pic et de la technique par somme de gaussiennes. Ces codes ont été en-capsulés sous la forme de programmes à l’interface unifiée, simplifiant leur utilisation et leur comparaison. Les résultats obtenus soulignent l’intérêt de l’approche par SVD (ou analyse en composantes principales). Elle permet d’extraire

9. En d’autres termes, l’ensemble d’apprentissage et de test contiennent des signaux acquis pour une même épaisseur de pièce.

10. En d’autres termes, l’ensemble d’apprentissage et de test contiennent des signaux acquis pour deux épaisseurs de pièce distinctes.

(a) A-scan original 0 5 10 Temps t [µs] ´1,0 ´0,5 0,0 0,5 1,0 Amplitude [u .a .] (b) A-scan reconstruit 0 5 10 Temps t [µs] ´1,0 ´0,5 0,0 0,5 1,0 Amplitude [u .a .]

0 5 10 Temps t [µs] 0,0 0,5 1,0 Amplitude [u .a .] Référence

Reconstruction ^{Fonctions de base}

Figure 4.3 – Compression de l’enveloppe d’un A-scan par superposition de gaussiennes

Cette approche de compression cherche à approximer l’enveloppe du signal par une somme de gaussiennes, puis à appliquer un contenu fréquentiel arbitraire pour obtenir un A-scan compressé. Ici, 35 gaussiennes sont utilisées — soit 105 composantes puisque chaque gaussienne est décrite par 3 composantes — pour décrire un A-scan de 2 199 échantillons temporels. En revanche, la perte de l’information de phase et l’aspect arbitraire de l’information de fréquence limite le réalisme du signal reconstruit : la compression d’une série de A-scans leur impose un contenu fréquentiel identique dégradant nettement l’impression de réalisme.

une base de compression très efficace et le nombre de composantes nécessaires pour décrire un A-scan est très faible. En réduisant de 2 199 échantillons temporels à 20 composantes principales, les pertes de détails sur le A-scan ne conduisent à aucune perte de réalisme comme le montre la superposition des signaux en Figure 4.5. Quantitativement, les caractéristiques utiles du signal telles que l’amplitude maximale de l’écho d’entrée ou de l’écho de fond sont également conservées avec une erreur relative moyenne de respectivement 0,07 % et 1,3 %. En revanche, la méthode SVD montre une mauvaise flexibilité : utilisée sur le second groupe de données, son efficacité s’effondre. La seconde méthode la plus adaptée est la poursuite de correspondance. Elle offre un taux de compression moins important que la méthode SVD, en revanche, ce taux est conservé même sur le second groupe de données.

En conclusion, lorsque les signaux ultrasonores considérés ne présentent pas de décalage en temps de vol de leurs échos, la méthode SVD est la plus efficace. Elle sera utilisée en conservant 20composantes principales qui assurent une erreur de reconstruction acceptable11. En revanche, lorsque les signaux présentent des échos à des temps de vol divers, il faudra envisager d’autres alternatives. La poursuite de correspondance montre notamment une meilleure flexibilité. Une discussion détaillée sur ce point est proposée en paragraphe 4.3.3.

11. Le caractère acceptable doit être estimé en fonction de l’application finale du simulateur opérationnel, la Figure 4.4 peut ainsi être utilisée pour choisir le taux de compression maximal permettant d’assurer une erreur compatible avec l’application visée. Pour l’application décrite en paragraphe 5.2.2.2.1, 20 composantes principales sont suffisantes pour atteindre une erreur de reconstruction proche du niveau de bruit constaté sur les signaux réels.

(a) Compression de signaux connus

0 10 20 30 40 50

Taille de la donnée compressée [% de la taille initiale] 0,0 0,2 0,4 0,6 0,8 1,0 Erreur de reconstruction [u .a .] Daubechies

Discrete Meyer (FIR Approximation) Polynôme de Chebyshev

Polynôme de Legendre Transformée de Fourier

Lempel-Ziv (sans perte) SVD

Multi-pics

Enveloppe gaussienne Poursuite de correspondance

(b) Compression de signaux inconnus

0 10 20 30 40 50

Taille de la donnée compressée [% de la taille initiale] 0,0 0,2 0,4 0,6 0,8 1,0 Erreur de reconstruction [u .a .] Daubechies

Discrete Meyer (FIR Approximation) Polynôme de Chebyshev

Polynôme de Legendre Transformée de Fourier

Lempel-Ziv (sans perte) SVD

Multi-pics

Enveloppe gaussienne Poursuite de correspondance

Figure 4.4 – Compression de A-scans par diverses méthodes

Les A-scans compressés sont issus de l’inspection de pièces composites d’épaisseurs différentes et contenant des TFP de diamètres différents. Certaines méthodes telles que la SVD requièrent une connaissance préa-lable des signaux à compresser d’où la distinction entre signaux connus — les signaux compressés sont les signaux utilisés dans la phase d’initialisation de la méthode de compression — et inconnus — les signaux compressés sont différents des signaux d’initialisation. Les signaux connus correspondent à l’inspection d’une pièce de 21,8 mm contenant deux TFP de diamètres différents tandis que les signaux inconnus cor-respondent à l’inspection d’une pièce de 14,5 mm contenant aussi deux TFP. Les erreurs sont calculées par différence quadratique moyenne sur le signal lui-même, sauf concernant la méthode un peu particulière basée sur les enveloppes gaussiennes, pour laquelle l’erreur est calculée sur les enveloppes (cette méthode n’est pas considérée comme une méthode permettant une compression correcte de la totalité du A-scan cf. 4.3). Enfin, il faut ajouter que la poursuite de correspondance est réalisée ici à partir d’un dictionnaire d’atomes de Gabor. Un atome de Gabor est une fonction sinusoïdale modulée par une gaussienne. Le dic-tionnaire comprend donc différentes fréquences et phases pour la sinusoïde ainsi que différents écart-types pour la gaussienne.

(a) Distribution des valeurs singulières pour diffé-rents A-scans

0 100 200 300 400 500 600 700

Index de la valeur singulière

10⁴ 10⁵ 10⁶ V aleurs singulières [u .a .]

(b) Reconstruction d’un A-scan avec 20 modes SVD

0 5 10 15 20 Temps t [µs] ´1,0 ´0,5 0,0 0,5 1,0 Amplitude [u .a .] Référence Reconstruction

Figure 4.5 – Compression par SVD de signaux A-scans

Tous les signaux utilisés ici possèdent des pics à des temps de vol similaires (cf. discussion 4.3.3). La réduction de 2 199 échantillons temporels à 20 composantes principales n’entraîne pas une perte de réalisme du signal. Sur les 729 A-scans, l’erreur quadratique moyenne est de 8 ˆ 10´3u.a.. L’erreur relative moyenne sur l’amplitude maximale de l’écho d’entrée est de 0,07 %, sur l’écho de fond de 1,3 % et l’erreur relative maximale constatée en moyenne sur les amplitudes au-dessus du niveau de bruit — estimé à 0,1 u.a. ici — est de 17,6 %. Le signal A-scan utile est donc peu perturbé par la compression.

Dans le document Simulation opérationnelle en contrôle non destructif (Page 125-131)