• Aucun résultat trouvé

Estimation des métriques de test par élargissement des performances

12  14  16  18  50000  60000  70000  80000  90000  100000  Temp s d e cal cu l CPU ( seco nd es)   Nombre de fautes  Graphe d'intervalles  Programme Linéaire 

Figure 3.3: Les temps de calcul CPU obtenus par les deux méthodes proposées.

L’application de l’algorithme de génération de vecteurs de test a permis de trouver un vecteur de test ayant 4 fréquences (qui sont 1KHz, 4KHz, 85KHz et 3MHz). Ce vecteur de test permet d’améliorer la couverture de fautes obtenue par le Gain de 74.38% à 96.88%. En considérant ce vecteur de test, la couverture de fautes obtenue en considérant toutes les performances de l’amplificateur est de 100%. Ce travail nécessite encore une modélisation en fonction du type d’intervalles de détection pris en considération. Ce qui fera l’un des objets de mes travaux futurs.

1.2 Estimation des métriques de test par élargissement des performances

Il a été spécifié dans le Chapitre 2 que la précision des techniques d’estimation des métriques de test existantes dépend fortement de la précision des paramètres statistiques estimés sur l’échantillon des circuits considéré. Surtout, si les spécifications du circuit sont très larges, ce qui résulte en une génération très petite, voire nulle, de circuits défaillants quand le nombre de simulations Monte Carlo est faible (par exemple dans notre cas, pour un nombre de 1000 simulations Monte Carlo qui n’est pas considéré comme petit, aucun circuit défaillant n’a été généré).

La précision de ces calculs est donc obtenue en calculant la variance de ces métriques de test pour plusieurs échantillons générés. Il est donc intéressant de recourir aux techniques de réduc-tion de la variance (telles que des techniques de l’échantillonnage d’importance1). Afin de réduire l’intervalle de tolérance de chaque métrique de test estimée pour se rapprocher le plus possible de sa valeur réelle, nous proposons d’élargir les distributions des performances et des mesures de test afin d’augmenter la probabilité de générer des circuits défaillants (voir Figure3.4). Ensuite, la formule permettant de calculer les vraies valeurs des métriques de test sera calculée à partir des valeurs obtenues à base des nouvelles distributions élargies.

s a1 Distribution originale Nouvelle distribution f S (s) Circuits fonctionnels Circuits défaillants b1 g S (s)

Figure 3.4: Exemple d’une performance élargie.

Pour exposer cette méthode d’une manière simple, nous supposons que nous avons une seule performance x avec une spécification A et que nous voulons calculer la probabilité pour que le circuit soit fonctionnel (le Rendement Y1). C’est-à-dire, la probabilité pour que les valeurs x de la performance soient dans A. Ceci se calcule en intégrant la densité de probabilité f(x) de cette performance dans le domaine A comme suit:

Y1= !

A

f (x) dx (3.1)

Supposons maintenant que l’estimation de Y1n’est pas possible pour un échantillon de circuits donné, car dans cet échantillon aucun circuit défaillant n’est généré. Alors, nous allons changer la densité de probabilité de x de f(x) à g(x) de telle sorte à pouvoir générer des circuits défaillants pour cet échantillon. Donc, le Rendement sur cette nouvelle densité se calcule comme suit:

Y2= !

A

g(x) dx (3.2)

Mais il est à noter que Y1̸= Y2, car, les deux Rendements se calculent pour des densités (ou lois de probabilité) différentes. Notre objectif est donc de chercher s’il existe une transformation φ telle que:

Y1= φ(Y2) (3.3)

Dans l’Annexe B de [8] une analyse permettant de trouver cette transformation a été présentée pour le cas général (en considérant toutes les performances et toutes les mesures de test). Cette transformation est basée sur la relation entre les deux densités de probabilité, l’initiale et l’élargie, de la manière suivante :

fST(s, t) = fS(s)

gS(s)× gST(s, t) (3.4) où, s = (s1, s2, · · · , sn) est le vecteur des performances, t = (t1, t2, · · · , tm) est le vecteur des mesures de test, fST(s, t) est la densité de probabilité conjointe initiale des performances et des mesures de test, gST(s, t) est la densité de probabilité conjointe élargie des performances et des mesures de test, fS(s) est la densité de probabilité conjointe initiale des performances et gS(s) est la densité de probabilité conjointe élargie des performances.

A partir de cette relation, les métriques de test peuvent être calculées et prédites pour le cas de la loi originale des performances et des mesures de test comme suit :

Y = 1 N Ng # i=1 ψSi (3.5)

YT = 1 N Np # i=1 ψSi (3.6) YL= 1 − %Nu i=1ψSi %Ng i=1ψSi (3.7) D = 1 − %Nu i=1ψSi %Np i=1ψSi (3.8) où, ψSi=fS(s i) gS(si) = fS(si 1, si 2, · · · , si n) gS(si 1, si 2, · · · , si n) (3.9)

et, N est le nombre de circuits générés, Ng le nombre de circuits fonctionnels, Np le nombre de circuits qui passent le test et Nule nombre de circuits fonctionnels et qui passent le test.

Nous avons choisi de prendre comme nouvelle loi, une autre Gaussienne avec un écart-type plus grand que celui d’origine. Le nouveau écart-type est augmenté d’un facteur de 1.5. Ensuite, pour une génération d’échantillons de tailles différentes, nous avons calculé les valeurs des métriques de test sans élargissement et par cette méthode en utilisant les équations (3.5), (3.6), (3.7) et (3.8). La courbe à points de la Figure3.5montre pour des échantillons de circuits de tailles différentes, les valeurs du Taux de défauts obtenues par les deux méthodes ainsi que leurs intervalles de confiance. Il est clair qu’il y a moins de variations dans le cas de la méthode proposée.

Figure 3.5: Le Taux de défauts moyen et ses intervalles de confiance calculés pour des échantillons de tailles différentes et par les deux méthodes : sans élargissement et avec élargissement.

2 Techniques d’échantillonnage statistique pour la fouille de

données numériques

De nos jours nous collectons de plus en plus de grandes masses de données et nous récoltons plus que nous pouvons en traiter ; ainsi, les capacités de stockage sont en progression quasi exponentielle.

numériques 103

Les données accumulées sont souvent brutes et loin d’être de bonnes qualités ; elles contiennent des valeurs manquantes, du bruit, et surtout des informations redondantes. La présence des valeurs manquantes et la redondance de l’information au niveau des dimensions sont des inconvénients bien souvent insurmontables pour la plupart des algorithmes de Data Mining. Intuitivement, l’information pertinente est noyée dans de nombreux attributs et d’entrées et son extraction n’est possible que si les données originales sont nettoyées et pré-traitées.

Pour remédier à ces problèmes et pour faire face aux données de très grandes tailles, que ce soit en dimension ou bien en taille, nous avons proposé dans [40] une nouvelle approche basée sur les techniques d’échantillonnage afin d’estimer les valeurs manquantes dans les bases de données. En effet, les objectifs principaux de la méthode proposée sont les suivants : (a) estimer les valeurs manquantes par une méthode efficace et précise, (b) améliorer la qualité et l’efficacité du processus d’extraction de données qui sera prêt pour l’utilisation par les algorithmes de Data Mining. Dans la première phase de la méthode proposée, nous allons modéliser le problème des données hétérogènes en utilisant la théorie des copules, en d’autres termes estimer la distribution de probabilité conjointe multi-variée sans imposer de contraintes sur les distributions marginales des données. En outre, dans la seconde phase nous allons estimer et substituer chaque donnée manquante dans les données brutes.