• Aucun résultat trouvé

IFT3913 Qualité du logiciel et métriques TP3 Analyse de données présenté à M. Sahraoui Houari par Nicola Grenon GREN30077303 (grenonni) le lundi 23 avril 2007

N/A
N/A
Protected

Academic year: 2022

Partager "IFT3913 Qualité du logiciel et métriques TP3 Analyse de données présenté à M. Sahraoui Houari par Nicola Grenon GREN30077303 (grenonni) le lundi 23 avril 2007"

Copied!
1
0
0

Texte intégral

(1)

IFT3913

Qualité du logiciel et métriques

TP3

Analyse de données

présenté à M. Sahraoui Houari

par

Nicola Grenon

GREN30077303 (grenonni)

le lundi 23 avril 2007

(2)

Pour valider les données fournies, nous allons effectuer le test de la boîte pour chaque série de données recueillies selon un métrique. Notre feuille Excel nous présente ici les valeurs obtenues sur les données triées par colonnes (indépendamment l'une de l'autre). La «boîte» se trouve à être représentée par la section vert clair des données triées. Les données à l'intérieur des bornes minimales et maximales sont en jaune clair. (Notons que toutes les limites inférieures à zéro ont été rajustées à zéro puisque ces données représentent toutes des comptes d'éléments.) Finalement, les données en rouges sont celles à l'extérieur de ces limites.

En regardant à quels schémas appartiennent les trois points extrêmes que nous avons détectés, nous aurions donc intérêt à éliminer S02, S09 et S12.

(3)

Question 2: Évaluation d'une hypothèse (1)

Comme une hypothèse à analyser nous est déjà fournie et que les données disponibles sont restreintes à un ensemble lui aussi déjà fourni, nous allons effectuer en quelque sorte une quasi-expérience telle que définie par notre limitation d'accès à des données desquelles nous pourrions mieux encadrer le processus de collecte.

L'hypothèse posée pour nous et que nous allons évaluer se formule ainsi: «Le fait qu'un schéma ait deux fact table plutôt qu'une seule a un impact sur son effort de maintenance tel que défini par le temps requis à effectuer celle-ci.»

Les variables qui nous intéressent ici sont claires, à savoir le nombre de fact table des schémas étudiés (NFT) comme variable indépendante et le calcul du temps (Temps) comme variable possiblement dépendante.

Je prends ici un moment pour faire la remarque suivante: Comme nous l'avons vu en cours, quand la quantité des données est restreinte et le nombre des variables aussi, il est intéressant de voir ce que notre instinct nous dit au regard des données sous une forme visuelle forte. C'est ce que je démontre avec la figure suivante, qui indique déjà, à première vue, une corrélation apparente qui aurait pu nous amener à poser l'hypothèse de cette étude (particulièrement la distribution du jaune clair et du oranger quand les temps sont triés de manière croissante):

Notre expérience se résumera ici à passer nos données sous la loupe d'un test de Student en comparant les temps et en groupant par NFT. S-Plus nous dit que l'hypothèse nulle, à savoir qu'il n'y aurait pas de lien encore le nombre de NFT et le temps de maintenance est probable à tout juste 2% (0.0203), ce qui nous permet de

(4)

maintenance. (Notons qu'une analyse de corrélation nous donne 0.5910841, démontrant encore là un lien très clair).

Ce résultat nous indique que l'on doit s'attendre à ce que le nombre de fact table, quand il passe de 1 à 2, ait un impact à la hausse sur le temps de maintenance qui sera requis sur le schéma d'entrepôt de données.

Notons finalement que si nous avions à mener une étude réelle quant à cette même hypothèse, je crois que nous aurions avantage à fonctionner au moyen du type sondage, à savoir prendre le plus de données que possible en vrac, mais je crois qu'alors il serait important de mener cette étude en faisant bien attention de ne pas créer d'interférence en changeant le milieu de l'étude. C'est-à-dire que le sondage (la collecte des données) devrait idéalement être fait dans une même entreprise ou plus précisément en compilant les données des schémas qui seront maintenus par la même équipe, dans les mêmes conditions, etc.

[Note: je n'étais pas sûr si la question portait sur la simulation d'une expérience avec les données que nous avions ou sur la formulation d'une étude hypothétique future, voilà pourquoi j'ai mis un peu des deux dans ma réponse à cette question.]

Question 3: Corrélations

Voici un diagramme présentant les corrélations des divers métriques par rapport au temps, tels que calculés par S-Plus:

On voit donc que NFT et NDT ont une corrélation de près de 0,6, ce qui est moyennement fort, alors que nettement NFK a une corrélation presque directe à 0,83 ce qui en fait un facteur très influent.

Finalement, il y a NMFT qui n'a pas d'impact réel sur la valeur du temps de maintenance.

NFT NDT NMFT NFK Temps 0,59 0,59 0,21 0,83

Temps

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

NFT NDT NMFT NFK

(5)

Question 4: Évaluation d'une hypothèse (2)

Encore ici, dans le cas d'une vraie étude, les critères déjà mentionnés au numéro 2 s'appliquerait, mais dans le cas présent, avec les données disponibles, nous pouvons déjà tirer quelques conclusions sommaires.

Formellement, il s'agit ici encore d'une quasi-expérience dont l'hypothèse se formule ainsi: «L'effort de maintenance en terme de temps est-il une fonction linéaire de métriques NFT, NDT, NMFT et NFK.» Les variables indépendantes sont (de par l'hypothèse imposée) NFT, NDT, NMFT et NFK et la variable dépendante le temps.

Remarquons ici qu'il est probablement très fallacieux de déclarer que NFT, NDT, NMFT et NFK sont réellement indépendantes... les précédents TP ont eu le mérite de nous montrer le format des entrepôts de données, et croire que, par exemple, le nombre de clé n'est pas dépendant du nombre de fact table ou de dimentional table est, somme toute, abusif. À ce sujet, d'ailleurs, S-Plus nous permet de voir très facilement au moyen d'une analyse des corrélations des ces dites variables, qu'elles ont des liens très proches dans beaucoup de cas. Par exemple, NDT et NFK à 0,86; NFT et NFK à 0,73; ce qui reste sans compter plusieurs autres valeurs entre 0,5 et 0,6.

En ce qui a trait à notre étude actuelle, une régression linéaire en fonction desdits 4 métriques nous donne ceci:

*** Linear Model ***

Call: lm(formula = Temps ~ NFT + NDT + NMFT + NFK, data

= tp3, subset = 1:15, na.action = na.exclude) Residuals:

Min 1Q Median 3Q Max -103 -16.99 5.575 23.78 130.3 Coefficients:

Value Std. Error t value Pr(>|t|) (Intercept) 284.8645 72.2054 3.9452 0.0028 NFT -84.9931 67.1222 -1.2662 0.2341 NDT -41.3188 20.7563 -1.9907 0.0745 NMFT 7.3316 8.4555 0.8671 0.4062 NFK 63.6361 17.3392 3.6701 0.0043 Residual standard error: 63.57 on 10 degrees of freedom

Multiple R-Squared: 0.7803

F-statistic: 8.878 on 4 and 10 degrees of freedom, the p-value is 0.00251

On a ici les valeurs (Value et Std. Error) nous permettant de dessiner les droites de correspondance entre le temps et les variables indépendantes. On remarque aussi

fits

sqrt(abs(Residuals))

250 300 350 400 450 500 550

246810

10 11 15

(6)

hypothèse est infime.

Pour pousser un peu plus loin l'analyse, nous nous sommes demandé quelle serait la conséquence du retrait du métrique ayant une très mauvaise corrélation avec le temps de cette tentative de linéarisation. Il appert que la différence obtenue est remarquable. La p-value diminue encore jusqu'à 0,0009028, un résultat près de trois fois moindre, s'expliquant par beaucoup moins d'erreurs accumulées dans notre approximation.

Pour conclure, je dirai qu'après en avoir fait le test, le fait ici d'exclure les données extrêmes rend le résultat (un tout petit peu) moins précis. Je soumettrai que c'est là une conséquence du très petit nombre de données analysées.

Références

Documents relatifs

Les paires de parenthèses n'ont pas besoin d'être une classe, mais un simple attribut de l'expression. On pourrait utiliser un booléen pour indiquer lorsqu'on veut

– Crosby : La qualité du logiciel correspond au degré selon lequel un client perçoit qu’un logiciel réponde aux multiples attentes. Qualité

Les notions de qualité et de mesure sont liées au processus de

Il n'est pas clair ici si en allant dans cette section si on quittera le site vers une page publicisée externe ou si on restera dans une sous-section du site

Il faut éviter tout ce qui peut rendre désagréable son utilisation pour un utilisateur qui n'est pas rémunéré, ne pas présumer d'aucune habileté en ce qui a trait au commerce

- Pour les boutons des catégories et des items, comme ils sont nombreux, nous avons à tout le moins utilisé un arrangement aligné, mais surtout avec de gros boutons facile à

- L'usager peut entrer autant de messages qu'il veut pour les responsables et ce, en tout temps (même au milieu d'une facture!). Ce qui est aussi vrai pour l'arrêt de

Il faut toutefois noter que pour la souris et le touchscreen, il faudrait prévoir soit un clavier numérique, soit ajouter à l'interface un petit clavier tel que celui-ci en haut ou