du 13 octobre 1945 modifiée relative aux spectacles

Depois de realizada a análise de cluster, foram suprimidas algumas variáveis e as que restaram foram utilizadas nesta etapa da técnica de regressão logística para verificar quais são as variáveis consideradas significativas para explicar a probabilidade da realização de compras planejadas ou não-planejadas pelos estudantes universitários. Desta forma, assumir- se-á que a variável dependente tem caráter dicotômico, ou seja, pode ser representada da seguinte forma:

Y=0→ representa compras realizadas de forma não-planejada e, Y=1→ representa compras realizadas de forma planejada.

As variáveis independentes nesta técnica podem ser visualizadas no Quadro 1.

estrutura familiar e auto-estima socialismo materialismo comportamento compulsivo de compra

Quadro 1 – Variáveis independentes na técnica de regressão logística Aspectos influenciadores das

compras

Variáveis Significado

Idade v4 Faixa etária do respondente

Status sócio-econômico v5 Rendimento mensal da família

Estrutura familiar v10 Uma piora na situação financeira dos pais v11 Brigas freqüentes entre os pais

v13 Afeto recebido do pai v16 Afeto recebido da mãe

Auto-estima v20 Eu sinto que possuo um conjunto de boas qualidades v22 Eu tenho uma atitude positiva comigo mesmo

Socialização v24 Quando compro alguma coisa, a opinião de meus amigos é muito importante para mim

v25 Eu costumo mostrar as coisas que eu compro para os meus amigos

v26 Quando eu compro alguma coisa, eu imagino o que as outras pessoas irão pensar de mim

Materialismo v27 Eu admiro pessoas que possuem carros caros, casas caras e roupas caras

v28 Eu gosto de muito luxo na minha vida

v29 Eu seria mais feliz se eu pudesse comprar mais coisas Comportamento compulsivo de

compra

v30 Quando tenho dinheiro, não consigo evitar e gasto uma parte ou tudo

v31 Eu costumo comprar uma coisa que vejo numa vitrine sem pensar muito sobre a compra

V32 Comprar é uma forma de relaxar e esquecer meus problemas v35 Já me senti culpado após comprar uma coisa sem pensar V38 Sempre que visito um shopping, eu costumo comprar alguma

coisa

v39 Já comprei coisas que não preciso mesmo sabendo que estava sem dinheiro

Salienta-se que, apesar da variável dependente poder assumir, nesse estudo, apenas dois valores possíveis (0 = não-planejada e 1 = planejada), as variáveis independentes, por outro lado, poderão ter caráter dicotômico ou não.

Primeiramente, procedeu-se à regressão logística para a amostra como um todo, ou seja, considerando os seiscentos estudantes abordados em sala de aula para preencher os questionários. Num segundo momento, foram realizados os mesmos procedimentos que a técnica exige, mas subdividindo a amostra em duas partes, uma para o gênero feminino e

outra para o gênero masculino, com o intuito de verificar possíveis diferenças nos resultados encontrados.

O objetivo da aplicação dessa técnica é identificar uma possível relação entre as variáveis explicativas e o ato de planejamento ou não das compras realizadas pelos universitários, de forma que o conjunto de variáveis que interferem no comportamento do consumidor revisados na literatura possa ser utilizado para estimar a probabilidade de futuros eventos ocorrerem.

O método utilizado para seleção das variáveis foi o forward stepwise, pelo critério do menor Likelihood Ratio. O método stepwise é baseado em um algoritmo estatístico que avalia a importância de cada variável independente e as inclui ou exclui do modelo segundo uma determinada regra. A importância de cada variável é definida em termos de uma medida de significância estatística do seu coeficiente. Os parâmetros utilizados foram 5% de significância para o coeficiente das variáveis.

A Figura 7 mostra os resultados para a regressão logística ao considerar a amostra total de universitários. _cons 111.1..6.66262922994944466661111 ..5..55544484878877979959545544 4 22.22...999977 77 000.0..0.00000003333 ....555555553338388484414119199 9 2222..7..7770000555050008888 v39 --.--..1.11212122110100000800888 ..0..0500553533388988994944545 55 ----22.22...222255 55 000.0..0.02002225555 ----....222222226666666363393993933 3 ----....0010011155553373377676667777 v31 ----...2.227278778838334348448882222 ..0..0007770700000200221211111 11 ----33.33...999988 88 000.0..0.00000000000 ----....44144115155555855887877 7 ----....1141144411111101100909995555 v30 --.--..1.119191991151556568668887777 ..0..0500558588811311337377474 44 ----33.33...333300 00 000.0.0..00000001111 ----....33033000555555155115155959 99 ----....0070077777776626622121115555 v29 ..1..110100202922991911166366333 ..0..00055515111222222262656655 5 22.22...000011 11 000.0..0.004044455 55 ..0..0000000222525155114144242 22 ....2202200033333313311818884444 v22 ..1..116166161811889899999799777 ..0..00077777777444343343484488 8 22.22...000099 99 000.0..0.003033377 77 ..0..0001111000101311330300404 44 ....3313311133336666666969991111 v5 --.--.1..119199999949447478778882222 ....000066766777333333933996966 6 ----2222..9..9996666 00.00..0.00000003333 ----....33333333111414644661611313 33 ----..0..00066667747744949995555 y Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = ---3-3333323322.2...88288222111166 66 Pseudo R2 = 00.00...1111333939991111 Prob > chi2 = 00.00...0000000000000000 LR chi2(6666) = 111010007777..5..5551111 Logistic regression Number of obs = 660660000000

Figura 7 – Resultados da regressão logística

Verifica-se através da Figura 7 que seis variáveis independentes são significativas. A equação do modelo de regressão logística que pode ser extraída dessa Figura é a seguinte:

pi p i i X X X Y P Y P ₌

_β

₊

_β

₊

_β

₊ ₊

_β

      = = ... ) 0 ( ) 1 ( ln 0 1 2

Substituindo os valores encontrados na Figura 7, na equação, têm-se:

39 1210 , 0 31 2783 , 0 30 1916 , 0 29 1029 , 0 22 1619 , 0 5 1995 , 0 6295 , 1 ) 0 ( ) 1 ( ln V V V V V V Y P Y P − − − + + − =       = =

Esse modelo mede o efeito de cada uma das variáveis independentes sobre o ln da razão de chance (odds ratio), devido à variação de uma unidade na variável independente. As variáveis significativas são: rendimento mensal da família (v5), eu tenho uma atitude positiva

comigo mesmo (v22), eu seria mais feliz se eu pudesse comprar mais coisas (v29), quando tenho dinheiro, não consigo evitar e gasto uma parte ou tudo (v30), eu costumo comprar uma coisa que vejo numa vitrine sem pensar muito sobre a compra (v31) e já comprei coisas que não preciso mesmo sabendo que estava sem dinheiro (v39).

A Figura 8 representa uma forma simplificada de interpretar o modelo de regressão logística pela transformação do ln em uma função exponencial. Com isso, a interpretação da equação se dá de forma direta, ou seja, quando:

• razão de chance (odds ratio) > 1, implica no aumento da probabilidade de ocorrer o evento (1), compras planejadas;

• razão de chance (odds ratio) <1, implica na redução da probabilidade de ocorrer o evento (1), compras planejadas.

A equação simplificada é a seguinte:

pi p i i X X X

e

planejadas

comprasnão

P

nejadas

compraspla

P

correr

eventonãoo

P

ocorrer

evento

P

Y

P

Y

P

β +β +β + +β

=

0 1 2 ...

)

(

)

(

)

(

)

(

)

0 (

)

1 (

v39 ..8..888888686066002022266966999 ..0..004044477777775755252 22 ----22.22...222255 55 000.0..0.002022255 55 ..7..7779999777272022008088383 33 ....9989988844447747744040009999 v31 ...7.775755757077003033333332222 ..0..0500553533300000008088383 33 ----33.33...999988 88 000.0..0.000000000 00 ..6..6665555999999599552522828 88 ....8868866688883393399494442222 v30 ...8.882822525655666666622229999 ..0..0400448488800000001011919 99 ----33.33...333300 00 000.0..0.000000011 11 ..7..7773333666767477443433232 22 ....9929922255553313311414446666 v29 11.11..1.11010800883833399999999 ..0..00055565666777777797949944 4 22.22...000011 11 000.0..0.004044455 55 11.11...0000000202522551511717 77 1111..2..22222225545544646663333 v22 11.11..1.11717577557577744244222 ..0..00099919111000404434333333 3 22.22...000099 99 000.0..0.003033377 77 11.11...0000111010100118188282 22 1111..3..33366668848844343337777 v5 ...8.881811919919115158558881111 ....000055555555111616166118188 8 ----2222..9..9996666 00.00..0.00000003333 ....777711171778788787377393399 9 ....9999334334447777333232224444 y Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = ---3-3333323322.2...88288222111166 66 Pseudo R2 = 00.00...1111333939991111 Prob > chi2 = 00.00...0000000000000000 LR chi2(6666) = 111010007777..5..5551111 Logistic regression Number of obs = 660660000000

Figura 8 – Resultados dos odds ratio

Pela análise da Figura 8, as variáveis v22 e v29 aumentam a probabilidade dos estudantes realizarem suas compras de forma planejada. Em outras palavras, quanto maior o valor atribuído às afirmações eu tenho uma atitude positiva comigo mesmo (v22) e eu seria

mais feliz se eu pudesse comprar mais coisas (v29) maiores à propensão da realização de

compras planejadas pelos jovens universitários. Ao contrário, as variáveis v5, v30, v31 e v39 reduzem a probabilidade do evento ocorrer. Assim, quanto maior o valor dado a essas

variáveis menor será a chance das compras serem feitas de forma planejada, ou seja, tenderão a ser não-planejadas. Percebe-se que essa última equação continua medindo o efeito da variação de uma unidade na variável independente sobre a razão de chance, mas agora de forma direta pela transformação que fora realizada.

Na Figura 9 é indicado um teste de especificação do modelo, o Link test. Pode ocorrer erro de especificação quando uma ou mais variáveis relevantes são omitidas ou quando variáveis irrelevantes são incluídas no modelo.

_cons ..0..006066161011009099944344333 ..1..113133311161660600707 77 0000..4..4446666 00.00..6.64664442222 ----....11911999666868588550500606 66 ....3313311199990030033939992222 _hatsq ---.-.0..009099595255222000033 33 ....110110000000994994454555555 5 ----0000..9..9994444 000.0..3.34334446666 ----....22922999333030500552522525 55 ....1101100022226646644646666666 _hat 111.1..0.00707777779792992225555 ....111133393999999494044004044 4 7777....77770000 000.0..0.00000000000 ..8..88800003336366464644664644 4 1111....335335552222222020003333 y Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = --3--333333232.22..3.33366766777777711 11 Pseudo R2 = 000.0...1111440440002222 Prob > chi2 = 00.00...0000000000000000 LR chi2(2222) = 111010008888..4..4442222 Logistic regression Number of obs = 660660000000

Figura 9 – Link test

O Link test é baseado na idéia de que se o modelo de regressão está especificado corretamente o acréscimo de uma variável independente não será estatisticamente

significativa. Desta forma, o coeficiente de hatsq ( )

2 ^

Y não pode ser significativo, o que de fato ocorreu com o respectivo teste. A operacionalização do Link test é dada pela equação:

2 ^ 2 ^ 1Y B Y B cons Y = + +

Substituindo na equação os valores encontrados na Figura 9, têm-se:

2 ^ ^ 0952 , 0 0779 , 1 0611 , 0 Y Y Y = + −

A Figura 10 mostra o teste de Hosmer-Lemeshow que tem a finalidade de avaliar a validade preditiva do modelo de regressão logística. Considerando-se Y como o valor

observado da variável e

∧

Y como o valor previsto, o teste é feito com o intuito de medir a proximidade de ambos. A hipótese nula (hipótese de teste) é que não existe diferença significativa entre o valor observado e o valor previsto, ou seja, equivale a dizer que o modelo tem bom poder preditivo.

Prob > chi2 = 0000....2292299933339999 Hosmer-Lemeshow chi2(8888) = 9999....66606000 number of groups = 11110000 number of observations = 666600000000

(Table collapsed on quantiles of estimated probabilities) L

Looogogggiiiissssttittiiicccc mmmmoodoodddeeeelll l ffffooroorrr yyy,y,,, ggoggooooodoodddnnneneseessssss-s---ooooff-ff---fffifiiitttt tttteeeesssstttt

Figura 10 – Teste de Hosmer-Lemeshow

Quanto menor é o valor da diferença entre Y e

∧

Y , mais os valores previstos se

aproximam dos observados e, portanto, melhor desempenho preditivo tem o modelo. Desta forma, um fator positivo a favor do modelo é quando não se rejeita a seguinte hipótese nula:

∧

H :₀ . Ao se visualizar a Figura 10, verifica-se um p−valor >5%, ou seja, não se rejeita a hipótese nula o que quer dizer que o modelo de regressão logística apresenta um bom poder preditivo.

Na Figura 11 temos representada uma tabela de classificação (compras planejadas e compras não-planejadas). Nesta Figura, a sensitividade (sensitivity) representa o percentual de acertos dos casos de ocorrência do evento de interesse. Assim, constata-se que 89,06% (350/393) é o percentual de acerto na classificação de compras planejadas. Por outro lado, a especificidade (specificity) indica o percentual de acertos dos casos em que não ocorre o evento de interesse (compras não-planejadas). Neste caso, 40,58% (84/207) é o percentual de acerto na classificação das compras realizadas de forma não-planejada. Além disso, temos a classificação correta (correctly classified) que neste estudo apontou 72,33% (350+84/393+207). Na realidade, essa última classificação é geral ao se considerar tanto as compras planejadas como as não-planejadas.

Na curva ROC (Receiver Operating Characteristic), Figura 12, a proporção de estudantes que compram de forma planejada (1) corretamente classificados nessa categoria é plotada no eixo vertical (y). Isto é chamado de Sensitividade ou verdadeira fração positiva. No eixo horizontal (x) é plotada a proporção de estudantes que realizam compras de forma não-planejada (0) classificados erroneamente como sendo realizadores de compras planejadas. Isto é chamado de falsa fração positiva ou 1-Especificidade.

Correctly classified 77727222..3..333333%3%%% False - rate for classified - Pr( D| -) 33333333..8..888666%6%%% False + rate for classified + Pr(~D| +) 22262666..0..000000%0%%% False - rate for true D Pr( -| D) 11101000..9..999444%4%%% False + rate for true ~D Pr( +|~D) 55595999..4..444222%2%%% Negative predictive value Pr(~D| -) 66666666..1..111444%4%%% Positive predictive value Pr( D| +) 77747444..0..000000%0%%% Specificity Pr( -|~D) 44404000..5..555888%8%%% Sensitivity Pr( +| D) 88898999..0..000666%6%%% True D defined as y != 0 Classified + if predicted Pr(D) >= .5 Total 333399399333 222020007777 666600000000 - 444343 33 88884444 111122272777 + 333355055000 111212223333 444477737333 Classified D ~D Total True

Figura 11 – Tabela de classificação

Conforme Fávero et al (2009, p.446), uma referência usual em relação à área da curva ROC é apresentada no Quadro 2, a seguir:

Quadro 2 – Área abaixo da curva ROC

Área abaixo da curva ROC Interpretação

Menor ou igual a 0,5 Não há discriminação Entre 0,7 e 0,8 Discriminação aceitável Maior que 0,8 Discriminação excelente

Quanto maior a área abaixo da curva ROC, maior é a capacidade de o modelo discriminar o evento de interesse (compras planejadas) do outro evento (compras não- planejadas). Por outro lado, quanto mais próxima a curva ROC estiver da reta diagonal, pior é o poder discriminatório do modelo.

Ao visualizar a Figura 12, percebe-se que a área abaixo da curva representa 0,7383 indicando uma discriminação aceitável do modelo.

69 0 .0 0 0 .2 5 0 .5 0 0 .7 5 1 .0 0 S e n s it iv it y 0.00 0.25 0.50 0.75 1.00 1 - Specificity

Area under ROC curve = 0.7383

Figura 12 – Curva ROC

A Figura 13 apresenta os resultados encontrados para uma subamostra selecionada aleatoriamente de 300 observações com o intuito de analisar a validação do modelo de regressão logística. _cons 11.11...77775575577777747494499 9 ..7..77777772222999955557757755 5 2222....222277 77 0000..0..000222323 33 ....22422444222277877888000707 77 333.3.2..22277772272277711118888 v39 ----....111133833888111111311332322 2 ..0..0007777993993373777666633 33 ---1-1.11...777744 44 0000..0..0008882822 2 ----....22922999333366866888777878 88 ...0.010011177774464466611114444 v31 --.--...33331131133131151525522 2 ..1..1011000000022022000222277 77 ---3-3.33...111133 33 0000..0..0000002022 2 ----....5505500099995545545445565666 ---.-..1.111111616667777558558883333 v30 ----....000077977999000066666661611 1 ..0..0009999001001171777333399 99 ---0-0.00...888888 88 0000..3..3338881811 1 ----....22522555555588088000333636 66 ...0.090099977776676677711115555 v29 ..0..00044449929922121121282288 8 ..0..00077777777333377770070077 7 0000....666644 44 0000....55255225255 5 ----....11011000222244344333000909 99 ...2.202200000008858855566665555 v22 ..1..11144442292299393363616611 1 ..1..11111110000777788886656655 5 1111....222299 99 0000....11911997977 7 ----....00700777444422022000111414 44 ...3.363366600000070077733336666 v5 ----....22222262266633383858855 5 ..0..00099997727726226668888666 6 --2--222....33333333 00.00.0..0002220200 0 --.--...4444111177770000227227797999 ---.-..0.030033355557747744422221111 y Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = --1--111666666.66...444141311363366767 77 Pseudo R2 = 000.0...1111331331116666 Prob > chi2 = 00.00...0000000000000000 LR chi2(6666) = 55550000..4..4445555 Logistic regression Number of obs = 330330000000

Figura 13 - Validação por uma subamostra aleatória

Ao comparar os valores dessa última Figura com os valores da Figura 5 constata-se que não houve uma dispersão muito grande nos resultados encontrados para ambas. Há certa proximidade nos valores encontrados para os coeficientes da regressão logística e o sinal se manteve para todas as variáveis independentes. A maior diferença encontrada é que na Figura 5 todas as variáveis apresentam coeficientes significativos ao passo que na Figura 13 isso não é verificado em todos os casos. Mas, esse fato pode estar atrelado ao tamanho de amostra que,

quanto menor, maior será o erro padrão, o que contribui para dificultar a significância dos coeficientes da regressão. De um modo geral, pode-se deduzir que o modelo é válido.

4.3.1 Comparação da regressão logística aplicada ao gênero masculino e feminino

Neste item a amostra foi repartida em duas partes: gênero masculino e gênero feminino. Isto foi feito, pois sempre houve uma preocupação por parte dos estudiosos do campo do comportamento do consumidor compreender as diferenças existentes entre homens e mulheres frente a uma situação de consumo. Muitas pesquisas nessa área assim como em outras similares apontam para uma diferenciação de comportamento e percepção ao ser levado em consideração o gênero. Dessa forma, pretende-se verificar se realmente há uma distinção de conduta na decisão pelo planejamento ou não no momento de efetuar compras quando levamos em consideração o gênero. As Figuras 12 e 13 mostram os resultados encontrados da regressão logística para o gênero masculino e feminino, respectivamente.

_cons 33.33..0.00000500554544422422444 ..5..553533311151557577575 55 55.55...66665555 000.0..0.00000000000 1111....99699663633535555565566 6 4444....004004447777222929992222 v30 --.--..3.334340440070777770770008888 ..0..0800883833300500550500404 44 ----44.44...111100 00 000.0.0..00000000000 ----....55055000333535455446466666 66 ----....1171177777779999999595551111 v5 --.--..3.331311414434337373773339999 ....111111611665655353343424422 2 ----2222..7..7770000 000.0..0.00000007777 --.--...555544244227277777677667677 7 ---.-...0000885885559999777171111111 y Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = --1--111111414.44..9.99911611666333366 66 Pseudo R2 = 000.0...1111002002223333 Prob > chi2 = 00.00...0000000000000000 LR chi2(2222) = 22226666..2..2220000 Logistic regression Number of obs = 220220007777

Figura 14 – Resultados da regressão logística – gênero masculino

Verifica-se que dos 600 estudantes que fizeram parte do estudo, 207 são pertencentes ao gênero masculino e 393 ao gênero feminino. Analisando as Figuras percebe-se que duas variáveis independentes são significativas para o gênero masculino v5 (rendimento mensal da

família) e v30 (quando tenho dinheiro, não consigo evitar e gasto uma parte ou tudo). Já para

o gênero feminino seis variáveis independentes mostraram-se significativas a v4 (faixa etária

do respondente), v22 (eu tenho uma atitude positiva comigo mesmo), v28 (eu gosto de muito luxo na minha vida), v29 (eu seria mais feliz se eu pudesse comprar mais coisas), v31 (eu costumo comprar uma coisa que vejo numa vitrine sem pensar muito sobre a compra) e v39 (já comprei coisas que não preciso mesmo sabendo que estava sem dinheiro).

71 _cons ...2.22222282898894994443383388 8 ....66966994944466616110100101 11 00.00...33333333 000.0..7.74774442222 ----1111..1..111333232422446466767 77 1111..5..55599990030033535555555 v39 --.--..2.220207007797992929229999999 ..0..0600665655566266224244444 44 ----33.33...111177 77 000.0.0..00000002222 ----....33333333666565555551511313 33 ----....0070077799993303300808884444 v31 --.--..3.335350550010114140440002222 ..0..0700777777711911998988585 55 ----44.44...555544 44 000.0.0..00000000000 ----....55055000111414444446466565 55 ----....1191199988888838833333339999 v29 ...1.115155252222229299900008888 ..0..00077717101100606696989988 8 22.22...111144 44 000.0..0.03003332222 ....001001112229299999969666666 6 ....229229991111555858885555 v28 --.--..1.117172772282885850550004444 ..0..0700773733388188114144444 44 ----22.22...333344 44 000.0.0..00101119999 ----....33133111777575255224244141 11 ----....0020022288881171177676668888 v22 ..2..221211414344338388855155111 ..0..00099979777555656616161166 6 22.22...222200 00 000.0..0.002022288 88 ..0..0002222333131611667677979 99 ....4404400055556606600202222222 v4 ...2.225255151161668684884441111 ....111111211227277777377335355 5 2222....22223333 00.00..0.00202226666 ....00300330300606656552522 2 ....4444772772227777111616662222 y Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = --2--221211616.66..5.55533233222333322 22 Pseudo R2 = 000.0...1111559559996666 Prob > chi2 = 00.00...0000000000000000 LR chi2(6666) = 88882222..2..2225555 Logistic regression Number of obs = 339339993333

Figura 15 - Resultados da regressão logística – gênero feminino

Pelos resultados apresentados, de fato há uma diferença entre os gêneros quanto à decisão pelo planejamento ou não das compras. Isso fica evidente, pois não existe nenhuma variável independente significativa em comum para as duas regressões logísticas exibidas. Em outras palavras, o que é considerado relevante para um determinado gênero não o é para o outro.

As Figuras 14 e 15 apresentam os resultados advindos da transformação ocorrida nas regressões logísticas das Figuras 12 e 13, como fora explicado no item 4.3 e que facilita a interpretação pela análise direta dos valores.

v30 ...7.771711111211222222211119999 ..0..0500559599900060667677373 33 ----44.44...111100 00 000.0..0.000000000 00 ..6..6660000444343833883833333 33 ....8838833366669949944646666666 v5 ...7.773733030020224245445559999 ....000088858555000909899886866 6 ----2222..7..7770000 00.00..0.00000007777 ....555588818111111313233242244 4 ....9999117117776666222020007777 y Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = --1--111111414.44..9.99911611666333366 66 Pseudo R2 = 000.0...1111002002223333 Prob > chi2 = 00.00...0000000000000000 LR chi2(2222) = 22226666..2..2220000 Logistic regression Number of obs = 220220007777

Figura 16 – Resultados dos odds ratio – gênero masculino

Sabe-se que razão de chance (odds ratio) > 1, implica no aumento da probabilidade de ocorrer o evento (1), compras planejadas e que razão de chance (odds ratio) <1, implica na redução da probabilidade de ocorrer o evento (1), compras planejadas.

72 v31 ..7..770700404544558588899399333 ..0..05005545444333939939333333 3 ----4444....55455444 00.00..0.0000000000 0 ..6..66600005565566565535393399 9 ..8..88811119969966868886666 v29 11.11..1.11616466444444499999999 ..0..00088828222777676606070077 7 22.22...111144 44 000.0..0.003033322 22 11.11...0000111313033008088181 11 1111..3..33333338858855454447777 v22 111.1..2.2322333999911 11 ....11211220200088888888888585 55 22.22...22220000 000.0..0.02002228888 1111....00200223233434344383388 8 1111....550550000000222020006666 v28 ...8.884844141211226266633334444 ..0..0600662622200090997977474 44 ----22.22...333344 44 000.0..0.001011199 99 ..7..7772222777979499449499292 22 ....9979977722222212211616665555 v39 ..8..881811212222222666644 44 ....00500553533333303004044444 44 ----33.33...111177 77 000.0..0.00000002222 ....771771114442422222292992922 2 ....992992223333777575555555 v4 11.11..2.2822886866611911999 ..1..11144454505504004484828822 2 2222....22223333 00.00..0.00202226666 1111....00003331311111211227277 7 1111....660660004444333434446666 y Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = --2--221211616.66..5.55533233222333322 22 Pseudo R2 = 000.0...1111559559996666 Prob > chi2 = 00.00...0000000000000000 LR chi2(6666) = 88882222..2..2225555 Logistic regression Number of obs = 339339993333

Figura 17 – Resultados dos odds ratio – gênero feminino

Nesse sentido, as variáveis v4, v22 e v29, todas significativas para o gênero feminino, aumentam a probabilidade de ocorrência de planejamento nas compras. Ao contrário, as variáveis v39, v28 e v31, gênero feminino e v5 e v30, gênero masculino contribuem para reduzir a probabilidade de ocorrência de compras planejadas, ou seja, essas variáveis independentes levam ao não-planejamento das compras. Constata-se aqui que inexistem variáveis independentes significativas dentre as abordadas no estudo que leve os homens a ter uma pré-disposição ao ato de planejar suas compras.

_cons ...0.00202282838836336661181188 8 ....22222228288811121229299696 66 00.00...11112222 000.0..9.90990001111 ----....44144111888787677664644141 11 ....4474477755554484488787776666 _hatsq ----..2..220200404344330300033332222 ..2..22222262696699393363666666 6 --0--000....999900 00 000.0..3.36336668888 ----....66466444999090900909900808 88 ....2242244400004484488484445555 _hat 111.1..2.22727767667674774442222 ....333388828222999999799775755 5 3333....33333333 000.0..0.00000001111 ..5..55522226660600808088005055 5 2222....002002227777444040003333 y Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = --1--111111414.44..5.55500900999999988 88 Pseudo R2 = 000.0...1111005005555555 Prob > chi2 = 00.00...0000000000000000 LR chi2(2222) = 22227777..0..0002222 Logistic regression Number of obs = 220220007777

Figura 18 – Link test – gênero masculino

As Figuras 16 e 17 apontam o teste de especificação do modelo, o Link test. Para que a

regressão logística esteja especificada corretamente o coeficiente de hatsq ( )

2 ^

Y não pode ser significativo, ou seja, deve apresentar um α >5%o que de fato ocorreu para ambos os testes aplicados, gênero masculino e gênero feminino.

73 _cons ...1.11111151565562662225555555 5 ....11511556566666636338388989 99 00.00...77774444 000.0..4.46446660000 ----....11911999111313833881811111 11 ....4424422222226636633232222222 _hatsq ----..1..116166262322336366622221111 ..1..11111131353355454484898899 9 --1--111....444433 33 000.0..1.15115553333 ----....33833888444949199131133939 99 ....0060066600001181188989997777 _hat 111.1..1.11313353557579779995555 ....111166666666666666166111111 1 6666....88881111 000.0..0.00000000000 ..8..88800009991911414444449499 9 1111....446446662222444444444444 y Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = --2--221211515.55..4.44477377333444444 44 Pseudo R2 = 000.0...1111663663337777 Prob > chi2 = 00.00...0000000000000000 LR chi2(2222) = 88884444..3..3336666 Logistic regression Number of obs = 339339993333

Figura 19 - Link test – gênero feminino

O teste de Hosmer-Lemeshow usado para avaliar a validade preditiva do modelo de regressão logística é apresentado nas Figuras 18 e 19.

Prob > chi2 = 0000...3.363366868886666 Hosmer-Lemeshow chi2(8888) = 8888...7.7770000 number of groups = 11110000

number of observations = 222020007777

(Table collapsed on quantiles of estimated probabilities) L

L L

Loogoogggiiisisssttittiiciccc mmmmoodooddedeeelll l ffffooroorrr yyy,y,,, ggoggoooooododddnnneneseesssssss----ooofof-ff--f-fffiiiittt t ttteteeesssstttt

Figura 20 – Teste de Hosmer-Lemeshow – gênero masculino

Para um bom desempenho preditivo do modelo deve-se aceitar a hipótese nula:

∧

H :₀ , ou seja, a de que não existe diferença significativa entre o valor real e o valor previsto.

Prob > chi2 = 0000...3.353355151113333 Hosmer-Lemeshow chi2(8888) = 8888...8.8889999 number of groups = 11110000 number of observations = 333939993333

(Table collapsed on quantiles of estimated probabilities) L

L L

Looogoggigiiissststittiiiccc c mmmomodoodddeeelelll ffffooroorrr yyy,y,,, ggoggooooodoodddnnneneseessssss-s---ooofof-ff---ffffiiiittt t ttteteeesssstttt

Figura 21 – Teste de Hosmer-Lemeshow – gênero feminino

Pode-se verificar pelas Figuras 18 e 19 que os modelos de regressão logística têm bom poder de ajuste, tanto quando realizado para o gênero masculino quanto para o feminino já que não se rejeita a hipótese nula para ambos os casos.

Nas Figuras 20 e 21 temos representadas tabelas de classificação referentes a compras planejadas e compras não-planejadas.

Correctly classified 7777444.4.4..440400%0%%% False - rate for classified - Pr( D| -) 2222888.8.0..000000%0%%% False + rate for classified + Pr(~D| +) 2222555.5.2..227277%7%%% False - rate for true D Pr( -| D) 444.4.9..990900%0%%% False + rate for true ~D Pr( +|~D) 7777111.1.8..888888%8%%% Negative predictive value Pr(~D| -) 7777222.2.0..000000%0%%% Positive predictive value Pr( D| +) 7777444.4.7..773733%3%%% Specificity Pr( -|~D) 2222888.8.1..113133%3%%% Sensitivity Pr( +| D) 9999555.5.1..110100%0%%% True D defined as y != 0 Classified + if predicted Pr(D) >= .5 Total 111144344333 6666444 4 222020070777 - 77 77 1111888 8 22252555 + 111133633666 4444666 6 111818828222 Classified D ~D Total True

Figura 22 – Tabela de classificação – gênero masculino

A sensitividade (sensitivity) representa o percentual de acertos dos casos de ocorrência do evento de interesse. Assim, constata-se que para o gênero masculino 95,10% (136/143) é o percentual de acerto na classificação de compras planejadas. Já para o gênero feminino foi encontrado 85,60% (214/250) de acerto nessa classificação.

Correctly classified 7777111.1.7..776766%6%%% False - rate for classified - Pr( D| -) 3333444.4.6..662622%2%%% False + rate for classified + Pr(~D| +) 2222555.5.9..995955%5%%% False - rate for true D Pr( -| D) 1111444.4.4..440400%0%%% False + rate for true ~D Pr( +|~D) 5555222.2.4..445455%5%%% Negative predictive value Pr(~D| -) 6666555.5.3..338388%8%%% Positive predictive value Pr( D| +) 7777444.4.0..005055%5%%% Specificity Pr( -|~D) 4444777.7.5..555555%5%%% Sensitivity Pr( +| D) 8888555.5.6..660600%0%%% True D defined as y != 0 Classified + if predicted Pr(D) >= .5 Total 222255055000 11114444333 3 333939939333 - 333366 66 6666888 8 111010040444 + 222211411444 7777555 5 222828898999 Classified D ~D Total True

Figura 23 – Tabela de classificação – gênero feminino

Por outro lado, a especificidade (specificity) indica o percentual de acertos dos casos em que não ocorre o evento de interesse (compras não-planejadas). Neste caso, foram encontrados 28,13% (18/64) e 47,55% (68/143) de percentuais de acerto na classificação das

compras realizadas de forma não-planejada, para o gênero masculino e feminino, respectivamente. Além disso, temos a classificação correta (correctly classified) que neste estudo apontou 74,40% (136+18)/(143+64) para o gênero masculino e 71,76% (214+68)/(250+143) para o gênero feminino. Deve-se considerar que essa última classificação é geral, pois considera tanto as compras planejadas como as não-planejadas.

As Figuras 22 e 23 mostram a curva ROC (Receiver Operating Characteristic). Conforme visto anteriormente no item 4.3, quanto maior a área abaixo dessa curva, maior é a capacidade de o modelo discriminar o evento de interesse (compras planejadas) do outro evento (compras não-planejadas).

0 .0 0 0 .2 5 0 .5 0 0 .7 5 1 .0 0 S e n s it iv it y 0.00 0.25 0.50 0.75 1.00 1 - Specificity

Area under ROC curve = 0.7054

Figura 24 – Curva ROC – gênero masculino

Verifica-se que fora encontrado uma área abaixo da curva de 0,7054 para o gênero masculino e de 0,7517 para o gênero feminino. Conforme Fávero et al. (2009) essas áreas representam uma discriminação aceitável para os modelos de regressão logística.

76 0 .0 0 0 .2 5 0 .5 0 0 .7 5 1 .0 0 S e n s it iv it y 0.00 0.25 0.50 0.75 1.00 1 - Specificity

Area under ROC curve = 0.7517

Figura 25 – Curva ROC – gênero feminino

Com o intuito de verificar a validação do modelo de regressão logística procederam-se novamente aos cálculos, mas considerando uma subamostra de 107 observações para o gênero masculino e de 197 observações para o gênero feminino. Essas observações foram escolhidas de forma aleatória, representando praticamente a metade de ambas às amostras iniciais para cada gênero. _cons 333.3..7.77777477444444411113333 ..8..88844434393399090090969966 6 44.44...444477 77 000.0..0.00000000000 2222..1..112122020300383388 8 5555....442442228888444444445555 v30 --.--..5.550505005555558588888885555 ..1..1311330300033433444444444 44 ----33.33...888888 88 000.0.0..00000000000 ----....77677666111010500558588888 88 ----....2252255500001111111818883333 v5 --.--.3..331318118808007077777777777 ....111166966999888989699664644 4 ----1111..8..8887777 00.00..0.06006661111 ----....66566555111010600668688585 55 ....0010011144449919911313331111 y Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = --5--552522.2.7..773733322922999444488 88 Pseudo R2 = 000.0...1111669669993333 Prob > chi2 = 00.00...0000000000000000 LR chi2(2222) = 22221111..5..5550000 Logistic regression Number of obs = 110110007777

Figura 26 - Validação por uma subamostra aleatória – gênero masculino

Ao comparar os valores encontrados nas Figuras 12 e 13 considerando a amostra total dos dois gêneros, com os valores das Figuras 24 e 25, nas subamostras escolhidas aleatoriamente, percebe-se que não houve uma variação muito grande nos resultados encontrados. Verifica-se proximidade nos valores para todos os coeficientes da regressão logística e o sinal se manteve para todas as variáveis independentes. Assim, pode-se deduzir que os modelos são válidos para ambos os gêneros.

77 _cons ...2.22828888878879779994464466 6 1111..0..003033366616119199393 33 00.00...22228888 000.0..7.78778880000 ----1111..7..777444242122110100707 77 2222..3..33311119969966969996666 v39 --.--..2.221215115515115157557778888 ..0..0900994944488188114144747 77 ----22.22...222277 77 000.0.0..00202223333 ----....44044000000909999991911212 22 ----....0020022299993323322424443333 v31 --.--..3.336366666666663633333335555 ..1..1011008088800200227277676 66 ----33.33...333399 99 000.0.0..00000001111 ----....55755777888383633663633737 77 ----....1151155544449909900303332222 v29 ..1..113133535055001011133433444 ..1..11100090999999595595949944 4 1111....222233 33 000.0..2.22222220000 ----....00800888000505055030033131 11 ....3353355500005525522929999999 v28 ----...1.115152552292997978778882222 ..1..1111111115115255222222525 55 ----11.11...333377 77 000.0..1.17117770000 ----....337337771115155555585881811 1 ....0060066655556606600101118888 v22 ...2.228288282622669699911114444 ..1..11144434303300606626252255 5 11.11...999988 88 000.0..0.04004448888 ....00000002022222922949944 4 ....5555663663330000888888888888 v4 ...1.115155858818115151551118888 ....111166166121122020030332322 2 0000....99989888 00.00.3..32332227777 --.--...111155755778788080000006066 6 ....4444774774441111000404442222 y Coef. Std. Err. z P>|z| [95% Conf. Interval] Log likelihood = --1--110100505.55..1.11111211222999944 44 Pseudo R2 = 000.0...1111772772220000 Prob > chi2 = 00.00...0000000000000000 LR chi2(6666) = 44443333..6..6667777 Logistic regression Number of obs = 119119997777

Figura 27 – Validação por uma subamostra aleatória – gênero feminino

No Quadro 3 a seguir é colocado um resumo das variáveis independentes apontadas como significativas no modelo de regressão logística, considerando a amostra como um todo, o gênero masculino e o gênero feminino, e que, implicam no aumento da probabilidade de ocorrer o evento de interesse (compras planejadas) e que reduzem essa probabilidade de ocorrência.

Quadro 3 – Comparação dos resultados conforme a amostra considerada Amostra considerada Aumenta a probabilidade de

ocorrer compras planejadas odds ratio (>1)

Diminui a probabilidade de ocorrer compras planejadas

odds ratio (<1) Amostra como um todo v22 (auto-estima) e v29

(materialismo)

v5 (renda), v30, v31 e v39 (comportamento compulsivo de

compra)

Somente o gênero masculino - v5 (renda) e v30 (comportamento compulsivo de compra) Somente o gênero feminino v4 (idade), v22 (auto-estima) e

v29 (materialismo)

v28 (materialismo), v31 e v39 (comportamento compulsivo de

compra)

Pela análise do Quadro 3, verifica-se que as variáveis v22 (eu tenho uma atitude

positiva comigo mesmo) e v29 (eu seria mais feliz se eu pudesse comprar mais coisas)

aumentam a probabilidade de os estudantes efetuarem suas compras de forma planejada ao considerar a amostra total e a parcela da amostra referente ao gênero feminino. A variável v22 é pertencente ao fator auto-estima e, dessa forma, era de se esperar que uma pessoa com auto-

Dans le document Extrait du fonds documentaire (Page 30-33)