• Aucun résultat trouvé

Modelo de datos de recuento de umbral

Dans le document de datos de r (Page 94-97)

4.6 Modelos para datos de recuento en presencia de sobredispersión

4.6.4 Modelos de datos de recuento con ceros modificados

4.6.4.1 Modelo de datos de recuento de umbral

Los modelos de datos de recuento de umbral («Hurdle Count Data Models») (Mullahy, 1986), contemplan la diferenciación sistemática en el proceso estadístico que gobierna las observaciones, en función de si el valor de tales observaciones supera o no cierto umbral. Esta bifurcación se consigue combinando un modelo dicotómico para el resultado binario de estar por encima o por debajo del umbral, con un modelo truncado para resultados superiores al umbral.

El modelo con datos de recuento de umbral más frecuente, denominado modelo con ceros («With Zeros model», WZ) (Melkersson y Rooth, 2000; Mullahy, 1986), es el que fija el umbral a 0.

El modelo WT parece tener en la literatura dos acepciones. En ambos casos se considera que el modelo WT implica hacer uso de un modelo de Poisson compuesto. Tal composición implica dos distribuciones, las cuales describen dos tipos de observaciones separadas por un umbral. El valor de este umbral es también común –el valor 0; es después de cruzar el umbral cuando aparecen las diferencias entre ambas acepciones.

Acepción A (Winkelmann, 2000; Winkelmann y Zimmermann, 1995; Yen, 1999). Al sobrepasar el valor de umbral se obtiene una distribución truncada en 0 y, por tanto, con valores estrictamente positivos.

Acepción B (Cameron y Trivedi, 1998; Long, 1997; Mullahy, 1997). La distribución resultante de cruzar el umbral es una distribución de referencia («parental distribution»), como puede ser la distribución de Poisson o la binomial negativa, de forma que el valor 0 es posible y su probabilidad viene determinada por dicha distribución de referencia. Según indica Long (1997) el concepto básico de modelo WZ es retomado y ampliado en modelos de uso mucho más extendido denominados modelos de ceros aumentados.

4.6.4.1.1 Acepción A

El modelo WT se basa en la diferencia sistemática entre los procesos estadísticos que gobiernan, por un lado las observaciones con valores de recuento 0 y, por otro, las observaciones con valores de recuento estrictamente positivos. Ello se consigue combinando el modelo dicotómico que rige el resultado binario de que un recuento sea 0 o superior a 0, y un modelo de Poisson truncado en 0 para valores estrictamente positivos (Winkelmann y Zimmermann, 1995). De esta forma, este podría ser un modelo que se ajustase a una situación habitual en la investigación en Psicología clínica: al pasar una prueba para valorar la existencia de un trastorno a una muestra subclínica (supongamos que es obtenida al azar), tendremos un exceso de ceros si dicha prueba realiza un recuento del número de

síntomas presentes. En este caso podemos considerar que las observaciones provienen, en realidad, de dos poblaciones: una «patológica» y la otra «no-patológica». En esta situación, la alternativa seria utilizar previamente una prueba de cribado de la cual se obtuviera el resultado binario {presencia/ausencia de patología} y posteriormente se realizara la prueba para valorar el número de síntomas presentes.

Para una formulación del modelo de umbral, asúmase que f1 y f2 son funciones de distribución de probabilidad para enteros no negativos. Si f1 gobierna la parte de umbral (valor 0) y f2 el proceso una vez sobrepasado el umbral (>0) la función de probabilidad del modelo de umbral viene dada por (Winkelmann, 2000):

Pr(y = 0) = f1(0) modelo de referencia (p.ej. la distribución de Poisson).

El valor esperado viene dado por:

Eh (y) =

Este valor difiere del valor esperado por el modelo de referencia en un factor de Φ. Si la probabilidad de cruzar el umbral es mayor que la suma de las probabilidades de recuentos positivos en el modelo de referencia, Φ será superior a 1, incrementando de esta forma el valor esperado del modelo de umbral con respecto al valor esperado en el modelo de referencia.

La variancia es (Winkelmann, 2000):

Varh (y) =

La razón variancia-media es (Winkelmann, 2000):

Tal como se ha indicado, si Φ = 1 la razón media-variancia queda reducida a la del modelo de referencia. En este caso, es posible aplicar una prueba de sobredispersión para modelos anidados como, p. ej., la prueba LR (Winkelmann y Zimmermann, 1995). Así, si f2 es una función de distribución de Poisson, existe equidispersión si Var(y) / E(y) = 1. Por otro lado, si f2 es una función de distribución de Poisson y Φ ≠1, (4.59) define el modelo de umbral: Si 0 < Φ < 1 existe sobredispersión.

La función de log-verosimilitud es:

[ ] ∑ [ ]

4.6.4.1.2 Acepción B

El modelo WZ asume que la población consiste en dos grupos. La probabilidad de que una observación se encuentre en el grupo 1, que es el que presenta únicamente recuentos con valor 0, es ψ, y la probabilidad de que se encuentre en el grupo 2, donde se encuentran el resto de valores de recuento, es 1 – ψ. En el grupo 2 los recuentos se distribuyen según la distribución de Poisson (o según la distribución binomial negativa) y la probabilidad de un recuento igual a 0 viene determinada por dicha distribución. Es decir, en el grupo 2, los recuentos siguen una distribución de Poisson o una binomial negativa, de forma que, por ejemplo, en el caso de aplicar un MRP, la probabilidad de un recuento determinado viene dado por (3.14), es decir:

Pr(Y = yi | µi) =

Donde µ = exp(xiβ). En este grupo, los recuentos con valor 0 ocurren, por tanto, con probabilidad Pr(y = 0|µ) = exp(–µ).

La probabilidad total de valores de recuento 0 es el resultado de una combinación de las probabilidades de 0 recuentos en ambos grupos, ponderada por la

probabilidad de un individuo de pertenecer a ese grupo (Long, 1997; Mullahy, 1997):

Pr(yi = 0 | xi) = ψ+(1–ψ)exp(–µi) (4.64) Puesto que el proceso de Poisson es aplicable sólo a una proporción 1–ψ de la muestra, la probabilidad de recuentos positivos debe ser ajustada (Long, 1997):

Pr(yi | xi) = (1–ψ)

! ) exp(

i iy i

y µ i

µ

, para y > 0 (4.65)

Dans le document de datos de r (Page 94-97)