• Aucun résultat trouvé

Extracción de los factores

PARTE III. ANÁLISIS

2. A NÁLISIS DE COMPONENTES PRINCIPALES

2.3. Etapa 2: Extracción de los factores o componentes

2.3.1. Extracción de los factores

El punto de partida en un ACP es la matriz original X con el conjunto de variables originales p que son elegidas para el análisis. Este conjunto de variables configura una variabilidad total que no es más una medida de la información total contenida en ellas.

Esta variabilidad total se expresa a través de la matriz de varianzas y covarianzas V o bien a través de la matriz de correlaciones R. Consideraremos en general esta última en los análisis con el software pues facilita la interpretación de los resultados.

El objetivo es constatar en ese conjunto de variabilidad inicial, de diferencias entre los individuos, que se dan redundancias informativas, es decir, existen correlaciones entre grupos de variables que nos permite expresar el 100% de la información total inicial de las p variables en solo un número reducido de m factores o componentes que expresan la mayor parte del 100% de la información.

La redundancia informativa o las intercorrelaciones se concentran en los factores. Esta concentración no implica exactamente una agrupación de variables en factores, sino una combinación (lineal) de la mayor parte de la variabilidad de cada una de ellas en unos pocos factores que permite substituir la complejidad de p dimensiones por un número menor de m dimensiones. Así, por ejemplo, podríamos considerar p=20 variables iniciales cuya variabilidad total inicial (20), una unidad por variable configurando 20 dimensiones iniciales, se convierte y reduce a 15 (lo que implica conservar el 75%) pero que se expresaría solamente en términos de, por ejemplo, 3 nuevas variables que son los factores. Pasamos así de un espacio vectorial de 20 dimensiones a otro de 3, con un coste del 25% de pérdida de información, pero que, como destacaremos, es el 25% menos importante pues son factores secundarios de diferenciación.

La información total inicial, el total de variabilidad, se expresa en el concepto de inercia.

En este sentido podemos equiparar la idea de variabilidad con la de inercia. Desde un punto de vista geométrico la variabilidad o la inercia son distancias, dispersiones en el espacio. Así se define la inercia IC en un espacio vectorial de p dimensiones que configura una nube de puntos con n individuosNnp, respecto de un centro C, como13:

2 2

es decir, es la suma de todas las distancias de cada individuo Ii• al centro C, definido éste por el punto que se obtiene de la media de todas las variables. En el Gráfico III.11.5 se representa en un espacio de dos dimensiones y para un individuo (gráfico a) y para un conjunto de individuos (gráfico b). La inercia es la distancia (cuadrática) d2.

La inercia es pues toda la variabilidad de nuestros datos y es la suma de todas las varianzas multiplicada por el número de individuos: IC  n Tr V( ), es decir, el número de casos por la traza de la matriz de varianzas y covarianzas (la suma de las varianzas de las p variables).

13 La inercia es un concepto de la física y nos referimos de hecho a la “inercia con respecto al centro de masas”

que no es más que la dispersión respecto de la media.

Gráfico III.11.5. Representación geométrica de la inercia

(a) (b)

Cuando se colocan todos los individuos en el espacio la existencia de redundancias informativas y de correlaciones entre las variables se expresa en disposiciones alineadas de los individuos en ese espacio marcando direcciones (deformaciones) en el mismo, es decir, dispersiones en una dirección determinada. Encontrar los factores significa dar cuenta de estas direcciones en el espacio por donde hacer pasar el eje factorial o nueva variable factorial F•k.

Para encontrar esos ejes se utilizan los vectores directores unitarios que nos indican por donde hacer pasar el eje u j de tal manera que se cumplan las condiciones anunciadas anteriormente: que acumulen la mayor parte de la inercia, de forma jerárquica y sean linealmente independientes.

Acumular la mayor parte de la inercia significa geométricamente que la proyección de los puntos-individuos sobre los nuevos ejes factoriales buscados sea la máxima: es la distancia dp2 del Gráfico III.11.6, por tanto, que la distancia del individuo al eje dh2 sea

la más pequeña posible.

Gráfico III.11.6. Descomposición de la inercia

Así se procede a la descomposición de la inercia total, como suma de la distancia al eje más la proyección: el triángulo de la figura muestra de hecho que es la aplicación del Teorema de Pitágoras: d2d2pdu2, extendido a todos los puntos de la nube.

En la figura se ha representado la dirección por donde pasa el primer eje factorial u1. Éste es el primero que consigue acumular la mayor inercia posible, el que consigue mayor proyección o cercanía de los puntos. El segundo eje es el que consigue proyectar sobre él la mayor parte de la inercia restante que no acumula el primer eje, y así sucesivamente con el tercero, cuatro, etc. Los ejes o vectores que cumplen con estas características se denominan vectores propios (u j), y la inercia que acumulan, valores propios (λk), que como veremos inmediatamente expresan la varianza explicada por el factor, su importancia14.

Como resultado por tanto de este proceso, y considerando la matriz de correlaciones R, se concluye que la inercia total se reparte de manera jerárquica en p valores propios λk con k=1…p, asociados a cada eje o vector propio, siendo la suma de todos ellos igual la inercia total e igual al valor p. Esto nos permitirá interpretar cada valor propio como la proporción varianza explicada (VE):

1

14En términos algebraicos los vectores y los valores propios de obtienen diagonalizando la matriz de varianzas y covarianzas (Lozares y López-Roldán, 2000: 82-90). Encontrar los vectores propios implica hacer máximas las proyecciones lo que se expresa maximizando la suma de los productos escalares al cuadrado de todos los vectores-individuos y el vector propio. El cálculo en términos matriciales implica que el primer valor propio es el que maximiza la expresión n U'1 V U1. Esta expresión con los datos estandarizados implica considerar la matriz de correlaciones R en vez de V: n U'1 R U1. La resolución de la maximización implica obtener el primer valor propio λ1 que maximiza la expresión V U 11U1 o bien (V1I)U10 que es el mayor valor propio de V y así se continúa con el resto de vectores y valores propios maximizando la varianza residual y considerando vectores perpendiculares entre sí (linealmente independientes). Obtenidos los vectores propios se verifica que la matriz de varianzas y covarianzas V se puede expresar como: V   U D U ', donde U es la matriz de vectores propios y Dλes la matriz diagonal de valores propios:

11 12 1 1 11 21 1

De donde se deriva que la traza de V es la suma de los valores propios: 1 2

1