Análisis de las mejoras en las pruebas de evaluación

CAPÍTULO 2. ESTUDIO 1: EVALUANDO LAS EVALUACIONES. EFICACIA DE

2.3. R ESULTADOS

2.3.1. Análisis de las mejoras en las pruebas de evaluación

A nivel de resultados cuantitativos, los datos que hemos analizado han sido:

primero, la puntuación final obtenida por los docentes en cada una de las pruebas que han realizado contando las tres versiones (prueba original, prueba autentificada y prueba final); segundo, la puntuación por cada una de las características que conforman la Guía GAPPISA en cada una de sus versiones; y, tercero, la puntuación total en cada una de las variables de competencialidad, potencial formativo e inclusividad -obtenida a través de sumar el total de las características que se corresponden con la variable-. Seguidamente se han analizado los cambios en las pruebas según las diferentes variables recogidas que podrían influir en el resultado, estas son, respecto a los docentes: materia, curso y años de experiencia docente, y respecto a la formación, el número de retroalimentaciones recibidas por parte del equipo de formadores.

Antes de describir las pruebas y las correlaciones establecidas, es preciso señalar cual ha sido el nivel de participación en las actividades y el grado de implicación.

Como vemos en la Tabla 23, de 206 inscripciones, 196 siguieron con el proyecto hasta el final. Además, 152 realizaron la segunda entrega lo que nos demuestra que los docentes estaban motivados para seguir aprendiendo y valoraban positivamente la retroalimentación aportada por los asesores.

Tabla 23

Número de entregas de los docentes según la versión de la prueba

Prueba Original Prueba Autentificada Prueba Final Número de

entregas 174 196 152

Veremos a continuación los resultados agrupados en estos dos grandes bloques:

cambios en las pruebas y relación con otras variables.

2.3.1.1. Cambios en las pruebas.

En primer lugar, en relación con las diferentes versiones de las pruebas -Versión Original, Versión Autentificada y Versión Final-, como se puede observar en la

156

Tabla 24, la puntuación media nos muestra una clara mejoría en las mismas, con más de tres puntos de diferencia entre la Versión Original y la Versión Final.

Tabla 24

Datos estadísticos de la puntuación final de todas las pruebas en cada una de sus versiones

Muestra Mínimo Máximo Media Desviación

típica Varianza Puntuación de la

prueba en su Versión Original

175 0 6 1,09 0,803 0,645

Puntuación de la prueba en su Versión

Autentificada

196 0 6 2,81 1,115 1,242

Puntuación de la prueba en su Versión

Final

153 0 7 4,52 1,603 2,569

Con el análisis estadístico entre las puntuaciones de las variables de la Guía GAPPISA para cada una de las versiones comprobamos también que cada vez se diseñan pruebas de evaluación más auténticas en tanto que se van incluyendo y/o mejorando las diferentes características que la conforman y que dicha mejora es progresiva. Hemos obtenido una correlación positiva entre la prueba original y la autentificada, es decir, a mayor puntuación en la prueba original, mayor puntuación en la prueba auténtica, r=0.153, p=0,028. Existe también una correlación positiva entre la prueba auténtica y la final, es decir, aquellos que tienen mayor puntuación en la prueba autentificada, tendrán mayor puntuación en la final, r= 0.355, p<0.0001.

En segundo lugar, pasamos a observar, de entre las características que componen la Guía GAPPISA, cuáles han cambiado más, calculando la diferencia entre la puntuación de la versión original y nivel de la prueba final. Constatamos que los cambios que han tenido más éxito se refieren a: la situación inicial auténtica, las actividades realistas y la complejidad cognitiva. Por el contrario, la evaluación del proceso y la inclusión de condiciones de resolución realistas, aspectos también esenciales en una evaluación auténtica, no han obtenido una mejora tan elevada.

Además, la relación entre todas las características en la versión final de la prueba es significativa, dándose una asociación lineal positiva. En el momento en que se

157

cambia una característica aumenta la puntuación positiva del resto, es decir, que realizar un cambio no va en detrimento del resto de características, sino que por el contrario todas ellas son interdependientes.

Tercero, el análisis de la puntuación obtenida en cada una de las variables de competencialidad, poder formativo e inclusividad, nos muestra que hay un aumento significativo de cada una de ellas (ver Figura 3). La variable de competencialidad supera con creces al resto, todo y que partía de un nivel más bajo de puntuación en la prueba original. Como hemos descrito anteriormente, las características que más cambiaron se correspondían con esta variable.

En la variable de potencial formativo, comprobamos que ha habido una mejoría pero que los niveles alcanzados, son moderados. Esta característica de las pruebas de evaluación auténticas se relaciona con cambios asociados a posibilitar la autoevaluación y la coevaluación, a compartir los criterios de calidad, explicitar el proceso de resolución seguido y/o enfrentar situaciones imprevistas.

En cambio, vemos que, respecto a la variable de inclusividad, es decir, el hecho de realizar pruebas ajustada a los diferentes perfiles de aprendizaje no ha habido tanta mejoría. Falta, por lo tanto, un trabajo relacionado con variar las formas de presentación de la información y de comunicación de los resultados, así como valorar las ayudas relacionadas. Además, en esta variable ya se observan niveles iniciales, levemente superiores al resto, en el tipo de preguntas y respuestas, relacionadas con la atención a la diversidad, aunque dicha variable se refiere a tareas tradicionales como incluir una imagen o pedir la realización de un esquema.

158

Figura 3. Nivel alcanzado en cada una de las pruebas según las categorías de competencialidad, poder formativo e inclusividad.

En resumen, los resultados estadísticos son significativos en las relaciones entre las variables referidas a las pruebas de evaluación -versiones, características y categorías-, es decir, los docentes han elaborado pruebas y/o actividades de evaluación más competenciales, formativas e inclusivas. A continuación, analizamos si existieron factores externos que interfirieron en esta mejora experimentada.

2.3.1.2. Relación con otras variables.

Primeramente, pasamos a analizar si las puntuaciones en cada una de las características de la Guía GAPPISA y de las tres variables, correlacionan y de qué forma con las variables referidas a los docentes como son: materia, curso y años de experiencia docente.

Respecto a la puntuación total en cada una de las características, no encontramos diferencias significativas con respecto a la materia y el curso. Para la variable años de experiencia docente, no se observa asociación lineal entre la puntuación total y los años de experiencia en dos rangos de edad -experiencia menor a 15,

159

experiencia mayor a 15-. Sí que existen diferencias significativas en las medias de la puntuación final en la característica de actividades auténticas: aquellos que tienen una experiencia menor de 15 años tienen puntaciones superiores en actividades auténticas, F=8.762, p=0.002.

Considerando ahora la puntuación total de cada variable no encontramos correlación positiva con el curso y los años de experiencia docente. Sin embargo, sí hay diferencias significativas respecto a la asignatura en relación con las materias de lengua castellana y lengua extranjera y con la variable de inclusividad. Las pruebas de lengua castellana son menos inclusivas a diferencia de las pruebas de lengua extranjera que lo son más, seguidas de las de ciencias naturales. Aunque es destacable este dato no nos parece un resultado que influya negativamente en la interpretación general, puesto que únicamente sucede para una de las variables.

Seguidamente, relacionamos la puntuación final con el número de retroalimentaciones recibidas por parte del equipo de asesores, y vemos que es positiva: a mayor puntuación final mayor retroalimentación -a un nivel de significancia p<0,001-. Es decir, aquellos docentes que obtienen mayor puntuación en actividades auténticas son los mismos que tuvieron un mayor número de retroalimentaciones, r=0,782; p<0,001. Las características más afectadas positivamente fueron: actividades auténticas y complejidad cognitiva. La evidencia de que las dos características que más han mejorado, en relación con la retroalimentación recibida, se correspondan con la variable de competencialidad, corrobora el hecho de que dicha variable haya sido la que más ha mejorado de forma global.

2.3.2. Descripción de las mejoras en las pruebas de

Dans le document Evaluación e Identidad Docente: impacto de una formación sobre evaluación auténtica de (Page 156-160)