Resumen de Un análisis experimental de la relación entre las evaluaciones proporcionadas por la inteligencia artificial y las proporcionadas por los docentes en formación

Ayuda

Resumen de Un análisis experimental de la relación entre las evaluaciones proporcionadas por la inteligencia artificial y las proporcionadas por los docentes en formación

Héctor Galindo Domínguez , Nahia Delgado de Frutos , Martín Sainz de la Maza San José , Ernesto Exposito

español
Este estudio tuvo como objetivo analizar las posibles diferencias entre las evaluaciones realizadas por docentes en formación y las realizadas por diferentes IA generativas. Participaron un total de 507 docentes en formación, a quienes se les proporcionó una rúbrica para evaluar 12 textos de distintos tipos y calidades. Los resultados mostraron cómo el desempeño de las IA generativas en la evaluación de tareas escritas replicó con bastante precisión el funcionamiento de los docentes en formación, siendo ChatGPT la IA que mejor replicó el comportamiento de los docentes en formación, con una precisión cercana al 70% de la evaluación proporcionada por humanos. Del mismo modo, hubo diferencias mínimas en las evaluaciones realizadas por los docentes en formación según su género y año académico. Asimismo, la IA generativa sobrestimó las puntuaciones otorgadas a los textos. Sin embargo, esta sobrestimación disminuyó a medida que mejoraba el desempeño de los docentes en formación. De este modo, las evaluaciones realizadas por los docentes en formación con mejor desempeño estuvieron más alineadas con las proporcionadas por la IA generativa en comparación con los estudiantes con menor desempeño.
English
One of the potential benefits of AI is that it may allow optimizing teachers' tasks, enabling them to be more efficient in their work. This study aimed to analyze potential differences between the evaluations given by pre-service teachers and the evaluations given by different generative AIs. A total of 507 pre-service teachers participated, who were provided with a rubric to evaluate 12 texts of different types and qualities. The results showed how the performance of generative AIs in evaluating written tasks replicated the functioning of pre-service teachers quite accurately, with ChatGPT being the AI that best replicated the behavior of pre-service teachers, with an accuracy close to 70% of the evaluation provided by humans. Similarly, there were minimal differences in the evaluations given by pre-service teachers based on their gender and academic year. Likewise, generative AI overestimated scores provided for texts. However, this overestimation decreased as the performance of pre-service teachers improved. Thus, assessments provided by high-performing pre-service teachers were more aligned with those provided by generative AI compared to students with lower performance. These results are useful as they highlight how generative AI could be an aid tool guiding the pedagogical knowledge of pre-service teachers in digital assessment tasks.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: