¿Es capaz GPT-4 de aprobar el MIR 2023? Comparativa entre GPT-4 y ChatGPT-3 en los exámenes MIR 2022 y 2023

Álvaro Cerame del Campo; Juan Juaneda; Pablo Estrella Porter; Lucía de la Puente; Joaquín Navarro; Eva García; Domingo Antonio Sánchez Martínez; Juan Pablo Carrasco Picazo

Ayuda

¿Es capaz GPT-4 de aprobar el MIR 2023? Comparativa entre GPT-4 y ChatGPT-3 en los exámenes MIR 2022 y 2023

Cerame, Alvaro ^[2] ; Juaneda, Juan ^[3] ; Estrella-Porter, Pablo ^[1] ; de la Puente, Lucía ^[4] ; Navarro, Joaquín ^[5] ; García, Eva ^[6] ; Sánchez, Domingo A. ^[7] ; Carrasco, Juan Pablo ^[8]
1. [1] Hospital Clinico Universitario de Valencia
  
  Hospital Clinico Universitario de Valencia
  
  Valencia, España
2. [2] Plan de Atención Integral al Profesional Sanitario Enfermo, Servicio Madrileño de Salud, Madrid
3. [3] Servicio de Medicina Preventiva y Salud Pública, Hospital Universitari i Politècnic La Fe, Valencia
4. [4] Departamento de Atención Primaria, Hospital Universitari i Politècnic La Fe, Valencia
5. [5] Servicio de Cuidados Intensivos, Área de Gestión Sanitaria Norte de Huelva, Huelva
6. [6] Servicio de Cardiología, Complejo Hospitalario Universitario Toledo, Toledo
7. [7] Servicio de Oncología Médica Hospital Universitario Morales Meseguer, Grupo de Oncología Clínica y Translacional IMIB-Arrixaca, Murcia
8. [8] Servicio de Psiquiatría, Hospital Provincial de Castellón, Castellón
Mostrar afiliaciones +
Localización: Revista Española de Educación Médica, ISSN-e 2660-8529, Vol. 5, Nº. 2, 2024 (Ejemplar dedicado a: Spanish Journal of Medical Education), págs. 42-53
Idioma: español
Títulos paralelos:
- Is GPT-4 capable of passing MIR 2023? Comparison between GPT-4 and ChatGPT-3 in the MIR 2022 and 2023 exams
Enlaces
- Texto completo
Resumen
- español
  Introducción: La inteligencia artificial (IA) está generando nuevas controversias, oportunidades y riesgos en la educación médica. Este estudio evalúa la capacidad de las versiones de inteligencia artificial (IA) ChatGPT-3 y GPT-4 para responder a las preguntas del examen de acceso a la formación médica especializada MIR en España, comparando el rendimiento entre las convocatorias de 2022 y 2023.
  
  Metodología: Se realizó un estudio descriptivo transversal, utilizando GPT-4 para responder a las 210 preguntas del examen MIR 2023, comparando los resultados con los de ChatGPT-3 en el examen MIR 2022. Se utilizó análisis estadístico para determinar el porcentaje de acierto en función de la especialidad, tipo de pregunta y contenido de la misma.
  
  Resultados: GPT-4 consiguió 173 aciertos de un total de 210 preguntas, rendimiento superior al de ChatGPT-3, que obtuvo 108 aciertos en el examen de la convocatoria anterior. Se observó una mejora notable en especialidades como Reumatología, Pediatría, Geriatría y Oncología, aunque algunos campos como Neumología y Oftalmología mostraron menos progreso o incluso resultados inferiores.
  
  Conclusión: GPT-4 demostró un mejor rendimiento en comparación con ChatGPT-3, indicando avances en el procesamiento y análisis de datos por parte de la IA, así como en su comprensión contextual y aplicación de conocimientos médicos. Sin embargo, se enfatiza la importancia de reconocer las limitaciones de la IA y la necesidad de un enfoque crítico en su uso en educación médica.
- English
  Introduction: Artificial intelligence (AI) is generating new controversies, opportunities and challenges in medical education. This study evaluates the ability of artificial intelligence (AI) versions ChatGPT-3 and GPT-4 to answer MIR exam questions of the entrance exam in the specialized training in Spain, comparing performance between the 2022 and 2023 exams.
  
  Methodology: A descriptive cross-sectional study was conducted, using GPT-4 to answer the 210 questions of the MIR 2023 exam, comparing the results with those of ChatGPT-3 in the MIR 2022 exam. Statistical analysis was used to determine the percentage of correct answers according to speciality, type of question, and question content.
  
  Results: GPT-4 achieved 173 correct answers out of 210 questions, a higher performance than ChatGPT-3, which obtained 108 correct answers in the previous exam. A marked improvement was observed in specialties such as Rheumatology, Paediatrics, Geriatrics and Oncology, although some fields such as Pneumology and Ophthalmology showed less progress or even lower results.
  
  Conclusion: GPT-4 demonstrated better performance compared to ChatGPT-3, indicating advances in AI data processing and analysis, as well as in its contextual understanding and application of medical knowledge. However, the article emphasizes the importance of recognising the limitations of AI and the need for a critical approach in medical education.