Fiabilidad y validez de un sistema asistido por inteligencia artificial para la detección de anomalías en las radiografías de tórax y óseas en un servicio de urgencias hospitalario

Raissa de Fátima Silva Afonso; Pilar Gallardo Rodríguez; Begoña Espinosa; Alejandro Bautista; Francisco Javier Serrano Martínez; Mónica Veguillas Benito; María Corell; Raúl Pablo Garrido Chamorro; Juan José Arenas Jiménez; Celia Astor Rodríguez; Álvaro Abellón Fernández; Álvaro Palazón Ruíz de Tremiño; María Javiera Garfias Baladrón; Víctor Marquina; Pablo Chico Sánchez; Paula Gras Valentí; Miguel Cabrer González; Carlos Martínez Riera; David Moliner Mateu; Jose María Salinas; Emilio Pedro Vivancos Rubio; Bernardo Valdivieso Martínez; Luis Concepción-Aramendia; José Sánchez Payá; Pedro Llorens Soriano

Ayuda

Fiabilidad y validez de un sistema asistido por inteligencia artificial para la detección de anomalías en las radiografías de tórax y óseas en un servicio de urgencias hospitalario

Raissa de Fátima Silva Afonso ^[2] ; Pilar Gallardo Rodríguez ^[2] ; Begoña Espinosa ^[2] ; Alejandro Bautista ^[2] ; Javier Serrano ^[2] ; Mónica Veguillas ^[2] ; María Corell ^[2] ; Raúl Garrido Chamorro ^[2] ; Juan Arenas Jiménez ^[2] ; Celia Astor Rodríguez ^[2] ; Álvaro Abellón Fernández ^[2] ; Álvaro Palazón Ruíz de Tremiño ^[2] ; María Javiera Garfias Baladrón ^[2] ; Víctor Marquina Arribas ^[2] ; Pablo Chico Sánchez ^[2] ; Paula Gras Valenti ^[2] ; Miguel Cabrer González ^[3] ; Carlos Martínez Riera ^[1] ; David Moliner Mateu ^[1] ; José María Salinas Serrano ^[4] ; Emilio Vivancos Rubio ^[1] ; Bernardo Valdivieso Martínez ^[1] ; Luis Concepción Aramendia ^[2] ; José Sánchez Payá ^[2] ; Pere Llorens ^[2]
1. [1] Generalitat Valenciana
  
  Generalitat Valenciana
  
  Valencia, España
2. [2] Hospital General Doctor Balmis, Alicante
3. [3] Plataforma digital Idonia, Barcelona
4. [4] Hospital San Juan, Alicante
Mostrar afiliaciones +
Localización: Emergencias: Revista de la Sociedad Española de Medicina de Urgencias y Emergencias, ISSN 1137-6821, Vol. 37, Nº. 6, 2025, págs. 420-426
Idioma: español
Títulos paralelos:
- Reliability and validity of an artificial intelligence-assisted system for the detection of abnormalities in chest and bone radiographs in an emergency department
Enlaces
- Texto completo (pdf)
Resumen
- español
  Introducción. Evaluar el rendimiento diagnóstico para la detección de anomalías de dos sistemas comerciales de inteligencia artificial (IA), ChestView para radiografías de tórax (RxT) y BoneView para radiografías óseas (RxO), en un servicio de urgencias hospitalario (SUH), y comparar su validez con la de observadores de diferente perfil profesional yexperiencia: urgenciólogos, radiólogos en formación y radiólogos expertos.
  
  Método. Estudio de evaluación de pruebas diagnósticas en una selección aleatoria de 346 RxT y 261 RxO solicitadas en urgencias. Las exploraciones fueron analizadas de forma independiente por los sistemas de IA y los diferentes observadores. El diagnóstico de referencia (gold standard) fue establecido mediante consenso por tres radiólogos, recurriendo a otras pruebas de imagen disponibles o información clínica cuando era necesario. Se calcularon y compararon la sensibilidad, especificidad, y los valores predictivos positivo y negativo (VPN).
  
  Resultados. Para la RxT, la IA (ChestView) mostró una sensibilidad global (64,4%) significativamente superior a la de los médicos de urgencias (49,2%; p = 0,018), aunque inferior a la del radiólogo experto (83,9%; p < 0,001). El rendimiento fue notable para la detección de nódulos/masas (sensibilidad 80,0%) y neumotórax (VPN 99,7%), pero inferior para consolidaciones (sensibilidad 40,4%). Para RxO, la IA (BoneView) alcanzó una sensibilidad para la detección de fracturas (87,5%) superior a la del radiólogo experto (77,1%), con un VPN del 96,9%. Sin embargo, su rendimiento fue menor para la detección de luxaciones (sensibilidad 60,0%) y derrames articulares (sensibilidad 25,0%).
  
  Conclusión. Los sistemas de IA evaluados demuestran un rendimiento clínicamente relevante en el entorno de urgencias, y mejorar significativamente la capacidad diagnóstica de los urgenciólogos. Su elevada sensibilidad para la detección de fracturas y su elevado VPN para los nódulos pulmonares, neumotórax y fracturas hacen que se consolide como un sistema de seguridad de alto impacto
- English
  Introduction. To evaluate the diagnostic performance of two commercial artificial intelligence (AI) systems— ChestView for chest radiographs (CXR) and BoneView for bone radiographs (BXR)—in an emergency department (ED), and compare their validity with that of observers with different professional profiles and levels of experience: emergency physicians, radiology trainees, and expert radiologists.
  
  Method. We conducted a diagnostic test evaluation study on a random selection of 346 CXRs and 261 BXRs requested in the ED. Examinations were independently analysed by the AI systems and the various observers. The reference diagnosis (gold standard) was established by consensus among 3 radiologists, resorting to additional imaging tests or clinical information when necessary. Sensitivity, specificity, and positive and negative (NPV) predictive values were then calculated and compared.
  
  Results. For CXRs, AI (ChestView) showed overall sensitivity (64.4%) significantly higher than that of emergency physicians (49.2%; P = .018), although lower than that of the expert radiologist (83.9%; P < .001). Performance was notable for the detection of nodules/masses (sensitivity 80.0%) and pneumothorax (NPV, 99.7%), but lower for consolidations (sensitivity, 40.4%). For BXRs, AI (BoneView) achieved sensitivity for fracture detection (87.5%) higer than that of the expert radiologist (77.1%), with an NPV of 96.9%. However, its performance was lower for detecting dislocations (sensitivity 60.0%) and joint effusions (25.0%).
  
  Conclusions. The evaluated AI systems demonstrate clinically relevant performance in the emergency setting, significantly enhancing the diagnostic capacity of emergency physicians. Their high sensitivity for fracture detection and high NPV for pulmonary nodules, pneumothorax, and fractures establish them as a high-impact safety tool.