Valencia, España
Introducción. Evaluar el rendimiento diagnóstico para la detección de anomalías de dos sistemas comerciales de inteligencia artificial (IA), ChestView para radiografías de tórax (RxT) y BoneView para radiografías óseas (RxO), en un servicio de urgencias hospitalario (SUH), y comparar su validez con la de observadores de diferente perfil profesional yexperiencia: urgenciólogos, radiólogos en formación y radiólogos expertos.
Método. Estudio de evaluación de pruebas diagnósticas en una selección aleatoria de 346 RxT y 261 RxO solicitadas en urgencias. Las exploraciones fueron analizadas de forma independiente por los sistemas de IA y los diferentes observadores. El diagnóstico de referencia (gold standard) fue establecido mediante consenso por tres radiólogos, recurriendo a otras pruebas de imagen disponibles o información clínica cuando era necesario. Se calcularon y compararon la sensibilidad, especificidad, y los valores predictivos positivo y negativo (VPN).
Resultados. Para la RxT, la IA (ChestView) mostró una sensibilidad global (64,4%) significativamente superior a la de los médicos de urgencias (49,2%; p = 0,018), aunque inferior a la del radiólogo experto (83,9%; p < 0,001). El rendimiento fue notable para la detección de nódulos/masas (sensibilidad 80,0%) y neumotórax (VPN 99,7%), pero inferior para consolidaciones (sensibilidad 40,4%). Para RxO, la IA (BoneView) alcanzó una sensibilidad para la detección de fracturas (87,5%) superior a la del radiólogo experto (77,1%), con un VPN del 96,9%. Sin embargo, su rendimiento fue menor para la detección de luxaciones (sensibilidad 60,0%) y derrames articulares (sensibilidad 25,0%).
Conclusión. Los sistemas de IA evaluados demuestran un rendimiento clínicamente relevante en el entorno de urgencias, y mejorar significativamente la capacidad diagnóstica de los urgenciólogos. Su elevada sensibilidad para la detección de fracturas y su elevado VPN para los nódulos pulmonares, neumotórax y fracturas hacen que se consolide como un sistema de seguridad de alto impacto
Introduction. To evaluate the diagnostic performance of two commercial artificial intelligence (AI) systems— ChestView for chest radiographs (CXR) and BoneView for bone radiographs (BXR)—in an emergency department (ED), and compare their validity with that of observers with different professional profiles and levels of experience: emergency physicians, radiology trainees, and expert radiologists.
Method. We conducted a diagnostic test evaluation study on a random selection of 346 CXRs and 261 BXRs requested in the ED. Examinations were independently analysed by the AI systems and the various observers. The reference diagnosis (gold standard) was established by consensus among 3 radiologists, resorting to additional imaging tests or clinical information when necessary. Sensitivity, specificity, and positive and negative (NPV) predictive values were then calculated and compared.
Results. For CXRs, AI (ChestView) showed overall sensitivity (64.4%) significantly higher than that of emergency physicians (49.2%; P = .018), although lower than that of the expert radiologist (83.9%; P < .001). Performance was notable for the detection of nodules/masses (sensitivity 80.0%) and pneumothorax (NPV, 99.7%), but lower for consolidations (sensitivity, 40.4%). For BXRs, AI (BoneView) achieved sensitivity for fracture detection (87.5%) higer than that of the expert radiologist (77.1%), with an NPV of 96.9%. However, its performance was lower for detecting dislocations (sensitivity 60.0%) and joint effusions (25.0%).
Conclusions. The evaluated AI systems demonstrate clinically relevant performance in the emergency setting, significantly enhancing the diagnostic capacity of emergency physicians. Their high sensitivity for fracture detection and high NPV for pulmonary nodules, pneumothorax, and fractures establish them as a high-impact safety tool.
© 2001-2026 Fundación Dialnet · Todos los derechos reservados