Fiabilidad y validez de un sistema asistido por inteligencia artificial para la detección de anomalías en las radiografías de tórax y óseas en un servicio de urgencias hospitalario
Raissa de Fátima Silva Afonso1,7, Pilar Gallardo-Rodríguez1,7, Begoña Espinosa2,7, Alejandro Bautista2, Javier Serrano2, Mónica Veguillas2, María Corell2, Raúl Garrido Chamorro2, Juan Arenas Jiménez3,7, Celia Astor Rodríguez3, Álvaro Abellón Fernández3, Álvaro Palazón Ruíz de Tremiño3, María Javiera Garfias Baladrón3, Víctor Marquina Arribas3, Pablo Chico-Sánchez1,7,8, Paula Gras Valenti1,7,8, Miguel Cabrer González4, Carlos Martínez Riera5, David Moliner Mateu5, José María Salinas Serrano6, Emilio Vivancos Rubio5,9, Bernardo Valdivieso Martínez5, Luis Concepción-Aramendia3,7,8 José Sanchez-Payá1,7 Pere Llorens2,7,8
Filiación de los autores
1Servicio de Medicina Preventiva, Hospital General Doctor Balmis, Alicante, España. 2Servicio de Urgencias, Unidad de Corta Estancia y Hospitalización a Domicilio, Hospital General Doctor Balmis, Alicante, España. 3Servicio de Radiodiagnóstico, Hospital General Doctor Balmis, Alicante, España. 4Plataforma digital Idonia, Barcelona, España. 5Secretaría Autonómica de Planificación, Información, y Transformación Digital, Conselleria de Sanitat, Generalitat Valenciana. 6Servicio de Informática, Hospital San Juan, Alicante, España. 7Instituto de Investigación Sanitaria y Biomédica de Alicante, ISABIAL, España. 8Universidad de Alicante, Alicante, España. 9Valencian Research Institute for Artificial Intelligence (VRAIN), España.
Silva Afonso RF, Gallardo-Rodríguez P, Espinosa B, Bautista A, Serrano J, Veguillas M, et al. Fiabilidad y validez de un sistema asistido por inteligencia artificial para la detección de anomalías en las radiografías de tórax y óseas en un servicio de urgencias hospitalario. Emergencias. ;:-
Resumen
Introducción. Evaluar el rendimiento diagnóstico para la detección de anomalías de dos sistemas comerciales de inteligencia artificial (IA), ChestView para radiografías de tórax (RxT) y BoneView para radiografías óseas (RxO), en un servicio de urgencias hospitalario (SUH), y comparar su validez con la de observadores de diferente perfil profesional y experiencia: urgenciólogos, radiólogos en formación y radiólogos expertos.
Método.
Estudio de evaluación de pruebas diagnósticas en una selección aleatoria de 346 RxT y 261 RxO solicitadas en urgencias. Las exploraciones fueron analizadas de forma independiente por los sistemas de IA y los diferentes observadores. El diagnóstico de referencia (gold standard) fue establecido mediante consenso por tres radiólogos, recurriendo a otras pruebas de imagen disponibles o información clínica cuando era necesario. Se calcularon y compararon la sensibilidad, especificidad, y los valores predictivos positivo y negativo (VPN).
Resultados.
Para la RxT, la IA (ChestView) mostró una sensibilidad global (64,4%) significativamente superior a la de los médicos de urgencias (49,2%; p = 0,018), aunque inferior a la del radiólogo experto (83,9%; p < 0,001). El rendimiento fue notable para la detección de nódulos/masas (sensibilidad 80,0%) y neumotórax (VPN 99,7%), pero inferior para consolidaciones (sensibilidad 40,4%). Para RxO, la IA (BoneView) alcanzó una sensibilidad para la detección de fracturas (87,5%) superior a la del radiólogo experto (77,1%), con un VPN del 96,9%. Sin embargo, su rendimiento fue menor para la detección de luxaciones (sensibilidad 60,0%) y derrames articulares (sensibilidad 25,0%).
Conclusión.
Los sistemas de IA evaluados demuestran un rendimiento clínicamente relevante en el entorno de urgencias, y mejorar significativamente la capacidad diagnóstica de los urgenciólogos. Su elevada sensibilidad para la detección de fracturas y su elevado VPN para los nódulos pulmonares, neumotórax y fracturas hacen que se consolide como un sistema de seguridad de alto impacto.