Resumen
Comparación de las respuestas a preguntas sobre intoxicaciones generadas por sistemas de inteligencia artificial y las creadas por toxicólogos clínicos
Filiación de los autores
DOI
Cita
Nogué-Xarau S, Ríos-Guillermo J, Amigó-Tadín M y Grupo de Trabajo de Toxicología de la Societat Catalana de Medicina d’Urgències i Emergències (SoCMUETox). Comparación de las respuestas a preguntas sobre intoxicaciones generadas por sistemas de inteligencia artificial y las creadas por toxicólogos clínicos. Emergencias. 2024;36:351-8
Resumen
Objetivos.
Formular preguntas sobre intoxicaciones a cuatro sistemas de inteligencia artificial (IA) y a cuatro toxicólogos clínicos (TC)
y constatar si un grupo de observadores es capaz de identificar el origen de las respuestas. Valorar la calidad del texto y el nivel de
conocimientos ofrecidos por estas IA y compararlos con el de los TC.
Método.
Se prepararon 10 preguntas de toxicología y se introdujeron en cuatro sistemas de IA (Copilot, Bard, LuzIA y ChatGPT). Se
solicitó a cuatro TC que respondiesen a las mismas preguntas. Se consiguieron 24 observadores expertos en toxicología y se les remitió un
cuestionario con 10 preguntas y cada una de ellas con una respuesta procedente de una IA y otra de un TC. Cada observador tenía que
decidir la procedencia de las respuestas, valorar la calidad del texto y cuantificar el nivel de conocimientos sobre el tema.
Resultados.
De las 240 respuestas que analizaron los observadores y que procedían de alguna IA, en 21 ocasiones (8,8%) opinaron que con certeza provenían de un TC, en 38 (15,8%) que procedían probablemente de un TC y en 13 (5,4%) reconocían que no podían establecer el origen de la respuesta. LuzIA y ChatGPT mostraron una mayor capacidad de engaño a los observadores, con diferencias significativas respecto a Bard (p = 0,036 y p = 0,041, respectivamente). Con relación a la calidad de los textos de las respuestas ofrecidas por las IA, la valoración de los observadores fue de excelente en el 38,8% de las ocasiones, con una diferencia significativa en favor de ChatGPT (61,3% de respuestas excelentes) respecto a Bard (34,4%, p < 0,001), LuzIA (31,7%, p < 0,001) y Copilot (26,3%, p < 0,001). Respecto a la percepción de conocimientos sobre el tema por parte de las IA, la puntuación media de fue de 7,23 (DE 1,57) sobre 10, obteniendo ChatGPT una puntuación de 8,03 (DE 1,26) que fue mayor a la obtenida por Luzia [7,02 (DE 1,63), p < 0,001], Bard [6,91 (1,64), p < 0,001] y Copilot [6,91 (1,46), p < 0,001].
Conclusiones.
LuzIA y ChatGPT son sistemas de IA capaces de generar respuestas a preguntas de toxicología que, con frecuencia, parecen haber sido respondidas por un TC. La calidad de los textos generados y la percepción de conocimientos que ofrece ChatGPT es muy elevada.