Algunos dispositivos médicos de IA aprobados por la FDA no se evalúan 'adecuadamente', según un estudio de Stanford

Nodo de origen: 808637

Únase a Transform 2021 del 12 al 16 de julio. Registrarse for el evento de IA del año.


Algunos dispositivos médicos con tecnología de inteligencia artificial aprobados por la Administración de Drogas y Alimentos de los EE. UU. (FDA) son vulnerables a los cambios de datos y al sesgo contra los pacientes subrepresentados. Eso es de acuerdo con Stanford. estudio publicado en Nature Medicine la semana pasada, que descubrió que incluso a medida que la IA se integra en más dispositivos médicos (la FDA aprobó más de 65 dispositivos de IA el año pasado), la precisión de estos algoritmos no se está estudiando necesariamente de manera rigurosa.

Aunque la comunidad académica ha comenzado a desarrollar pautas para los ensayos clínicos de IA, no existen prácticas establecidas para evaluar algoritmos comerciales. En los EE. UU., La FDA es responsable de aprobar los dispositivos médicos con tecnología de inteligencia artificial, y la agencia publica regularmente información sobre estos dispositivos, incluidos los datos de rendimiento.

Los coautores de la investigación de Stanford crearon una base de datos de dispositivos médicos de IA aprobados por la FDA y analizaron cómo se probó cada uno antes de obtener la aprobación. Casi todos los dispositivos impulsados ​​por IA (126 de 130) aprobados por la FDA entre enero de 2015 y diciembre de 2020 solo se sometieron a estudios retrospectivos en el momento de su presentación, según los investigadores. Y ninguno de los 54 dispositivos de alto riesgo aprobados fue evaluado por estudios prospectivos, lo que significa que los datos de prueba se recopilaron antes de que los dispositivos fueran aprobados y no al mismo tiempo que se implementaron.

Los coautores argumentan que los estudios prospectivos son necesarios, particularmente para los dispositivos médicos de IA, porque el uso en el campo puede desviarse del uso previsto. Por ejemplo, la mayoría de los dispositivos de diagnóstico asistidos por computadora están diseñados para ser herramientas de soporte de decisiones en lugar de herramientas de diagnóstico primarias. Un estudio prospectivo podría revelar que los médicos están haciendo un mal uso de un dispositivo para el diagnóstico, lo que lleva a resultados que difieren de los esperados.

Existe evidencia que sugiere que estas desviaciones pueden dar lugar a errores. El seguimiento realizado por la Autoridad de Seguridad del Paciente de Pensilvania en Harrisburg descubrió que desde enero de 2016 hasta diciembre de 2017, los sistemas de HCE fueron responsables de 775 problemas durante las pruebas de laboratorio en el estado, con interacciones entre humanos y computadoras responsables del 54.7% de los eventos y el 45.3% restante causado por un ordenador. Además, un borrador del informe del gobierno de los EE. UU. Emitido en 2018 encontró que los médicos no suelen perder alertas, algunas informadas por IA, que van desde problemas menores sobre las interacciones de los medicamentos hasta aquellos que presentan riesgos considerables.

Los investigadores de Stanford también encontraron una falta de diversidad de pacientes en las pruebas realizadas en dispositivos aprobados por la FDA. Entre los 130 dispositivos, 93 no se sometieron a una evaluación de varios sitios, mientras que 4 se probaron en un solo sitio y 8 dispositivos en solo dos sitios. Y los informes de 59 dispositivos no mencionaron el tamaño de la muestra de los estudios. De los 71 estudios de dispositivos que tenían esta información, el tamaño medio fue de 300 y solo 17 estudios de dispositivos consideraron cómo podría funcionar el algoritmo en diferentes grupos de pacientes.

En parte debido a la reticencia a publicar códigos, conjuntos de datos y técnicas, gran parte de los datos que se utilizan hoy en día para entrenar algoritmos de inteligencia artificial para diagnosticar enfermedades podrían perpetuar las desigualdades, según han demostrado estudios anteriores. Un equipo de científicos del Reino Unido encontrado que casi todos los conjuntos de datos de enfermedades oculares provienen de pacientes en América del Norte, Europa y China, lo que significa que es menos seguro que los algoritmos de diagnóstico de enfermedades oculares funcionen bien para grupos raciales de países subrepresentados. En otro estudio , investigadores de la Universidad de Toronto, el Vector Institute y el MIT demostraron que conjuntos de datos de rayos X de tórax ampliamente utilizados codificar prejuicios raciales, de género y socioeconómicos.

Más allá de los desafíos básicos del conjunto de datos, los modelos que carecen de suficiente revisión por pares pueden encontrar obstáculos imprevistos cuando se implementan en el mundo real. Científicos de Harvard encontrado que los algoritmos entrenados para reconocer y clasificar las tomografías computarizadas podrían inclinarse hacia los formatos de exploración de ciertos fabricantes de máquinas de tomografía computarizada. Mientras tanto, una publicación de Google whitepaper reveló desafíos en la implementación de un sistema de predicción de enfermedades oculares en los hospitales de Tailandia, incluidos problemas con la precisión del escaneo. Y estudios realizados por empresas como Salud de babilonia, una startup de telemedicina bien financiada que afirma poder clasificar una variedad de enfermedades a partir de mensajes de texto, ha sido cuestionada repetidamente.

Los coautores del estudio de Stanford argumentan que la información sobre el número de sitios en una evaluación debe ser "reportada de manera consistente" para que los médicos, investigadores y pacientes puedan emitir juicios informados sobre la confiabilidad de un dispositivo médico de IA dado. Las evaluaciones de múltiples sitios son importantes para comprender el sesgo algorítmico y la confiabilidad, dicen, y pueden ayudar a tener en cuenta las variaciones en el equipo, los estándares técnicos, los formatos de almacenamiento de imágenes, la composición demográfica y la prevalencia de enfermedades.

"La evaluación del rendimiento de los dispositivos de IA en múltiples sitios clínicos es importante para garantizar que los algoritmos funcionen bien en poblaciones representativas", escribieron los coautores. “Fomentar los estudios prospectivos en comparación con el estándar de atención reduce el riesgo de sobreajuste perjudicial y captura con mayor precisión los resultados clínicos reales. La vigilancia posterior a la comercialización de los dispositivos de IA también es necesaria para comprender y medir los resultados no deseados y los sesgos que no se detectan en un ensayo multicéntrico prospectivo ".

VentureBeat

La misión de VentureBeat es ser una plaza urbana digital para que los responsables de la toma de decisiones técnicas obtengan conocimientos sobre tecnología transformadora y realicen transacciones. Nuestro sitio brinda información esencial sobre tecnologías y estrategias de datos para guiarlo mientras dirige sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:

  • información actualizada sobre los temas de su interés
  • nuestros boletines
  • contenido exclusivo de líderes de opinión y acceso con descuento a nuestros preciados eventos, como Transformar NO: Aprende más
  • funciones de red y más

Conviértete en miembro

Fuente: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluate-stanford-study-says/

Sello de tiempo:

Mas de VentureBeat