Certains dispositifs médicaux d'IA approuvés par la FDA ne sont pas évalués `` correctement '', selon une étude de Stanford

Nœud source: 808637

Rejoignez Transform 2021 du 12 au 16 juillet. Inscrivez-vous pourr l'événement IA de l'année.


Certains dispositifs médicaux alimentés par l'IA et approuvés par la Food and Drug Administration (FDA) des États-Unis sont vulnérables aux transferts de données et aux biais contre les patients sous-représentés. C'est selon un Stanford étude publié dans Nature Medicine la semaine dernière, qui a révélé que même si l'IA s'intègre dans davantage de dispositifs médicaux - la FDA a approuvé plus de 65 dispositifs d'IA l'année dernière - la précision de ces algorithmes n'est pas nécessairement étudiée de manière rigoureuse.

Bien que la communauté universitaire ait commencé à élaborer des lignes directrices pour les essais cliniques sur l'IA, il n'existe pas de pratiques établies pour évaluer les algorithmes commerciaux. Aux États-Unis, la FDA est chargée d'approuver les dispositifs médicaux alimentés par l'IA, et l'agence publie régulièrement des informations sur ces dispositifs, y compris des données de performance.

Les co-auteurs de la recherche de Stanford ont créé une base de données des dispositifs médicaux d'IA approuvés par la FDA et analysé la façon dont chacun était testé avant d'être approuvé. Presque tous les appareils alimentés par l'IA - 126 sur 130 - approuvés par la FDA entre janvier 2015 et décembre 2020 n'ont subi que des études rétrospectives lors de leur soumission, selon les chercheurs. Et aucun des 54 dispositifs à haut risque approuvés n'a été évalué par des études prospectives, ce qui signifie que les données de test ont été collectées avant l'approbation des dispositifs plutôt que parallèlement à leur déploiement.

Les co-auteurs soutiennent que des études prospectives sont nécessaires, en particulier pour les dispositifs médicaux d'IA, car l'utilisation sur le terrain peut différer de l'utilisation prévue. Par exemple, la plupart des dispositifs de diagnostic assistés par ordinateur sont conçus pour être des outils d'aide à la décision plutôt que des outils de diagnostic primaires. Une étude prospective pourrait révéler que les cliniciens utilisent mal un appareil pour le diagnostic, conduisant à des résultats différents de ce à quoi on pourrait s'attendre.

Il existe des preuves suggérant que ces écarts peuvent entraîner des erreurs. Le suivi effectué par la Pennsylvania Patient Safety Authority à Harrisburg a révélé que de janvier 2016 à décembre 2017, les systèmes de DSE étaient responsables de 775 problèmes lors des tests de laboratoire dans l'État, les interactions homme-ordinateur étant responsables de 54.7% des événements et les 45.3% restants causés par un ordinateur. En outre, un projet de rapport du gouvernement américain publié en 2018 a révélé que les cliniciens ne manquaient pas rarement des alertes - certaines informées par l'IA - allant de problèmes mineurs liés aux interactions médicamenteuses à ceux qui présentent des risques considérables.

Les chercheurs de Stanford ont également constaté un manque de diversité des patients dans les tests effectués sur des appareils approuvés par la FDA. Parmi les 130 appareils, 93 n'ont pas fait l'objet d'une évaluation multisite, tandis que 4 ont été testés sur un seul site et 8 appareils sur seulement deux sites. Et les rapports pour 59 appareils ne mentionnaient pas la taille de l'échantillon des études. Sur les 71 études sur les appareils qui contenaient ces informations, la taille médiane était de 300, et seulement 17 études sur les appareils ont examiné les performances de l'algorithme sur différents groupes de patients.

En partie en raison d'une réticence à publier du code, des ensembles de données et des techniques, une grande partie des données utilisées aujourd'hui pour former des algorithmes d'IA pour diagnostiquer les maladies pourraient perpétuer les inégalités, ont montré des études précédentes. Une équipe de scientifiques britanniques trouvé que presque tous les ensembles de données sur les maladies oculaires proviennent de patients d'Amérique du Nord, d'Europe et de Chine, ce qui signifie que les algorithmes de diagnostic des maladies oculaires sont moins certains de bien fonctionner pour les groupes raciaux des pays sous-représentés. En autre étude, des chercheurs de l'Université de Toronto, du Vector Institute et du MIT ont montré que les ensembles de données de radiographie pulmonaire largement utilisés encoder préjugés raciaux, sexistes et socio-économiques.

Au-delà des défis de base des ensembles de données, les modèles qui ne sont pas suffisamment examinés par les pairs peuvent rencontrer des obstacles imprévus lorsqu'ils sont déployés dans le monde réel. Scientifiques à Harvard trouvé que les algorithmes formés pour reconnaître et classer les tomodensitogrammes pourraient devenir biaisés en faveur des formats de numérisation de certains fabricants de machines CT. Pendant ce temps, une publication publiée par Google whitepaper a révélé les défis liés à la mise en œuvre d'un système de prévision des maladies oculaires dans les hôpitaux thaïlandais, y compris des problèmes de précision des numérisations. Et des études menées par des entreprises comme Santé Babylon, une start-up de télémédecine bien financée qui prétend être en mesure de trier une gamme de maladies à partir de messages texte, a été remise en question à plusieurs reprises.

Les co-auteurs de l'étude de Stanford soutiennent que les informations sur le nombre de sites dans une évaluation doivent être «régulièrement rapportées» afin que les cliniciens, les chercheurs et les patients puissent porter des jugements éclairés sur la fiabilité d'un dispositif médical d'IA donné. Les évaluations multisites sont importantes pour comprendre le biais algorithmique et la fiabilité, disent-ils, et peuvent aider à tenir compte des variations de l'équipement, des normes des techniciens, des formats de stockage d'images, de la composition démographique et de la prévalence de la maladie.

«Il est important d'évaluer les performances des dispositifs d'IA sur plusieurs sites cliniques pour garantir que les algorithmes fonctionnent bien dans des populations représentatives», ont écrit les coauteurs. «Encourager les études prospectives par rapport à la norme de soins réduit le risque de surajustement nocif et capture plus précisément les vrais résultats cliniques. La surveillance post-commercialisation des dispositifs d'IA est également nécessaire pour comprendre et mesurer les résultats et les biais non intentionnels qui ne sont pas détectés dans un essai prospectif multicentrique. »

VentureBeat

La mission de VentureBeat est d'être une place de ville numérique permettant aux décideurs techniques d'acquérir des connaissances sur la technologie transformatrice et d'effectuer des transactions. Notre site fournit des informations essentielles sur les technologies de données et les stratégies pour vous guider dans la conduite de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder:

  • des informations à jour sur les sujets qui vous intéressent
  • nos newsletters
  • contenu de leader d'opinion fermé et accès à prix réduit à nos événements prisés, tels que Transformer 2021: Apprendre encore plus
  • fonctionnalités de mise en réseau, et plus

Devenir membre

Source: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-orrectately-evaluated-stanford-study-says/

Horodatage:

Plus de VentureBeat