Alcuni dispositivi medici basati sull’intelligenza artificiale approvati dalla FDA non vengono valutati “adeguatamente”, afferma lo studio di Stanford

Nodo di origine: 808637

Unisciti a Transform 2021 dal 12 al 16 luglio. Registrati perr l'evento AI dell'anno.


Alcuni dispositivi medici basati sull’intelligenza artificiale approvati dalla Food and Drug Administration (FDA) statunitense sono vulnerabili agli spostamenti di dati e ai pregiudizi nei confronti dei pazienti sottorappresentati. Questo secondo uno studio di Stanford studio pubblicato nella Nature Medicine la settimana scorsa, che ha scoperto che anche se l’intelligenza artificiale viene incorporata in più dispositivi medici – la FDA ha approvato oltre 65 dispositivi di intelligenza artificiale l’anno scorso – l’accuratezza di questi algoritmi non viene necessariamente studiata rigorosamente.

Sebbene la comunità accademica abbia iniziato a sviluppare linee guida per gli studi clinici sull’intelligenza artificiale, non esistono pratiche consolidate per la valutazione degli algoritmi commerciali. Negli Stati Uniti, la FDA è responsabile dell’approvazione dei dispositivi medici basati sull’intelligenza artificiale e l’agenzia pubblica regolarmente informazioni su questi dispositivi, compresi i dati sulle prestazioni.

I coautori della ricerca di Stanford hanno creato un database di dispositivi medici di intelligenza artificiale approvati dalla FDA e hanno analizzato il modo in cui ciascuno di essi è stato testato prima di ottenere l’approvazione. Secondo i ricercatori, quasi tutti i dispositivi basati sull’intelligenza artificiale – 126 su 130 – approvati dalla FDA tra gennaio 2015 e dicembre 2020 sono stati sottoposti solo a studi retrospettivi al momento della presentazione. E nessuno dei 54 dispositivi ad alto rischio approvati è stato valutato da studi prospettici, il che significa che i dati dei test sono stati raccolti prima che i dispositivi fossero approvati piuttosto che in concomitanza con la loro implementazione.

I coautori sostengono che sono necessari studi prospettici, in particolare per i dispositivi medici basati sull’intelligenza artificiale, perché l’utilizzo sul campo può discostarsi dall’uso previsto. Ad esempio, la maggior parte dei dispositivi diagnostici assistiti da computer sono progettati per essere strumenti di supporto alle decisioni piuttosto che strumenti diagnostici primari. Uno studio prospettico potrebbe rivelare che i medici stanno abusando di un dispositivo per la diagnosi, portando a risultati diversi da quelli attesi.

Esistono prove che suggeriscono che queste deviazioni possono portare a errori. Il monitoraggio effettuato dalla Pennsylvania Patient Safety Authority di Harrisburg ha rilevato che da gennaio 2016 a dicembre 2017, i sistemi EHR sono stati responsabili di 775 problemi durante i test di laboratorio nello stato, con interazioni uomo-computer responsabili del 54.7% degli eventi e il restante 45.3% causato da un computer. Inoltre, una bozza di rapporto del governo degli Stati Uniti pubblicata nel 2018 ha rilevato che non di rado i medici perdono avvisi – alcuni informati dall’intelligenza artificiale – che vanno da problemi minori sulle interazioni farmacologiche a quelli che comportano rischi considerevoli.

I ricercatori di Stanford hanno anche riscontrato una mancanza di diversità dei pazienti nei test condotti sui dispositivi approvati dalla FDA. Dei 130 dispositivi, 93 non sono stati sottoposti a valutazione multisito, mentre 4 sono stati testati in un solo sito e 8 dispositivi solo in due siti. E i rapporti relativi a 59 dispositivi non menzionavano la dimensione del campione degli studi. Dei 71 studi sui dispositivi che contenevano queste informazioni, la dimensione mediana era di 300 e solo 17 studi sui dispositivi hanno considerato come l’algoritmo potrebbe funzionare su diversi gruppi di pazienti.

Studi precedenti hanno dimostrato, in parte a causa della reticenza a rilasciare codici, set di dati e tecniche, che gran parte dei dati utilizzati oggi per addestrare algoritmi di intelligenza artificiale per la diagnosi delle malattie potrebbero perpetuare le disuguaglianze. Un team di scienziati britannici essere trovato che quasi tutti i set di dati sulle malattie degli occhi provengono da pazienti in Nord America, Europa e Cina, il che significa che gli algoritmi di diagnosi delle malattie degli occhi hanno meno probabilità di funzionare bene per i gruppi razziali dei paesi sottorappresentati. In un altro studio, ricercatori dell'Università di Toronto, del Vector Institute e del MIT hanno dimostrato che i set di dati sui raggi X del torace sono ampiamente utilizzati codificare pregiudizi razziali, di genere e socioeconomici.

Al di là delle sfide di base dei set di dati, i modelli privi di sufficiente peer review possono incontrare ostacoli imprevisti quando vengono implementati nel mondo reale. Scienziati ad Harvard essere trovato che gli algoritmi addestrati a riconoscere e classificare le scansioni TC potrebbero essere influenzati dai formati di scansione di alcuni produttori di macchine TC. Nel frattempo, Google ha pubblicato whitepaper ha rivelato sfide nell’implementazione di un sistema di previsione delle malattie degli occhi negli ospedali tailandesi, compresi problemi con la precisione della scansione. E studi condotti da aziende come Babylon Health, una startup di telemedicina ben finanziata che afferma di essere in grado di individuare una serie di malattie tramite messaggi di testo, è stata più volte messa in discussione.

I coautori dello studio di Stanford sostengono che le informazioni sul numero di siti in una valutazione devono essere “riportate in modo coerente” affinché medici, ricercatori e pazienti possano esprimere giudizi informati sull’affidabilità di un determinato dispositivo medico basato sull’intelligenza artificiale. Le valutazioni multisito sono importanti per comprendere i bias e l’affidabilità degli algoritmi, dicono, e possono aiutare a tenere conto delle variazioni nelle apparecchiature, negli standard tecnici, nei formati di archiviazione delle immagini, nella composizione demografica e nella prevalenza delle malattie.

“Valutare le prestazioni dei dispositivi IA in più siti clinici è importante per garantire che gli algoritmi funzionino bene in popolazioni rappresentative”, hanno scritto i coautori. “Incoraggiare studi prospettici rispetto allo standard di cura riduce il rischio di un dannoso overfitting e cattura in modo più accurato i veri risultati clinici. La sorveglianza post-commercializzazione dei dispositivi di intelligenza artificiale è necessaria anche per comprendere e misurare i risultati non desiderati e i bias che non vengono rilevati in studi prospettici multicentrici”.

VentureBeat

La missione di VentureBeat è quella di essere una piazza cittadina digitale per i responsabili delle decisioni tecniche per acquisire conoscenze sulla tecnologia trasformativa e sulle transazioni. Il nostro sito fornisce informazioni essenziali sulle tecnologie e strategie dei dati per guidarti mentre guidi le tue organizzazioni. Ti invitiamo a diventare un membro della nostra community, per accedere a:

  • informazioni aggiornate sugli argomenti di tuo interesse
  • le nostre newsletter
  • contenuti gated leader di pensiero e accesso scontato ai nostri eventi pregiati, come Trasforma NO: Per saperne di più
  • funzionalità di rete e altro ancora

Diventa member

Fonte: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Timestamp:

Di più da VentureBeat