Egyes, az FDA által jóváhagyott mesterséges intelligencia orvosi eszközöket nem értékelnek „megfelelően” – állítja a Stanfordi tanulmány

Forrás csomópont: 808637

Csatlakozzon a Transform 2021-hez július 12-16. Regisztráció for az év mesterséges intelligencia eseménye.


Egyes, az Egyesült Államok Élelmiszer- és Gyógyszerügyi Hatósága (FDA) által jóváhagyott mesterséges intelligenciával működő orvosi eszközök érzékenyek az adateltolódásokra és az alulreprezentált betegekkel szembeni torzításra. Ez egy Stanford szerint tanulmány kiadva Nature Medicine A múlt héten megállapították, hogy bár a mesterséges intelligencia egyre több orvosi eszközbe épül be – az FDA tavaly több mint 65 mesterségesintelligencia-eszközt hagyott jóvá –, ezen algoritmusok pontosságát nem feltétlenül vizsgálják szigorúan.

Bár az akadémiai közösség megkezdte az AI klinikai vizsgálatokra vonatkozó irányelvek kidolgozását, nincsenek bevett gyakorlatok a kereskedelmi algoritmusok értékelésére. Az Egyesült Államokban az FDA felelős a mesterséges intelligencia által működtetett orvosi eszközök jóváhagyásáért, és az ügynökség rendszeresen közzétesz információkat ezekről az eszközökről, beleértve a teljesítményadatokat is.

A Stanford-kutatás társszerzői létrehoztak egy adatbázist az FDA által jóváhagyott orvosi mesterséges intelligencia eszközökről, és elemezték, hogyan tesztelték mindegyiket, mielőtt jóváhagyták. A kutatók szerint az FDA által 126 januárja és 130 decembere között jóváhagyott mesterséges intelligenciával működő eszközök szinte mindegyike – 2015-ból 2020 – csak retrospektív vizsgálaton esett át. Az 54 jóváhagyott nagy kockázatú eszköz egyikét sem értékelték prospektív tanulmányok, ami azt jelenti, hogy a tesztadatokat az eszközök jóváhagyása előtt gyűjtötték, nem pedig a telepítéssel egyidejűleg.

A társszerzők azzal érvelnek, hogy prospektív tanulmányokra van szükség, különösen az AI orvosi eszközök esetében, mivel a helyszíni használat eltérhet a tervezett felhasználástól. Például a legtöbb számítógéppel támogatott diagnosztikai eszközt inkább döntéstámogató eszköznek tervezték, mint elsődleges diagnosztikai eszköznek. Egy prospektív tanulmány feltárhatja, hogy a klinikusok visszaélnek egy eszközzel a diagnózis felállításához, ami a várttól eltérő eredményekhez vezet.

Bizonyítékok vannak arra, hogy ezek az eltérések hibákhoz vezethetnek. A Pennsylvaniai Betegbiztonsági Hatóság Harrisburgban végzett nyomon követése szerint 2016 januárja és 2017 decembere között az EHR-rendszerek 775 problémáért voltak felelősek a laboratóriumi vizsgálatok során az államban, az események 54.7%-áért az ember-számítógép interakciók felelősek, a fennmaradó 45.3%-ot pedig az okozta. egy számítógép. Ezenkívül az Egyesült Államok kormányának 2018-ban kiadott jelentéstervezete megállapította, hogy a klinikusok gyakran figyelmen kívül hagyják a – egyes esetekben mesterséges intelligencia – figyelmeztetéseket, a gyógyszerkölcsönhatásokkal kapcsolatos kisebb problémáktól a jelentős kockázatokat jelentő problémákig.

A stanfordi kutatók azt is megállapították, hogy az FDA által jóváhagyott eszközökön végzett tesztek során hiányzik a betegek sokfélesége. A 130 eszköz közül 93 nem esett át több helyszínen történő értékelésen, míg 4 készüléket csak egy helyszínen, 8 eszközt pedig csak két helyszínen teszteltek. Az 59 készülékre vonatkozó jelentések pedig nem említették a vizsgálatok mintanagyságát. Az ezzel az információval rendelkező 71 eszközvizsgálatból a medián méret 300 volt, és mindössze 17 eszközvizsgálat foglalkozott azzal, hogy az algoritmus hogyan teljesíthet különböző betegcsoportokon.

Korábbi tanulmányok kimutatták, hogy részben a kódok, adatkészletek és technikák kiadásától való visszafogottság miatt a betegségek diagnosztizálására szolgáló mesterséges intelligencia-algoritmusok képzésére jelenleg használt adatok nagy része fenntartja az egyenlőtlenségeket. Egy brit tudóscsoport talált hogy szinte minden szembetegség adatkészlet észak-amerikai, európai és kínai betegektől származik, ami azt jelenti, hogy a szembetegség-diagnosztikai algoritmusok kevésbé biztosak, hogy jól működnek az alulreprezentált országok faji csoportjai számára. Egy másikban tanulmány, a Torontói Egyetem, a Vector Institute és az MIT kutatói kimutatták, hogy a széles körben használt mellkasröntgen-adatkészletek kódol faji, nemi és társadalmi-gazdasági elfogultság.

Az alapvető adatkészlet-kihívásokon túl a kellő szakértői értékelést nem tartalmazó modellek előre nem látható akadályokba ütközhetnek, amikor a valós világban telepítik őket. A Harvard tudósai talált hogy a CT-vizsgálatok felismerésére és osztályozására kiképzett algoritmusok elfogulhatnak bizonyos CT-gépgyártók szkennelési formátumai felé. Eközben egy Google által kiadott whitepaper kihívásokat tárt fel egy szembetegség-előrejelző rendszer bevezetése során a thaiföldi kórházakban, beleértve a szkennelés pontosságával kapcsolatos problémákat is. És olyan cégek által végzett tanulmányok, mint Babylon HealthTöbbször megkérdőjelezték a jól finanszírozott telemedicinális startupot, amely állítása szerint számos betegséget képes kifejteni szöveges üzenetekből.

A Stanford-tanulmány társszerzői azzal érvelnek, hogy az értékelésben szereplő helyszínek számával kapcsolatos információkat „következetesen jelenteni kell”, hogy a klinikusok, a kutatók és a betegek megalapozott ítéletet hozzanak egy adott mesterséges intelligencia orvosi eszköz megbízhatóságáról. A több helyszínen végzett értékelések fontosak az algoritmikus torzítás és a megbízhatóság megértéséhez, és segíthetnek a berendezések, a technikusok szabványai, a képtárolási formátumok, a demográfiai összetétel és a betegségek előfordulásának eltéréseinek figyelembevételében.

"Az AI-eszközök teljesítményének több klinikai helyszínen történő értékelése fontos annak biztosításához, hogy az algoritmusok jól működjenek a reprezentatív populációkban" - írták a társszerzők. „A prospektív tanulmányok ösztönzése a standard ellátáshoz képest csökkenti a káros túlillesztés kockázatát, és pontosabban rögzíti a valódi klinikai eredményeket. A mesterséges intelligencia-eszközök forgalomba hozatalát követő felügyeletére is szükség van a nem szándékos kimenetelek és torzítások megértéséhez és méréséhez, amelyeket a leendő, többközpontú vizsgálat során nem észlelnek.

VentureBeat

A VentureBeat küldetése, hogy digitális városi tér legyen a műszaki döntéshozók számára, ahol ismereteket szerezhetnek a transzformatív technológiáról és a tranzakciókról. Webhelyünk alapvető információkat tartalmaz az adattechnológiákról és -stratégiákról, amelyek útmutatást nyújtanak a szervezet vezetése során. Meghívjuk Önt, hogy legyen közösségünk tagja, hogy elérje:

  • naprakész információk az Ön számára érdekes témákról
  • hírlevelünk
  • zárt gondolat-vezető tartalom és kedvezményes hozzáférés díjazott eseményeinkhez, mint pl Átalakítás 2021: Tudj meg többet
  • hálózati funkciók és így tovább

Legyen tagja

Forrás: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Időbélyeg:

Még több VentureBeat