Деякі схвалені FDA медичні пристрої зі штучним інтелектом не оцінені «належним чином», йдеться в дослідженні Стенфордського університету

Вихідний вузол: 808637

Приєднуйтесь до Transform 2021 12-16 липня. Зареєструватися дляr подія року ШІ.


Деякі медичні пристрої на базі штучного інтелекту, схвалені Управлінням з контролю за якістю харчових продуктів і медикаментів США (FDA), вразливі до зміни даних і упередженості щодо недостатньо представлених пацієнтів. Це згідно зі Стенфордським університетом вчитися опубліковані в Nature Medicine Минулого тижня виявилося, що незважаючи на те, що штучний інтелект вбудовується в більшу кількість медичних пристроїв — минулого року FDA схвалила понад 65 пристроїв штучного інтелекту — точність цих алгоритмів не обов’язково ретельно вивчається.

Незважаючи на те, що наукове співтовариство почало розробляти рекомендації щодо клінічних випробувань штучного інтелекту, не існує усталеної практики оцінки комерційних алгоритмів. У США FDA відповідає за схвалення медичних пристроїв на базі ШІ, і агентство регулярно публікує інформацію про ці пристрої, включаючи дані про продуктивність.

Співавтори Стенфордського дослідження створили базу даних схвалених FDA медичних пристроїв штучного інтелекту та проаналізували, як кожен з них тестувався, перш ніж отримати схвалення. За словами дослідників, майже всі пристрої на базі штучного інтелекту — 126 із 130 — схвалені FDA в період із січня 2015 року по грудень 2020 року, пройшли лише ретроспективні дослідження. І жоден із 54 схвалених пристроїв високого ризику не був оцінений проспективними дослідженнями, тобто дані випробувань збиралися до схвалення пристроїв, а не одночасно з їх розгортанням.

Співавтори стверджують, що проспективні дослідження необхідні, особливо для медичних пристроїв штучного інтелекту, оскільки використання в польових умовах може відхилятися від запланованого. Наприклад, більшість комп’ютерних діагностичних пристроїв призначені для підтримки прийняття рішень, а не для первинної діагностики. Проспективне дослідження може виявити, що клініцисти неправильно використовують пристрій для діагностики, що призводить до результатів, які відрізняються від очікуваних.

Є докази того, що ці відхилення можуть призвести до помилок. Відстеження, проведене Управлінням безпеки пацієнтів штату Пенсільванія в Гаррісбурзі, показало, що з січня 2016 року по грудень 2017 року системи EHR були відповідальними за 775 проблем під час лабораторних тестів у штаті, причому взаємодія людини з комп’ютером відповідала за 54.7% подій, а решта 45.3% викликані комп'ютер. Крім того, у проекті звіту уряду США, опублікованому в 2018 році, було виявлено, що клініцисти часто пропускають попередження (деякі поінформовані штучним інтелектом) — від незначних проблем щодо взаємодії ліків до тих, які становлять значні ризики.

Дослідники Стенфордського університету також виявили відсутність різноманітності пацієнтів у тестах, проведених на схвалених FDA пристроях. Серед 130 пристроїв 93 не пройшли багатосайтову оцінку, тоді як 4 були протестовані лише на одному місці, а 8 пристроїв – лише на двох. А у звітах для 59 пристроїв не згадується розмір вибірки досліджень. Із 71 дослідження пристроїв, які мали цю інформацію, середній розмір становив 300, і лише 17 досліджень пристроїв розглядали, як алгоритм може працювати на різних групах пацієнтів.

Частково через небажаність випускати код, набори даних і методи, більшість даних, які сьогодні використовуються для навчання алгоритмів ШІ для діагностики захворювань, можуть увічнити нерівність, показали попередні дослідження. Команда британських вчених знайдений що майже всі набори даних про очні захворювання надходять від пацієнтів із Північної Америки, Європи та Китаю, а це означає, що алгоритми діагностики очних захворювань менш впевнені, що будуть добре працювати для расових груп із недостатньо представлених країн. В іншому вчитися, дослідники з Університету Торонто, Інституту Вектор і Массачусетського технологічного інституту показали, що широко використовувані набори даних рентгенівських знімків грудної клітки кодувати расові, гендерні та соціально-економічні упередження.

Крім основних проблем із набором даних, моделі, які не мають достатньої експертної оцінки, можуть зіткнутися з непередбаченими перешкодами під час розгортання в реальному світі. Вчені з Гарварду знайдений що алгоритми, навчені розпізнавати та класифікувати КТ-сканування, можуть стати упередженими щодо форматів сканування певних виробників КТ-обладнання. Тим часом Google опублікував офіційний документ виявив труднощі у впровадженні системи прогнозування захворювань очей у лікарнях Таїланду, включаючи проблеми з точністю сканування. І дослідження, проведені такими компаніями Здоров'я Вавилону, добре фінансований телемедичний стартап, який стверджує, що може сортувати низку захворювань за допомогою текстових повідомлень, неодноразово ставився під сумнів.

Співавтори Стенфордського дослідження стверджують, що інформація про кількість сайтів в оцінці повинна «послідовно повідомлятися», щоб клініцисти, дослідники та пацієнти могли робити обґрунтовані висновки щодо надійності певного медичного пристрою ШІ. Вони кажуть, що багатосайтові оцінки важливі для розуміння упередженості та надійності алгоритмів і можуть допомогти врахувати відмінності в обладнанні, технічних стандартах, форматах зберігання зображень, демографічному складі та поширеності захворювань.

«Оцінка продуктивності пристроїв штучного інтелекту в кількох клінічних закладах важлива для забезпечення хорошої роботи алгоритмів серед репрезентативних популяцій», — пишуть співавтори. «Заохочення проспективних досліджень із порівнянням зі стандартним лікуванням знижує ризик шкідливого переобладнання та точніше фіксує справжні клінічні результати. Постринковий нагляд за пристроями штучного інтелекту також необхідний для розуміння та вимірювання небажаних результатів і упереджень, які не виявляються в проспективному багатоцентровому дослідженні».

VentureBeat

Місія VentureBeat - бути цифровою міською площею для тих, хто приймає технічні рішення, щоб отримати знання про трансформаційні технології та укладати транзакції. Наш сайт надає важливу інформацію про технології та стратегії обробки даних, яка допоможе вам керувати вашими організаціями. Ми запрошуємо вас стати членом нашої спільноти, щоб отримати доступ до:

  • актуальну інформацію з питань, що вас цікавлять
  • наші бюлетені
  • закритий вміст керівника думок та знижений доступ до наших цінних подій, таких як Перетворення 2021: Вивчайте більше
  • функції мережі та багато іншого

Стань членом

Джерело: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Часова мітка:

Більше від VentureBeat