Стэнфордское исследование показало, что некоторые одобренные FDA медицинские устройства искусственного интеллекта не проходят «адекватной» оценки.

Исходный узел: 808637

Присоединяйтесь к Transform 2021 с 12 по 16 июля. Зарегистрироваться for событие года в области искусственного интеллекта.


Некоторые медицинские устройства на базе искусственного интеллекта, одобренные Управлением по контролю за продуктами и лекарствами США (FDA), уязвимы к изменениям данных и предвзятости в отношении недостаточно представленных пациентов. Это по данным Стэнфорда Исследование опубликованной в Nature Medicine На прошлой неделе выяснилось, что даже несмотря на то, что искусственный интеллект становится встроенным в большее количество медицинских устройств (в прошлом году FDA одобрило более 65 устройств искусственного интеллекта), точность этих алгоритмов не обязательно тщательно изучается.

Хотя академическое сообщество начало разрабатывать рекомендации по клиническим испытаниям ИИ, устоявшейся практики оценки коммерческих алгоритмов не существует. В США FDA отвечает за одобрение медицинских устройств на базе искусственного интеллекта, и агентство регулярно публикует информацию об этих устройствах, включая данные о производительности.

Соавторы Стэнфордского исследования создали базу данных медицинских устройств искусственного интеллекта, одобренных FDA, и проанализировали, как каждое из них тестировалось, прежде чем получить одобрение. По словам исследователей, почти все устройства на базе искусственного интеллекта — 126 из 130 — одобренные FDA в период с января 2015 года по декабрь 2020 года, по их представленным данным, прошли только ретроспективные исследования. И ни одно из 54 одобренных устройств высокого риска не было оценено в проспективных исследованиях, то есть данные испытаний были собраны до того, как устройства были одобрены, а не одновременно с их внедрением.

Соавторы утверждают, что необходимы проспективные исследования, особенно в отношении медицинских устройств искусственного интеллекта, поскольку их использование в полевых условиях может отличаться от предполагаемого использования. Например, большинство устройств компьютерной диагностики спроектированы как инструменты поддержки принятия решений, а не как основные диагностические инструменты. Проспективное исследование может выявить, что врачи неправильно используют устройство для диагностики, что приводит к результатам, отличным от ожидаемых.

Есть основания полагать, что эти отклонения могут привести к ошибкам. Отслеживание, проведенное Управлением по безопасности пациентов Пенсильвании в Гаррисбурге, показало, что с января 2016 по декабрь 2017 года системы EHR были ответственны за 775 проблем во время лабораторных исследований в штате, при этом взаимодействие человека с компьютером было причиной 54.7% событий, а остальные 45.3% были вызваны компьютер. Кроме того, проект отчета правительства США, опубликованный в 2018 году, показал, что врачи нередко пропускают оповещения — некоторые из них информированы ИИ — начиная от незначительных проблем, связанных с взаимодействием лекарств, до тех, которые представляют значительный риск.

Исследователи из Стэнфорда также обнаружили отсутствие разнообразия пациентов в тестах, проводимых на устройствах, одобренных FDA. Среди 130 устройств 93 не прошли многосайтовую оценку, 4 были протестированы только на одном сайте, а 8 устройств — только на двух сайтах. А в отчетах по 59 устройствам не упоминался размер выборки исследований. Из 71 исследования устройств, в которых была такая информация, средний размер составил 300, и только в 17 исследованиях устройств рассматривалось, как алгоритм может работать на различных группах пациентов.

Предыдущие исследования показали, что отчасти из-за нежелания публиковать код, наборы данных и методы большая часть данных, используемых сегодня для обучения алгоритмов ИИ для диагностики заболеваний, может увековечить неравенство. Команда британских учёных найденный что почти все наборы данных о глазных заболеваниях поступают от пациентов из Северной Америки, Европы и Китая, а это означает, что алгоритмы диагностики глазных болезней с меньшей уверенностью работают для расовых групп из недостаточно представленных стран. В другой ИсследованиеИсследователи из Университета Торонто, Института Вектора и Массачусетского технологического института показали, что широко используемые наборы данных рентгенографии грудной клетки шифровать расовые, гендерные и социально-экономические предрассудки.

Помимо основных проблем с набором данных, модели, не имеющие достаточной экспертной оценки, могут столкнуться с непредвиденными препятствиями при развертывании в реальном мире. Ученые из Гарварда найденный что алгоритмы, обученные распознавать и классифицировать компьютерные томографии, могут оказаться смещенными в сторону форматов сканирования определенных производителей компьютерных томографов. Между тем, опубликованное Google официальный документ выявили проблемы при внедрении системы прогнозирования глазных заболеваний в больницах Таиланда, в том числе проблемы с точностью сканирования. А исследования, проводимые такими компаниями, как Здоровье Вавилона, хорошо финансируемый телемедицинский стартап, который утверждает, что может определять ряд заболеваний с помощью текстовых сообщений, неоднократно подвергался сомнению.

Соавторы Стэнфордского исследования утверждают, что информация о количестве сайтов, участвующих в оценке, должна «постоянно сообщаться», чтобы врачи, исследователи и пациенты могли делать обоснованные суждения о надежности того или иного медицинского устройства с искусственным интеллектом. По их словам, оценка на нескольких площадках важна для понимания алгоритмической предвзятости и надежности и может помочь учесть различия в оборудовании, технических стандартах, форматах хранения изображений, демографическом составе и распространенности заболеваний.

«Оценка производительности устройств искусственного интеллекта в нескольких клинических учреждениях важна для обеспечения хорошей работы алгоритмов в репрезентативных группах населения», — пишут соавторы. «Поощрение проспективных исследований по сравнению со стандартным лечением снижает риск вредного переоснащения и более точно отражает истинные клинические результаты. Постмаркетинговый надзор за устройствами искусственного интеллекта также необходим для понимания и измерения непредвиденных результатов и систематических ошибок, которые не обнаруживаются в проспективных многоцентровых исследованиях».

VentureBeat

Миссия VentureBeat - стать цифровой городской площадью, где лица, принимающие технические решения, могут получить знания о трансформирующих технологиях и транзакциях. На нашем сайте представлена ​​важная информация о технологиях и стратегиях обработки данных, которая поможет вам руководить своей организацией. Мы приглашаем вас стать членом нашего сообщества, чтобы получить доступ:

  • актуальная информация по интересующей вас тематике
  • наши новостные рассылки
  • закрытый контент для лидеров мнений и льготный доступ к нашим ценным мероприятиям, таким как Преобразовать НЕТ: Узнать больше
  • сетевые функции и многое другое

Становиться участником

Источник: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Отметка времени:

Больше от VentureBeat