Alguns dispositivos médicos de IA aprovados pela FDA não são avaliados “adequadamente”, diz estudo de Stanford

Nó Fonte: 808637

Junte-se à Transform 2021 de 12 a 16 de julho. Registre-se parar o evento de IA do ano.


Alguns dispositivos médicos alimentados por IA aprovados pela Food and Drug Administration (FDA) dos EUA são vulneráveis ​​a mudanças de dados e preconceitos contra pacientes sub-representados. Isso está de acordo com um Stanford estudo publicado em Nature Medicine na semana passada, que descobriu que mesmo que a IA se torne incorporada em mais dispositivos médicos – a FDA aprovou mais de 65 dispositivos de IA no ano passado – a precisão destes algoritmos não está necessariamente a ser rigorosamente estudada.

Embora a comunidade acadêmica tenha começado a desenvolver diretrizes para ensaios clínicos de IA, não existem práticas estabelecidas para avaliar algoritmos comerciais. Nos EUA, a FDA é responsável pela aprovação de dispositivos médicos alimentados por IA, e a agência divulga regularmente informações sobre estes dispositivos, incluindo dados de desempenho.

Os coautores da pesquisa de Stanford criaram um banco de dados de dispositivos médicos de IA aprovados pela FDA e analisaram como cada um foi testado antes de obter aprovação. Quase todos os dispositivos alimentados por IA – 126 de 130 – aprovados pela FDA entre janeiro de 2015 e dezembro de 2020 foram submetidos apenas a estudos retrospectivos no momento da sua apresentação, de acordo com os investigadores. E nenhum dos 54 dispositivos de alto risco aprovados foi avaliado por estudos prospectivos, o que significa que os dados dos testes foram recolhidos antes dos dispositivos serem aprovados, em vez de simultaneamente com a sua implantação.

Os co-autores argumentam que são necessários estudos prospectivos, especialmente para dispositivos médicos de IA, porque o uso no campo pode desviar-se do uso pretendido. Por exemplo, a maioria dos dispositivos de diagnóstico assistidos por computador são concebidos para serem ferramentas de apoio à decisão, em vez de ferramentas primárias de diagnóstico. Um estudo prospectivo pode revelar que os médicos estão utilizando indevidamente um dispositivo para diagnóstico, levando a resultados diferentes dos esperados.

Há evidências que sugerem que esses desvios podem levar a erros. O rastreamento realizado pela Autoridade de Segurança do Paciente da Pensilvânia em Harrisburg descobriu que, de janeiro de 2016 a dezembro de 2017, os sistemas EHR foram responsáveis ​​por 775 problemas durante testes laboratoriais no estado, com interações humano-computador responsáveis ​​por 54.7% dos eventos e os 45.3% restantes causados ​​por um computador. Além disso, um projeto de relatório do governo dos EUA publicado em 2018 concluiu que não é incomum que os médicos percam alertas – alguns informados pela IA – que vão desde questões menores sobre interações medicamentosas até aquelas que representam riscos consideráveis.

Os pesquisadores de Stanford também encontraram falta de diversidade de pacientes nos testes realizados em dispositivos aprovados pela FDA. Entre os 130 dispositivos, 93 não passaram por avaliação multisite, enquanto 4 foram testados em apenas um local e 8 dispositivos em apenas dois locais. E os relatórios de 59 dispositivos não mencionaram o tamanho da amostra dos estudos. Dos 71 estudos de dispositivos que continham essas informações, o tamanho médio foi de 300, e apenas 17 estudos de dispositivos consideraram o desempenho do algoritmo em diferentes grupos de pacientes.

Em parte devido à reticência em divulgar códigos, conjuntos de dados e técnicas, muitos dos dados utilizados hoje para treinar algoritmos de IA para o diagnóstico de doenças podem perpetuar desigualdades, mostraram estudos anteriores. Uma equipe de cientistas do Reino Unido encontrado que quase todos os conjuntos de dados de doenças oculares vêm de pacientes na América do Norte, Europa e China, o que significa que algoritmos de diagnóstico de doenças oculares têm menos certeza de funcionar bem para grupos raciais de países sub-representados. Noutro estudo, pesquisadores da Universidade de Toronto, do Vector Institute e do MIT mostraram que conjuntos de dados de radiografias de tórax amplamente utilizados codificar preconceito racial, de gênero e socioeconômico.

Além dos desafios básicos dos conjuntos de dados, os modelos sem revisão por pares suficiente podem encontrar obstáculos imprevistos quando implantados no mundo real. Cientistas de Harvard encontrado que algoritmos treinados para reconhecer e classificar tomografias computadorizadas podem se tornar tendenciosos para formatos de tomografia computadorizada de certos fabricantes de máquinas de tomografia computadorizada. Enquanto isso, um artigo publicado pelo Google whitepaper revelou desafios na implementação de um sistema de previsão de doenças oculares em hospitais da Tailândia, incluindo problemas com a precisão do exame. E estudos realizados por empresas como Saúde da Babilônia, uma startup de telemedicina bem financiada que afirma ser capaz de fazer a triagem de uma série de doenças a partir de mensagens de texto, tem sido repetidamente questionada.

Os co-autores do estudo de Stanford argumentam que as informações sobre o número de locais numa avaliação devem ser “relatadas de forma consistente” para que médicos, investigadores e pacientes possam fazer julgamentos informados sobre a fiabilidade de um determinado dispositivo médico de IA. As avaliações multisite são importantes para a compreensão do viés e da confiabilidade algorítmica, dizem eles, e podem ajudar na contabilização de variações em equipamentos, padrões técnicos, formatos de armazenamento de imagens, composição demográfica e prevalência de doenças.

“Avaliar o desempenho de dispositivos de IA em vários locais clínicos é importante para garantir que os algoritmos tenham um bom desempenho em populações representativas”, escreveram os coautores. “Incentivar estudos prospectivos em comparação com o tratamento padrão reduz o risco de sobreajuste prejudicial e captura com mais precisão os verdadeiros resultados clínicos. A vigilância pós-comercialização de dispositivos de IA também é necessária para a compreensão e medição de resultados não intencionais e preconceitos que não são detectados em ensaios multicêntricos prospectivos.”

VentureBeat

A missão da VentureBeat é ser uma praça da cidade digital para que os tomadores de decisões técnicas obtenham conhecimento sobre a tecnologia transformadora e façam transações. Nosso site oferece informações essenciais sobre tecnologias e estratégias de dados para orientá-lo à medida que lidera suas organizações. Convidamos você a se tornar um membro de nossa comunidade, para acessar:

  • informações atualizadas sobre os assuntos de seu interesse
  • nossos boletins
  • conteúdo de líder de pensamento fechado e acesso com desconto a nossos eventos premiados, como Transformar 2021: Saber mais
  • recursos de rede e muito mais

Torne-se um membro

Fonte: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

Carimbo de hora:

Mais de VentureBeat