FDAが承認した一部のAI医療機器は「適切に」評価されていない、スタンフォード大学の調査が指摘

ソースノード: 808637

今年の2021月12〜16日にTransformXNUMXに参加してください。 登録するr 今年のAIイベント.


米国食品医薬品局(FDA)によって承認された一部の AI を活用した医療機器は、データシフトや過小評価されている患者に対する偏見に対して脆弱です。スタンフォード大学によると 研究 に発表され 自然医学 先週の研究結果では、AIがより多くの医療機器に組み込まれるようになったにもかかわらず(FDAは昨年65台以上のAI機器を承認した)、これらのアルゴリズムの精度が必ずしも厳密に研究されていないことが判明した。

学術コミュニティは AI 臨床試験のガイドラインの作成を開始していますが、商用アルゴリズムを評価するための確立された実践方法はありません。米国では、FDA が AI を活用した医療機器の承認を担当しており、FDA は性能データを含むこれらの機器に関する情報を定期的に公開しています。

スタンフォード大学の研究の共著者らは、FDAが承認した医療用AIデバイスのデータベースを作成し、承認を得る前に各デバイスがどのようにテストされたかを分析した。研究者らによると、126年130月から2015年2020月までにFDAによって承認されたAI搭載機器のほぼすべて(54台中XNUMX台)は、申請時に遡及研究のみを受けていたという。また、承認された XNUMX 台の高リスク機器はどれも前向き研究によって評価されていませんでした。これは、機器の導入と同時にではなく、機器が承認される前にテストデータが収集されたことを意味します。

共著者らは、特にAI医療機器については、現場での使用が意図した用途から逸脱する可能性があるため、前向き研究が必要であると主張している。たとえば、ほとんどのコンピュータ支援診断装置は、主要な診断ツールではなく、意思決定支援ツールとして設計されています。前向き研究では、臨床医が診断にデバイスを誤用しており、予想とは異なる結果をもたらしていることが判明する可能性があります。

これらの逸脱がエラーにつながる可能性があることを示唆する証拠があります。ハリスバーグのペンシルバニア州患者安全局による追跡により、2016 年 2017 月から 775 年 54.7 月までに、州内での臨床検査中に EHR システムが 45.3 件の問題の原因となっており、イベントの 2018% は人間とコンピューターの相互作用が原因であり、残りの XNUMX% は原因となっていることが判明しました。コンピュータ。さらに、XNUMX年に発行された米国政府の報告書草案では、臨床医が薬物相互作用に関する軽微な問題から重大なリスクを引き起こす問題に至るまで、一部AI情報によるアラートを見逃すことは珍しくないことが判明した。

スタンフォード大学の研究者らはまた、FDAが承認した装置で実施された検査では患者の多様性が欠如していることも発見した。 130 台のデバイスのうち、93 台はマルチサイト評価を受けていませんでしたが、4 台は 8 つのサイトのみでテストされ、59 台のデバイスは 71 つのサイトのみでテストされました。また、300 台のデバイスに関するレポートでは、調査のサンプルサイズについては言及されていませんでした。この情報が含まれていた 17 件のデバイス研究のうち、サイズの中央値は XNUMX で、アルゴリズムがさまざまな患者グループでどのように機能するかを検討したデバイス研究はわずか XNUMX 件でした。

コード、データセット、技術の公開に消極的なこともあり、病気を診断する AI アルゴリズムのトレーニングに現在使用されているデータの多くは不平等を永続させる可能性があることが、以前の研究で示されています。英国の科学者チーム 発見 ほとんどすべての眼疾患データセットは北米、ヨーロッパ、中国の患者からのものであり、眼疾患診断アルゴリズムが過小評価国の人種グループでうまく機能するかどうかは定かではありません。 別の 研究、トロント大学、ベクトル研究所、MIT の研究者らは、胸部 X 線データセットが広く使用されていることを示しました。 エンコード 人種、性別、社会経済的な偏見。

基本的なデータセットの課題を超えて、十分なピアレビューが欠けているモデルは、現実世界に展開する際に予期せぬ障害に遭遇する可能性があります。ハーバード大学の科学者 発見 CT スキャンを認識して分類するように訓練されたアルゴリズムは、特定の CT 装置メーカーのスキャン形式に偏る可能性があります。そんな中、Googleが公開した ホワイトペーパー タイの病院で眼疾患予測システムを導入する際の、スキャン精度の問題などの課題を明らかにしました。そして、次のような企業によって行われた調査 バビロンヘルスは、テキストメッセージからさまざまな病気をトリアージできると主張する、資金豊富な遠隔医療の新興企業であるが、繰り返し疑問視されている。

スタンフォード大学の研究の共著者らは、臨床医、研究者、患者が特定の AI 医療機器の信頼性について情報に基づいた判断を下すためには、評価における施設の数に関する情報が「一貫して報告される」必要があると主張している。彼らによれば、マルチサイト評価はアルゴリズムのバイアスと信頼性を理解するために重要であり、機器、技術者の基準、画像保存形式、人口構成、病気の有病率などの変動を考慮するのに役立つ可能性があるという。

「複数の臨床現場で AI デバイスのパフォーマンスを評価することは、アルゴリズムが代表的な集団全体で適切に機能することを保証するために重要です」と共著者らは書いています。 「標準治療と比較して前向き研究を奨励することで、有害な過剰適合のリスクが軽減され、真の臨床転帰がより正確に把握されます。 AI デバイスの市販後監視は、前向きの多施設共同試験では検出されない、意図しない結果やバイアスを理解して測定するためにも必要です。」

VentureBeatの

VentureBeatの使命は、技術的な意思決定者が革新的なテクノロジーと取引についての知識を習得するためのデジタルタウンスクエアになることです。 私たちのサイトは、あなたが組織を率いるときにあなたを導くためのデータ技術と戦略に関する重要な情報を提供します。 以下にアクセスして、コミュニティのメンバーになることをお勧めします。

  • あなたが興味を持っている主題に関する最新情報
  • ニュースレター
  • ゲート付きのソートリーダーコンテンツと、次のような貴重なイベントへの割引アクセス 変換2021: もっと詳しく知る
  • ネットワーク機能など

会員になる

出典: https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

タイムスタンプ:

より多くの VentureBeatの