斯坦福大学的研究说,某些“ FDA”批准的人工智能医疗设备未得到“充分”评估

源节点: 808637

请在2021月12日至16日加入XNUMX年变形金刚。 注册r 年度AI活动.


美国食品和药物管理局 (FDA) 批准的一些人工智能医疗设备很容易受到数据变化和针对代表性不足的患者的偏见的影响。这是根据斯坦福大学的说法 根据一项研究, 发表于 自然医学 上周,研究发现,即使人工智能嵌入到更多的医疗设备中(FDA 去年批准了超过 65 种人工智能设备),这些算法的准确性也不一定得到严格研究。

尽管学术界已经开始制定人工智能临床试验指南,但还没有评估商业算法的既定实践。在美国,FDA 负责批准人工智能医疗设备,该机构定期发布有关这些设备的信息,包括性能数据。

斯坦福大学研究的合著者创建了 FDA 批准的医疗人工智能设备的数据库,并分析了每种设备在获得批准之前的测试情况。研究人员表示,126 年 130 月至 2015 年 2020 月期间 FDA 批准的几乎所有人工智能设备(54 种中有 XNUMX 种)在提交时仅进行了回顾性研究。 XNUMX 种已批准的高风险设备均未经过前瞻性研究评估,这意味着测试数据是在设备获得批准之前收集的,而不是在部署时收集的。

合著者认为,前瞻性研究是必要的,特别是对于人工智能医疗设备,因为现场使用可能会偏离预期用途。例如,大多数计算机辅助诊断设备被设计为决策支持工具而不是主要诊断工具。一项前瞻性研究可能会揭示临床医生滥用诊断设备,导致结果与预期不同。

有证据表明这些偏差可能会导致错误。哈里斯堡宾夕法尼亚州患者安全局的追踪发现,从 2016 年 2017 月到 775 年 54.7 月,EHR 系统在该州实验室测试期间造成了 45.3 起问题,其中 2018% 的事件由人机交互造成,其余 XNUMX% 的事件由人机交互造成。一台电脑。此外,XNUMX 年发布的美国政府报告草案发现,临床医生经常会错过警报(其中一些是人工智能通知的),范围从药物相互作用的小问题到构成相当大风险的问题。

斯坦福大学的研究人员还发现,在 FDA 批准的设备上进行的测试中缺乏患者多样性。 130 台设备中,93 台没有经过多站点评估,4 台设备仅在一个站点进行了测试,8 台设备仅在两个站点进行了测试。 59 种设备的报告没有提及研究的样本量。在包含此信息的 71 项设备研究中,中位数为 300,只有 17 项设备研究考虑了该算法在不同患者群体中的表现。

先前的研究表明,部分由于不愿发布代码、数据集和技术,目前用于训练诊断疾病的人工智能算法的大部分数据可能会延续不平等。英国科学家团队 发现 几乎所有的眼疾数据集都来自北美,欧洲和中国的患者,这意味着眼疾诊断算法不太适用于代表性不足国家的种族群体。 在另一个 根据一项研究,来自多伦多大学、Vector 研究所和麻省理工学院的研究人员表明,广泛使用的胸部 X 射线数据集 编码 种族、性别和社会经济偏见。

除了基本的数据集挑战之外,缺乏足够同行评审的模型在现实世界中部署时可能会遇到不可预见的障碍。哈佛大学的科学家 发现 经过训练来识别和分类 CT 扫描的算法可能会偏向于某些 CT 机器制造商的扫描格式。与此同时,谷歌发布了 白皮书 揭示了在泰国医院实施眼部疾病预测系统的挑战,包括扫描准确性问题。诸如此类的公司进行的研究 巴比伦健康一家资金雄厚的远程医疗初创公司声称能够通过短信对一系列疾病进行分类,但一再受到质疑。

斯坦福大学研究的合著者认为,必须“一致地报告”有关评估站点数量的信息,以便临床医生、研究人员和患者对给定人工智能医疗设备的可靠性做出明智的判断。他们说,多站点评估对于理解算法偏差和可靠性非常重要,并且可以帮助解释设备、技术人员标准、图像存储格式、人口构成和疾病患病率的变化。

“评估人工智能设备在多个临床站点的性能对于确保算法在代表性人群中表现良好非常重要,”合著者写道。 “鼓励与护理标准进行比较的前瞻性研究可以降低有害过度拟合的风险,并更准确地捕捉真实的临床结果。还需要对人工智能设备进行上市后监测,以了解和衡量前瞻性多中心试验中未检测到的意外结果和偏差。”

VentureBeat的

VentureBeat的使命是成为技术决策者的数字城镇广场,以获取有关变革性技术和交易的知识。 我们的网站提供有关数据技术和策略的重要信息,以指导您领导组织。 我们邀请您成为我们社区的成员,可以访问:

  • 有关您感兴趣的主题的最新信息
  • 我们的新闻通讯
  • 门控的思想领袖内容,以及对我们珍贵活动的打折访问权,例如 转变2021: 了解更多
  • 网络功能等

成为成员

资料来源:https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/

时间戳记:

更多来自 VentureBeat的