AI består US Medical Licensing Exam

AI består US Medical Licensing Exam

Kilde node: 1919895
ChatGPT, kan passere USMLE

— To artikler viser at store språkmodeller, inkludert ChatGPT, kan bestå USMLE

by Michael DePeau-Wilson, Enterprise & Investigative Writer, MedPage 19. januar 2023

To programmer for kunstig intelligens (AI) - inkludert ChatGPT - har bestått US Medical Licensing Examination (USMLE), ifølge to nylige artikler.

Papirene fremhevet ulike tilnærminger til å bruke store språkmodeller for å ta USMLE, som består av tre eksamener: trinn 1, trinn 2 CK og trinn 3.

ChatGPTops i en ny fane eller et nytt vindu er et søkeverktøy for kunstig intelligens (AI) som etterligner skriving i lang form basert på spørsmål fra menneskelige brukere. Det ble utviklet av OpenAI, og ble populært etter at flere innlegg på sosiale medier viste potensielle bruksområder for verktøyet i klinisk praksis, ofte med blandede resultater åpnes i en ny fane eller et nytt vindu.

Den første avisen, publisert på medRxivåpnes i en ny fane eller et nytt vindu i desember undersøkte ChatGPTs ytelse på USMLE uten noen spesiell opplæring eller forsterkning før eksamenene. I følge Victor Tseng, MD, ved Ansible Health i Mountain View, California, og kolleger, viste resultatene "nye og overraskende bevis" på at dette AI-verktøyet var opp til utfordringen.

Tseng og teamet bemerket at ChatGPT var i stand til å prestere med >50 % nøyaktighet på tvers av alle eksamenene, og oppnådde til og med 60 % i de fleste av analysene deres. Mens USMLE bestått terskelen varierer mellom år, sa forfatterne at bestått er omtrent 60 % de fleste årene.

"ChatGPT utførte ved eller nær bestått terskelen for alle tre eksamenene uten noen spesialisert opplæring eller forsterkning," skrev de, og la merke til at verktøyet var i stand til å demonstrere "et høyt nivå av samsvar og innsikt i forklaringene."

"Disse resultatene tyder på at store språkmodeller kan ha potensial til å hjelpe med medisinsk utdanning, og potensielt klinisk beslutningstaking," konkluderte de.

Den andre avisen, publisert på arXivåpnes i en ny fane eller et nytt vindu, også i desember, evaluerte ytelsen til en annen stor språkmodell, Flan-PaLM, på USMLE. Hovedforskjellen mellom de to modellene var at denne modellen ble kraftig modifisert for å forberede seg til eksamenene, ved å bruke en samling medisinske spørsmålssvarsdatabaser kalt MultiMedQA, forklarte Vivek Natarajan, en AI-forsker, og kolleger.

Flan-PaLM oppnådde 67.6 % nøyaktighet ved å svare på USMLE-spørsmålene, som var omtrent 17 prosentpoeng høyere enn den tidligere beste ytelsen utført ved bruk av PubMed GPT.

Natarajan og teamet konkluderte med at store språkmodeller "presenterer en betydelig mulighet til å revurdere utviklingen av medisinsk AI og gjøre den enklere, tryggere og mer rettferdig å bruke."

ChatGPT, sammen med andre AI-programmer, har dukket opp som emnet - og noen ganger som medforfatter - av nye forskningsartikler fokusert på å teste teknologiens nytte i medisin.

Selvfølgelig har helsepersonell også uttrykt bekymring over denne utviklingen, spesielt når ChatGPT blir oppført som forfatter på forskningsartikler. En fersk artikkel fra Naturåpnes i en ny fane eller et nytt vindu fremhevet uroen fra kommende kolleger og medforfattere av den nye teknologien.

En innvending mot bruken av AI-programmer i forskning var basert på om de virkelig kan være i stand til å gi meningsfulle vitenskapelige bidrag til en artikkel, mens en annen innvending understreket at AI-verktøy ikke kan samtykke til å være medforfatter i utgangspunktet.

Redaktøren av et av papirene åpnes i en ny fane eller et nytt vindu som oppførte ChatGPT som forfatter, sa at det var en feil som ville bli rettet, ifølge Natur artikkel. Likevel har forskere publisert flere artikler som nå fremhever disse AI-programmene som nyttige verktøy i medisinsk utdanning, forskning og til og med klinisk beslutningstaking.

Natarajan og kolleger konkluderte i papiret at store språkmodeller kan bli et nyttig verktøy innen medisin, men deres første håp var at funnene deres ville «utløse ytterligere samtaler og samarbeid mellom pasienter, forbrukere, AI-forskere, klinikere, samfunnsvitere, etikere, politikere og andre interesserte mennesker for å ansvarlig oversette disse tidlige forskningsresultatene for å forbedre helsevesenet.»

forfatter['full_name']Michael DePeau-Wilson er reporter på MedPage Todays bedrifts- og etterforskningsteam. Han dekker psykiatri, langvarig covid og infeksjonssykdommer, blant andre relevante amerikanske kliniske nyheter. Følg 

Hoved kilde

medRxiv

Kildereferanse: åpnes i en ny fane eller et nytt vinduKung TH, et al "Performance of ChatGPT on USMLE: potential for AI-assisted medical education using large language models" medRxiv 2022; DOI: 10.1101/2022.12.19.22283643.

Sekundær kilde

arXiv

Kildereferanse: åpnes i en ny fane eller et nytt vinduSinghal K, et al "Store språkmodeller koder for klinisk kunnskap" arXiv 2022; DOI: 10.48550/arXiv.2212.13138.

<!–

->

<!–
->

Tidstempel:

Mer fra Blockchain-konsulenter