"AI 진단영상 검증 능력은 전문의 수준

2024.04.19 06:54:58

獨 연구팀 "AI 활용, 영상의학 진단 정확성·효율성 향상 가능"

 오픈AI의 거대언어모델(LLM) 인공지능 GPT-4가 X-선 사진 등 진단 영상에서 오류를 찾아내는 능력이 영상의학 전문의들과 비슷한 수준이면서도 시간과 비용 효율성은 사람보다 훨씬 높은 것으로 나타났다.

 독일 쾰른 대학병원 영상의학과 로만 게르츠 박사팀은 북미영상의학회(RSNA) 저널 래디올로지(Radiology)에서 GPT-4와 다양한 경험 수준의 영상의학 전문의들을 대상으로 한 진단 영상 오류 검증 비교실험에서 이 같은 결과를 얻었다고 19일 밝혔다.

 연구팀은 진단 영상 분석의 오류는 레지던트와 주치의 간 이견, 의사소통 부정확성, 많은 업무량 등에 의해 발생할 수 있다며 이 연구는 진단 영상 오류 검증에서 GPT-4와 사람 능력을 비교한 첫 연구로, AI가 영상의학 보고서 작성의 정확성과 효율성을 높일 잠재력이 있음을 보여준다고 말했다.

 그 결과 GPT-4는 오류 150개 중 124개를 찾아낸 오류 감지율 82.7%를 기록했다.

 사람 전문가의 오류 감지율은 각각 영상의학 선임 전문의가 89.3%(150개 중 134개), 주치의 80%(150개 중 120개), 레지던트 80%(150개 중 120개)로 나타났다.

 GPT-4의 오류 감지율은 영상의학과 수석전문의 2명을 제외하면 가장 높은 수준이며, 수석 전문의 중 1명은 94.7%(150개 중 142개)의 오류 감지율을 보였다.

 이 결과는 GPT-4와 영상의학 전문의 사이에 오류 감지율에 유의미한 차이가 없음을 뜻한다.

 그러나 GPT-4는 속도와 비용 효율성은 영상의학 전문의들보다 훨씬 높은 것으로 나타났다.

 GPT-4의 진단 영상 1건당 판독 시간은 평균 3.5초였으나, 이 연구에서 판독 속도가 가장 빠른 전문의의 판독 시간은 1건당 평균 25.1초였다.

 또 GPT-4는 진단 영상 1건당 평균 보정 비용이 0.03달러로 비용 효율이 가장 높은 전문의(건당 0.42달러)의 10분의 1 미만이었다.

 게르츠 박사는 "이 결과는 GPT-4가 진단 영상의 오류를 감지, 보정하는 업무에서 영상의학 전문의와 맞먹는 성능을 발휘하면서도 시간과 비용은 크게 줄일 수 있음을 보여준다"며 "GPT-4를 활용해 영상의학 보고서의 정확성을 높여 환자 치료를 개선할 수 있다는 점에서 의미가 크다"고 말했다.

 ◆ 출처 : Radiology, Roman J. Gertz et al., 'Potential of GPT-4 for Detecting Errors in Radiology Reports: Implications for Reporting Accuracy', https://pubs.rsna.org/journal/radiology

관리자 기자 K1988053@naver.com
Copyright @2015 MEDIAON Corp. All rights reserved.

휴먼메디저널 경기도 수원시 장안구 정조로941, 2층 101호(영화동 동성영화타운) 발행인 : 김상묵 | 편집인 : 김상묵 | 전화번호 : 031-253-6000 등록번호 : 경기,아52363 등록 연월일 : 2019.10.25 발행연월일 : 2019.10.26 Copyright HUMANMEDI. All rights reserved.