주요 인공지능(AI) 챗봇 기업이 'AI 주치의'을 내세운 건강관리 기능을 선보이고 있지만 실제 이용자에겐 기존 인터넷 검색보다 나은 유익을 주지 못하는 것으로 나타났다.
영국 옥스퍼드대 연구진은 성인 1천300명을 대상으로 주요 AI 챗봇과 기존 검색엔진을 이용해 자가 진단을 하도록 하는 실험을 벌인 결과 이런 결과를 얻었다는 논문을 최근 국제학술지 네이처 메디신에 게재했다고 AFP·로이터 통신이 9일(현지시간) 보도했다.
연구진은 실험 참가자들에게 숙취로 인한 두통과 담석증 등 10가지 가상 시나리오를 주고 오픈AI의 'GPT-4o', 메타의 '라마3', 코히어의 '커맨드R+' 등 세 챗봇 중 하나로 자가 진단을 하게 했다. 대조군은 구글 등 기존 인터넷 검색을 이용해 같은 작업을 했다.
실험 결과, 질환이 무엇인지 정확히 식별한 비율은 34.5%에 그쳤다. 병원 방문·응급차 호출 등 바른 대처 방법을 알아낸 비율도 44.2%에 불과했다.
이는 기존 검색엔진을 이용한 대조군과 견줘 유의미한 차이가 없는 수준이었다.
연구진은 이 같은 결과를 빚은 원인으로 '소통의 단절'을 지목했다.
AI 챗봇은 의학적 지식은 충분하지만, 환자들이 자신의 증상을 충분히 설명하는 데 어려움을 겪었고 AI의 답변을 오인하는 경우도 있었다는 것이다.
예를 들어 뇌출혈을 유발하는 치명적 질환인 지주막하출혈에 대해 "지금까지 경험한 최악의 두통"이라고 설명한 환자는 '병원에 가라'는 조언을 들었지만, 단순히 "끔찍한 두통"이라고 언급한 다른 환자는 '어두운 방에 누워 있으라'는 부적절한 답변을 받았다.
논문의 공동 저자인 레베카 페인 박사는 "AI는 의사의 역할을 맡을 준비가 돼 있지 않다"며 "환자들은 자신의 증상을 AI 챗봇에 질문하는 것이 위험할 수 있다는 사실을 인지해야 한다"고 강조했다.
실제 의료 현장에서도 AI 기기를 둘러싼 안전성 우려가 제기되고 있다.
존슨앤드존슨의 자회사 애클래런트가 개발한 부비동 수술용 내비게이션 장비 '트루디'는 2021년 AI 기능을 추가한 이후 오작동 신고를 100건 이상 기록했다.
AI 기능 추가 이전 3년간 7건에 불과했던 것과 비교하면 급격히 늘어난 것이다.
미 식품의약국(FDA)에 제출된 보고서에는 두개골 내에 있는 수술 도구의 현재 위치를 잘못 안내했다는 내용이 포함됐다고 로이터는 전했다.
수술 과정에서 두개골 기저부가 뚫리거나 뇌척수액이 유출되고, 동맥 손상으로 뇌졸중이 발생하는 등 심각한 사례도 보고됐다.
2024년 애클래런트를 인수한 인테그라 라이프사이언스는 이에 대해 "사고가 발생한 수술 현장에 트루디가 사용됐다는 것일 뿐"이라며 "트루디 사용과 해당 사고의 인과관계를 입증할 만한 증거는 없다"고 해명했다.
소비자용 AI 의료 앱의 허위·과장 광고도 도마 위에 올랐다. AI 의사를 표방한 일부 앱이 암을 양성으로 오진하거나, 거꾸로 아무 문제가 없는데 암이라고 진단하는 등 혼란을 부추기고 있다는 것이다.
애플과 구글은 취재가 시작되자 문제로 지적된 일부 앱을 앱 장터에서 삭제 조치했다.
오픈AI와 앤트로픽, 아마존 등은 최근 AI를 활용한 건강관리 도구를 출시하며 경쟁에 나서고 있다.
장익상 선임기자(iksang.jang@gmail.com)




