'GPT 의사' 진단 정확도 76%…"오진율은 의사 2배"

인공지능(AI) 챗봇에게 건강 관련 질문을 했을 때 약 76%의 정확도를 보였지만, 오류율은 의사의 2배에 달해 환자 사용에 주의가 필요하다는 연구 결과가 나왔다.

미국 펜실베이니아 주립대 연구팀은 일반 사용자의 건강 관련 질문에 대한 AI 챗봇의 답변 정확도를 분석한 결과를 오는 6월 캐나다 몬트리올에서 열리는 '2026 ACM FAccT 콘퍼런스'에서 발표할 예정이라고 밝혔다.

연구팀은 '다이그노스어톤'(Diagnose-a-thon)이라는 AI 대회를 열어 연구를 진행했다. 교수, 학생 등 34명의 참가자가 '챗GPT', '제미나이' 등 4개의 거대언어모델(LLM) 중 하나를 선택해 건강 관련 질문 212개를 하고 AI의 답변을 받았다.

이후 9명의 전문의가 AI 답변의 정확성과 유해성을 평가한 결과, 전체 답변의 76.2%가 의학적으로 정확한 정보를 제공한 것으로 나타났다. 산부인과, 이비인후과 분야에서는 높은 정확도를 보였다.

반면 내과, 신경과, 피부과 등 전문 분야에서는 정확도가 낮고 잠재적 유해성은 더 높은 경향을 보였다. 연구팀은 AI의 오류율이 20%를 넘어서며, 이는 인간 의사의 오류율보다 약 2배 높은 수치라고 지적했다.

연구팀이 의료 교과서, 임상 지침 등으로 AI를 추가 학습시킨 뒤 평가한 결과, 오히려 일부 모델에서는 학습 전 기본 모델의 답변이 더 낫다는 평가를 받기도 했다. 이는 AI의 의료 분야 활용이 간단한 문제만은 아니라는 점을 시사한다.

연구에 참여한 제니퍼 크라슈네프스키 교수는 "AI가 의사를 대체하기보다, 의사가 환자 치료를 개선하는 데 사용하는 도구가 될 것"이라며 "현재 AI는 환자보다 의료 전문가에게 더 나은 도구가 될 수 있다"고 설명했다.

공동 저자인 S. 시암 순다르 교수는 "사람들은 계속해서 건강 문제 진단에 AI를 사용할 것"이라며 "AI의 장단점을 파악해 올바르게 사용하는 법을 알려야 한다"고 강조했다.