병원들이 기대감에 부풀어 있었다. 의사 진료를 실시간으로 기록하는 AI 비서, 환자 기록을 분석해 질병을 예측하는 모델, 종양을 더 빨리 찾아내는 엑스레이 분석기 등… 이 기술들은 의료진의 번아웃을 줄이고 진료의 질을 높여줄 것이라 약속했다. 공급업체들은 시범 테스트에서 현혹될 만큼 높은 정확도 지표를 내세웠다. 하지만 Nature Medicine의 날카로운 논문은 판도를 뒤집는다. 이 도구들이 스캔을 완벽하게 판독할 수 있을지는 몰라도, 환자들이 실제로 더 나아졌는지에 대한 증거는 전무하다는 것이다.
미시간 대학교의 컴퓨터 과학자 제나 와인스(Jenna Wiens)와 토론토 대학교의 안나 골든버그(Anna Goldenberg)가 이 사실을 명확히 지적한다. 수년간 회의적인 의사들에게 AI를 홍보해 온 와인스는 이제 상황이 역전되었다고 말한다. 임상의들은 마치 사탕을 집듯 AI 도구를 구매하고 있다. 도입은 폭발적으로 늘고 있지만, 평가는? 거의 이루어지지 않고 있다.
이것이 바로 문제의 핵심이다. 도구들은 통제된 환경에서의 테스트를 통과한다. 예를 들어, AI가 흉부 엑스레이에서 폐렴을 95%의 정확도로 식별한다고 가정해보자. 놀라운 결과다. 하지만 그것이 의사가 더 빨리 항생제를 처방하게 만들까? 환자와의 대화 방식에 변화를 줄까? 재입원율을 낮출까? 돌아오는 것은 침묵뿐이다.
와인스는 “연구자들은 의료진과 환자의 만족도는 평가했지만, 이러한 도구들이 임상 의사 결정에 실제로 어떤 영향을 미치는지에 대해서는 제대로 평가하지 않았다”며 “우리는 정말 알지 못한다”고 말했다.
이 인용구는 차가운 청진기처럼 가슴을 때린다. 환자 만족도는 치솟는다. AI 비서 덕분에 의사들은 서류 작업 지옥에서 벗어난다. 뉴욕의 일부 병원에서는 환자에게 집중할 수 있는 시간이 늘었다는 긍정적인 경험담이 쏟아져 나온다. 초기 연구에서는 번아웃이 감소하는 것으로 나타났다. 좋다. 하지만 건강 결과는? 미지의 영역이다.
왜 의료 AI의 정확성만으로는 더 나은 건강 결과를 기대하기 어려운가?
정확도는 함정일 수 있다. 이렇게 생각해보자. AI가 패혈증 위험을 정확하게 예측한다. 의사가 힐끗 보고 고개를 끄덕인 후 다음 환자로 넘어간다. 워크플로우는 전혀 변하지 않는다. 혹은 더 나쁜 경우, 과도한 의존이 판단력을 둔화시킬 수 있다. 마치 울퉁불퉁한 비행기에서 자동 조종 장치를 켜놓은 것처럼 말이다. 와인스는 병원마다 설치 환경과 사용 방식이 다르다는 점을 지적한다. 한 병원에서는 AI가 효과를 보지만, 다른 병원에서는 실패할 수 있다. 경험이 적은 레지던트들은 AI에 너무 의존할 수 있고, 숙련된 의사들은 이를 무시할 수도 있다. 예상치 못한 파급 효과도 있다. 교육 연구에 따르면 AI 요약이 의대생들이 환자 이야기를 처리하는 방식을 왜곡할 수 있다는 힌트를 준다. 인지적 바로가기(cognitive shortcuts)가 만들어지는 것일까?
페이즈 농(Paige Nong)의 2025년 1월 연구는 이러한 급속한 도입을 강조한다. 미국 병원의 65%가 AI 예측 도구를 사용하고 있었다. 이 중 3분의 2는 정확도를 확인했지만, 편향성(bias)을 조사한 경우는 훨씬 적었다. 와인스는 이후 사용량이 급증했을 것이라고 확신한다. 기업들은 기술 사양을 자랑하고, 의료 제공자들은 이를 도입한다. 그 누구도 AI 도입의 장기적인 영향력을 테스트하고 있는가? 충분하지 않다.
어떻게 이렇게 빠르게 여기까지 오게 되었나?
10년 전만 해도 임상의들은 AI 도입 제안을 비웃었다. 하지만 ChatGPT 이후의 열풍 때문일까? 상황이 바뀌었다. 앰비언트 스크라이브(ambient scribe)와 같은 도구(Nuance의 Dragon, Nabla 등)가 시장에 출시되었고, 대규모로 채택되었다. 효율성은 매력적이다. 절약된 시간은 곧 생명 연장으로 이어지는 것 아닌가? 증거 없이는 그렇지 않다. 이것이 바로 도입-평가 격차(adoption-evals gap)이며, 초기의 전자의무기록(EHR) 사태와 유사하다. 당시에도 기적을 약속했지만, 워크플로우가 적응될 때까지는 엇갈린 결과만 내놓았다.
나의 독특한 관점: 이는 1990년대 금융권의 닷컴 버블과 유사하다. 시뮬레이션에서는 알고리즘이 완벽하게 주식을 거래했지만, 실제 시장에서는 예상치 못한 사건(black swans)과 사람의 개입이 드러났다. 의료 AI도 같은 위험에 직면할 수 있다. 빛나는 모델들이 실제 환자 진료 현장의 복잡성을 간과하는 것이다. 공급업체들은 ‘혁신적’이라고 포장하지만, 와인스와 같은 회의론자들은 클릭 수만이 아닌, 실제 환자 결과 추적을 위한 무작위 대조 시험(RCTs)을 요구한다.
와인스는 AI 반대론자가 아니다. “나는 AI가 임상 진료를 진정으로 개선할 잠재력을 가지고 있다고 믿는다”고 그녀는 주장한다. 하지만 맹목적인 믿음은 아니다. 병원들은 스타트업뿐만 아니라, 자신들의 환경에 맞는 맥락 특화적이고 워크플로우 중심적인 시험을 실행해야 한다. 편향성 검사도 필수다. 농의 데이터는 이러한 시급성을 외치고 있다.
예측: 규제 당국이 움직일 것이다. FDA는 일부 진단 도구는 승인하고 있지만, 예측 도구들은 ‘서비스형 소프트웨어(Software as a Service)’로 분류되어 규제를 피해가고 있다. 감사 및 결과 연구 의무화가 예상된다. Legal AI Beat는 주시할 것이다. 만약 AI 도구가 잘못되어 환자에게 피해가 발생하면 소송이 번질 가능성이 높다.
이것은 단순히 기술의 문제가 아니다. 환자는 픽셀이 아니다. AI 도구들은 실망스러울 수 있다. 최선은 중립적인 결과, 최악의 경우는 특정 상황에서 해를 끼치는 것이다. 더 가능성 있는 시나리오는, 과장된 기대감이 실제 도움보다 앞서 나가면서, 미미한 이득을 위해 예산을 낭비하는 것이다.
병원들은 마침내 AI 도구를 제대로 테스트할 것인가?
AI 사용량은 계속 증가하고 있다. 하지만 이러한 논문들로부터 압력이 거세지고 있다. 보험사들은 보험금 지급 전에 증거를 요구할 수 있다. 과거 기술 실패로 상처받은 의사들은 반발할 수도 있다.
한마디로 말하자면: 증거는 도입 속도를 훨씬 뒤따르고 있다.
전환이 필요하다. 모든 것을 AI에 맡기거나, 모두 거부하는 것이 아니라. 신중하게 검토된 하이브리드 방식이 필요하다. 와인스가 정확히 지적하듯, 그 중간 어딘가에 해답이 있다.