엔지니어링
Jun 18, 2026
엔지니어링
비전-언어 모델 안전성 판단의 함정: 안전한 장면을 위험한 장면으로 판단하는 이유

최다솔
수석연구원 @에임인텔리전스

송영숙
연구원
Jun 18, 2026
엔지니어링
비전-언어 모델 안전성 판단의 함정: 안전한 장면을 위험한 장면으로 판단하는 이유

최다솔
수석연구원 @에임인텔리전스

송영숙
연구원
어느 날 소방서에 다급한 화재 신고가 들어옵니다. 누군가의 집에 큰불이 난 것 같다는 신고입니다. 소방대가 사이렌을 울리며 출동하고, 문을 열고 들어가 보니 집 안은 너무나 평온합니다. 연기도 없고, 매캐한 냄새도 없습니다.
알고 보니 원인은 최신형 고화질 텔레비전이었습니다. 집주인이 텔레비전에 벽난로 영상을 틀어두었고, 창밖에서 그 생생한 불꽃을 본 누군가가 실제 화재라고 착각해 신고한 것입니다. 2023년 뉴욕과 서울에서 실제로 보도된 사례입니다.
이 사건은 시각 정보가 판단에 얼마나 강하게 작용하는지 보여줍니다. 불꽃이라는 자극은 매우 강한 위험 신호이기 때문에, 그것이 텔레비전 화면이라는 맥락이 순간적으로 뒤로 밀릴 수 있습니다.
스마트홈 카메라, 도시 폐쇄회로 텔레비전, 공장 안전 시스템처럼 24시간 안전을 감시하는 인공지능이 같은 방식으로 텔레비전 속 불꽃을 실제 화재로 착각한다면 이 문제는 단순한 해프닝이 아닙니다. 반복되는 오탐은 운영 비용과 사용자 신뢰에 직접적인 영향을 줍니다.
Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition 논문은 아래의 질문에서 출발합니다.
현재의 비전-언어 모델은 진짜 응급 상황과, 겉보기에는 비슷하지만 실제로는 안전한 상황을 구분할 수 있을까요?

비전-언어 모델의 과잉 반응 문제: 실제 응급 상황(왼쪽)은 올바르게 위험으로 판단하지만, 시각적으로 비슷한 안전한 장면(오른쪽, 텔레비전 속 화재 영상)도 위험하다고 오분류합니다.
안전 판단에서 생기는 과잉 반응
비전-언어 모델은 이미지를 보고 설명하고, 질문에 답하고, 장면의 의미를 추론하는 데 빠르게 좋아지고 있습니다. 이 능력은 단순한 이미지 캡션을 넘어 스마트홈 모니터링, 폐쇄회로 텔레비전 분석, 접근성 도구, 콘텐츠 모더레이션처럼 현실의 안전과 연결된 영역으로 확장되고 있습니다.
안전 시스템을 만들 때 개발자는 자연스럽게 방어적으로 생각합니다. 위험을 놓쳐서 큰 사고가 나는 것보다는, 조금 과하게 반응하더라도 안전을 챙기는 편이 낫다고 판단합니다. 하지만 이 원칙이 자동화 시스템에서 지나치게 강하게 작동하면 다른 문제가 생깁니다. 예를 들어 자동차 도난 경보기가 작은 진동에도 계속 울린다면, 처음에는 확인하던 사용자도 곧 경보를 무시하게 됩니다.
인공지능 알림에서도 같은 문제가 발생할 수 있습니다. 모델이 화면 속 연기, 피, 칼, 불꽃, 쓰러진 사람 같은 위험 단서를 발견할 때마다 주변 맥락을 충분히 반영하지 않고 경보를 울린다면, 실사용 환경에서는 가짜 경보가 빠르게 누적됩니다. 아이가 든 플라스틱 장난감 칼을 무장 강도로 인식하거나, 소방 훈련을 실제 대형 화재로 판단하거나, 텔레비전 속 불꽃을 현실의 화재로 판단하는 식입니다.
이 글에서 말하는 과잉 반응은 이런 경향을 뜻합니다. 모델이 실제 위험은 비교적 잘 잡아내면서도, 안전한 상황까지 위험하다고 판단해 오탐을 대량으로 만드는 현상입니다.
이미지 이해에서 맥락이 중요한 이유
이 문제는 안전 도메인에만 국한되지 않습니다. 이미지 처리 관점에서 보면, 비전-언어 모델이 물체를 찾는 수준을 넘어 장면의 의미를 이해해야 할 때 마주치는 핵심적인 어려움에 해당합니다. 불꽃, 피, 칼, 쓰러진 사람 같은 시각 단서를 찾는 일과, 그 단서가 실제 위험을 의미하는지 판단하는 일은 서로 다릅니다.
전통적인 이미지 인식에서는 이미지 안에 어떤 물체가 있는지 맞히는 것이 중요한 목표였습니다. 하지만 비전-언어 모델이 제품과 서비스에 들어가면서 요구되는 능력은 더 넓어지고 있습니다. 모델은 이제 "무엇이 보이는가"뿐 아니라 "그것이 어떤 상황에서 보이는가"를 함께 해석해야 합니다. 같은 불꽃이라도 실제 화재, 텔레비전 속 벽난로 영상, 영화 포스터, 용접 작업, 훈련 장면은 서로 다른 의미를 갖습니다.
실제 입력 환경에서는 이런 혼합이 더 자주 발생합니다. 카메라에는 디스플레이 속 이미지, 유리 반사, 광고판, 포스터, 훈련용 장비, 증강현실 요소처럼 현실과 표현물이 함께 담길 수 있습니다. 영상 입력에서는 이런 장면이 단일 이미지가 아니라 연속된 프레임으로 들어옵니다. 따라서 시각 단서와 맥락을 결합하지 못하는 모델은 특정 안전 애플리케이션뿐 아니라, 현실 세계 이미지를 해석하는 멀티모달 시스템 전반에서 취약해질 수 있습니다.
시각적 응급 상황 인식 벤치마크 설계
이 문제를 제대로 측정하려면 일반적인 이미지 분류 데이터셋으로는 부족합니다. 인터넷에서 화재 사진, 칼 사진, 사고 사진을 모아 모델에게 물어보면 모델이 "위험해 보이는 물체"를 찾을 수 있는지만 알 수 있습니다. 실제로 확인해야 하는 것은 그보다 더 까다로운 능력입니다.
모델이 비슷하게 보이는 두 장면의 의미 차이를 이해할 수 있는지 확인해야 합니다. 이를 위해 논문에서는 시각적 응급 상황 인식(Visual Emergency Recognition)이라는 진단용 벤치마크를 만들었습니다.
시각적 응급 상황 인식 벤치마크의 핵심은 대조 이미지 쌍입니다. 하나의 쌍에는 시각적으로 매우 비슷한 두 이미지가 들어갑니다. 한 장은 실제 개입이 필요한 응급 상황이고, 다른 한 장은 겉보기에는 비슷하지만 안전한 상황입니다.
예를 들어 한 장은 길가에서 쓰러진 사람에게 심폐소생술을 하는 실제 응급 상황입니다. 다른 한 장은 강의실에서 마네킹을 놓고 심폐소생술 훈련을 하는 장면입니다. 두 이미지 모두 "사람처럼 보이는 대상이 누워 있고, 누군가가 가슴을 누른다"는 시각적 형태는 비슷합니다. 그러나 하나는 생명을 살려야 하는 현장이고, 다른 하나는 교육 현장입니다. 정답을 맞히려면 모델이 물체 배치만 보는 것이 아니라 장면의 목적과 맥락을 읽어야 합니다.
데이터셋은 다음과 같이 구성했습니다.
| 항목 | 구성 |
|---|---|
| 합성 이미지 | 100쌍, 총 200장 |
| 실제 이미지 검증 세트 | 25쌍, 총 50장 |
| 범주 | 사고 및 위험 행동, 개인 의료 응급 상황, 자연재해 |
| 평가 질문 | 위험 식별, 응급 대응 |
시각적 응급 상황 인식 벤치마크의 메인 데이터는 합성 이미지입니다. 실제 환경을 다루는 문제에서 합성 이미지를 사용한 데에는 두 가지 이유가 있습니다.
첫째, 실제 응급 상황 이미지는 개인정보, 동의, 윤리 문제가 큽니다. 피를 흘리며 쓰러진 사람이나 사고 현장 이미지를 대규모로 수집하고 배포하는 것은 신중하게 다루어야 하는 일입니다.
둘째, 통제가 어렵습니다. 실제 환자 사진과 심폐소생술 훈련 사진을 같은 조명, 같은 구도, 비슷한 인물 배치로 맞추기는 거의 불가능합니다. 하지만 시각적 응급 상황 인식 벤치마크가 보고 싶은 것은 배경 노이즈가 아니라 맥락 차이입니다. 합성 이미지를 쓰면 두 장면의 시각적 요소를 최대한 비슷하게 맞춘 뒤, 모델이 의미 차이를 읽는지 더 정밀하게 확인할 수 있습니다.
이런 통제 조건을 맞추기 위해 이미지 생성 과정도 대조쌍 중심으로 설계했습니다. 연구진은 GPT-4o를 활용해 같은 구도와 유사한 시각 요소를 유지하되, 한쪽은 실제 응급 상황으로, 다른 한쪽은 안전한 상황으로 보이도록 생성 프롬프트를 작성했습니다. 이후 응급 이미지는 실제 개입이 필요한 상황이어야 하고, 안전 이미지는 명확히 위협적이지 않지만 사람이나 모델이 헷갈릴 수 있는 장면이어야 한다는 기준을 세웠습니다. 연구자와 독립 평가자는 이 기준을 만족할 때까지 합성 이미지를 반복적으로 만들고 검수했습니다.

시각적 응급 상황 인식 데이터셋의 세 범주(사고 및 위험 행동, 개인 의료 응급 상황, 자연재해)별 대조 이미지 쌍. 위쪽(붉은 배경)은 개입이 필요한 응급 상황, 아래쪽(녹색 배경)은 시각적으로 비슷하지만 안전한 상황입니다.
위험 식별과 응급 대응 평가
평가는 두 부분으로 나누었습니다. 먼저 장면의 위험 여부를 판단하고, 그다음 위험하다고 판단한 상황에 대해 적절한 대응을 제안하게 했습니다.
첫 번째는 위험 식별입니다. 모델에게 이미지를 보여주고, 상황이 위험한지 안전한지 이진 분류하게 합니다. 여기서는 정밀도, 재현율, 에프원 점수를 계산합니다. 위험한 장면을 얼마나 놓치지 않는지뿐 아니라, 안전한 장면을 얼마나 잘 안전하다고 판단하는지도 함께 봅니다.
두 번째는 응급 대응입니다. 모델이 실제 위험 이미지를 위험하다고 올바르게 판단한 경우, 어떤 응급 조치를 해야 하는지 묻습니다. 응답은 사전에 정리한 기준 답변과 비교해 0에서 1 사이의 점수로 평가했습니다. 이를 통해 모델이 위험을 감지한 뒤 적절한 행동 지침까지 제시할 수 있는지 확인했습니다.
실험에는 오픈소스 모델과 상용 응용 프로그램 인터페이스로 접근할 수 있는 모델을 포함해 총 17개 비전-언어 모델을 사용했습니다. Qwen2.5-VL, LLaVA-Next, InternVL3, Pixtral, Mistral 계열, Idefics2, Phi-3.5-vision과 함께 GPT-4o, Gemini-2.5-Flash, Claude-4-Sonnet을 평가했습니다. 모델 크기는 2B부터 124B까지 다양했습니다.
안전한 장면에서 드러난 높은 오탐률
실험 결과는 일관된 경향을 보였습니다. 모델들은 실제 위험 상황을 비교적 잘 탐지했습니다. 위험 이미지에 대한 재현율은 70%에서 100% 범위였습니다. 실제 위험을 놓치지 않는 데에는 비교적 강한 성능을 보였습니다.
반면 안전한 장면을 안전하다고 판단하는 능력은 상대적으로 낮았습니다. 정밀도는 0.51에서 0.72 수준에 머물렀습니다. 즉, 위험한 장면을 놓치지 않으려는 성향은 강했지만, 안전한 장면을 위험으로 오판하는 경우가 많았습니다.
특히 안전 이미지를 위험하다고 잘못 분류한 비율은 모델에 따라 31%에서 96%까지 나타났습니다. 반대로 실제 위험을 안전하다고 놓친 비율은 2%에서 30%였습니다. 안전한 장면을 위험으로 보는 오류가 실제 위험을 놓치는 오류보다 훨씬 많았다는 뜻입니다.
상용 모델도 예외는 아니었습니다. GPT-4o는 38%, Gemini-2.5-Flash는 39%, Claude-4-Sonnet은 42%의 오탐률을 보였습니다. 이는 단순히 작은 오픈소스 모델의 한계라기보다, 현재 비전-언어 모델이 안전 관련 시각 단서를 해석하는 방식 전반에 존재하는 패턴에 가깝습니다.
모델 크기도 이 문제를 일관되게 해결하지는 못했습니다. 파라미터가 늘어나면 더 복잡한 맥락도 자연스럽게 이해할 것이라는 기대가 있지만, 이번 실험에서는 그런 경향이 뚜렷하지 않았습니다.
Qwen2.5-VL 계열에서는 크기가 커질수록 정밀도가 어느 정도 올라갔지만, 다른 계열에서는 중간 크기 모델이 더 큰 모델보다 나은 경우도 있었습니다. 가장 큰 Pixtral-Large(124B)도 과잉 반응 문제에서 자유롭지 않았습니다. 모델 크기만으로 텔레비전 속 불꽃과 실제 화재를 구분하는 맥락 판단이 자동으로 개선되지는 않았습니다.

Precision-Recall 트레이드오프. 점의 크기는 모델 파라미터 수를 나타냅니다. 모델들이 높은 재현율, 낮은 정밀도 영역에 몰려 있어 과잉 반응 경향을 보여줍니다.

모델별 오탐(안전→위험)과 미탐지(위험→안전) 비율. 상용 모델을 포함한 모든 모델에서 오탐이 미탐지보다 일관되게 많습니다.
과잉 반응이 생기는 두 가지 이유
오류를 분석해보면 두 가지 패턴이 보입니다.
첫 번째는 시각적 오해(Visual Misinterpretation)입니다. 모델이 이미지 속 요소를 잘못 보는 경우입니다. 예를 들어 마네킹을 실제 사람으로 착각하거나, 텔레비전 화면 속 불을 현실의 불로 판단하는 식입니다.
두 번째는 맥락 과잉 해석(Contextual Overinterpretation)입니다. 모델이 시각 요소 자체는 맞게 보지만, 그 요소가 실제로 위험한지 판단하는 맥락 추론에서 과하게 반응하는 경우입니다. 예를 들어 평범한 농작업을 하면서 보호 장비가 없다는 이유로 위험하다고 보거나, 카드 마술을 질식 위험으로 해석하거나, 통제된 환경의 물과 불을 실제 재난처럼 판단하는 식입니다.
전체적으로는 맥락 과잉 해석이 압도적이었습니다. 모델별 오탐 중 적어도 88%가 이 유형이었습니다. 특히 자연재해 범주에서의 오류는 모두 맥락 과잉 해석으로 분류되었습니다. 모델은 불, 물, 연기, 파도 같은 위험 관련 요소를 인식할 수 있었지만, 그것이 통제된 환경인지, 재현된 장면인지, 화면 속 표현인지까지 안정적으로 판단하지 못했습니다.
예를 들어 평범하게 밭에서 농작업을 하는 사람을 치명적인 생명 위협으로 판단하거나, 입에서 트럼프 카드를 꺼내는 마술 장면을 심각한 질식 위험으로 해석하거나, 통제된 인공 파도풀을 거대한 쓰나미 재난처럼 판단하는 사례가 있었습니다. 모델은 위험과 관련된 시각 단서를 포착했지만, 사람들이 웃고 있는지, 훈련용 장비가 있는지, 영화 스크린인지, 통제된 시설인지 같은 단서는 충분히 반영하지 못했습니다.
특히 7개의 안전 시나리오는 평가한 17개 모델 모두가 위험하다고 오분류했습니다. 이 사례들은 현재 비전-언어 모델이 공통적으로 취약한 트리거가 무엇인지 보여줍니다. 위험과 강하게 연결된 시각 요소가 등장하면, 안전을 설명하는 주변 단서가 있어도 모델이 이를 충분히 반영하지 못할 수 있습니다.
대표적인 사례가 자동차 극장입니다. 넓은 공터에 차들이 주차되어 있고, 스크린에는 거대한 뇌우 장면이 상영되고 있습니다. 사람에게는 명백히 영화로 보이는 장면이지만, 17개 모델 모두가 이를 실제 자연재해로 판단했습니다. 영화 스크린이라는 프레임이 있는데도, 스크린 속 폭풍을 현실의 폭풍으로 받아들였습니다.
다만 이 7개의 보편적 오분류는 전체 오류의 주류였던 맥락 과잉 해석과는 결이 조금 다릅니다. 논문은 이 극단적 사례들이 주로 시각적 오해에서 비롯되었다고 분석합니다. 하나는 미디어 속 표현을 현실로 착각하는 경우입니다. 드라이브인 극장 스크린 속 뇌우나 포스터 속 홍수 이미지를 실제 재난으로 분류했습니다. 다른 하나는 시각적으로 비슷한 장면을 혼동하는 경우로, 케첩을 피로, 훈련용 마네킹을 위험에 처한 실제 사람으로 보았습니다. 즉, 가장 고치기 어려운 오류는 맥락 추론 이전에 "무엇이 보이는가" 단계에서 이미 갈라지고 있었습니다.

안전한 상황을 위험하다고 오분류한 사례. 모델은 시각 요소를 잘못 보거나(시각적 오해), 요소는 맞게 보지만 위험도를 과장합니다(맥락 과잉 해석). 예를 들어 아이의 셔츠를 질식 위험으로, 자동차 사이드미러를 자전거 운전자를 눈멀게 할 위험으로 해석합니다.
위험 판단과 대응 생성 사이의 간극
위험 상황을 올바르게 인식한 뒤 어떤 조치를 제안하는지는 비교적 모델 크기와 함께 좋아지는 경향을 보였습니다. Qwen2.5-VL 계열은 응급 대응 점수가 0.46에서 0.70으로, InternVL3 계열은 0.50에서 0.64로, Mistral 계열은 0.59에서 0.68로 올라갔습니다.
반면 위험 식별의 정밀도는 크기와 일관되게 비례하지 않았습니다. 이는 응급 대응에 필요한 절차적 지식과, 애매한 장면에서 실제 위험 여부를 판단하는 맥락 추론이 서로 다른 능력일 수 있음을 시사합니다.
현재 모델은 응급 대응 절차에 대한 언어적 지식은 비교적 잘 활용하지만, 눈앞의 장면이 실제 응급 상황인지 훈련 장면인지 구분하는 데는 약할 수 있습니다. "이 상황이 위험하다면 무엇을 해야 하는가"에는 비교적 잘 답할 수 있지만, "이 상황이 정말 위험한가"에는 더 쉽게 흔들립니다. 입력 판단이 틀리면 그 뒤의 대응 문장도 오탐의 일부가 됩니다.
실제 서비스에서는 이 차이가 중요합니다. 응급 대응 문장을 잘 생성하는 모델이라도, 위험 판단에서 오탐이 많으면 시스템 전체의 신뢰도는 낮아질 수 있습니다. 안전 시스템의 품질은 답변의 완성도뿐 아니라, 언제 경보를 발생시키는지에 따라서도 결정됩니다.
프롬프트의 효과와 한계
프롬프트를 더 엄격하게 작성하면 과잉 반응을 줄일 수 있지 않을까라고 생각할 수 있습니다. 예를 들어 모델에게 "진짜 생명 위협이 명확할 때만 위험이라고 답하라"고 지시할 수 있을 것입니니다. 저희도 논문 이 가능성을 확인했습니다. 위험 식별 프롬프트에 "명확하고 즉각적인 조치가 필요한 위험이 있을 때만 위험(Dangerous)을 선택하고, 그렇지 않으면 안전(Safe)을 선택하라"는 조건을 추가했습니다.
이 같은 상황에서도 정밀도는 올라갔지만 재현율은 떨어졌습니다. 즉, 오탐은 줄었지만 실제 위험을 놓치는 경우가 늘었습니다. 안전 시스템에서는 어느 쪽 오류를 더 줄여야 하는지가 상황마다 달라집니다. 홈 모니터링처럼 사용자의 신뢰가 중요한 영역에서는 정밀도가 중요할 수 있고, 산업 현장이나 응급 구조처럼 위험을 놓치는 비용이 큰 영역에서는 재현율이 더 중요할 수 있습니다.
결국, 프롬프트만으로 근본 문제가 사라지지는 않는다는 것을 알 수 있었습니다. 조건을 너무 보수적으로 만들면 모델은 실제 위험 장면에서도 판단을 유보할 수 있습니다. 가짜 경보는 줄어들지만 실제 위험을 놓칠 가능성이 커집니다. 임계값을 사후 조정해도 비슷한 한계가 나타났습니다. 과잉 반응은 출력 형식보다 현재 비전-언어 모델이 시각 단서와 맥락 단서를 결합하는 방식에 더 가깝게 연결되어 있습니다.

보수적 프롬프트의 효과. 화살표는 기본 프롬프트(비어 있는 점)에서 보수적 프롬프트(채운 점)로의 변화를 나타냅니다. 정밀도는 일관되게 오르지만(위) 재현율은 떨어집니다(아래). 프롬프트 조정은 오탐을 줄이는 대신 실제 위험을 놓치는 경우를 늘릴 수 있습니다.
실제 이미지에서도 반복된 패턴
합성 이미지 기반 벤치마크에서는 실제 이미지에서도 같은 현상이 나타나는지 확인할 필요가 있습니다. 이를 확인하기 위해 논문에서는 25개의 실제 이미지 대조 쌍, 총 50장을 추가로 수집해 검증했습니다.
실제 이미지에서도 같은 패턴을 볼 수 있었습니다. 평가한 대표 모델들은 88%에서 100%의 높은 재현율을 보였지만, 정밀도는 57%에서 68% 범위였습니다. 오탐이 계속 지배적으로 나타났습니다. 실제 이미지 쌍은 합성 데이터만큼 정교하게 맞추기 어렵고 규모도 작지만, 결과가 같은 방향으로 반복되었다는 점에서 시각적 응급 상황 인식 벤치마크의 진단적 가치가 확인되었습니다.
합성 데이터는 현실을 완전히 대체하지 않습니다. 하지만 특정 능력을 분리해서 테스트해야 할 때는 효과적입니다. 특히 이번처럼 "시각적으로 비슷하지만 의미가 다른 장면"을 통제해서 만들고 싶을 때, 합성 데이터는 모델의 취약점을 드러내는 데 유용합니다.
실제 환경에서는 오탐도 비용
비전-언어 모델이 실제 제품과 서비스 안으로 들어오면, 모델은 더 이상 데모 환경의 단일 입력에만 답하지 않습니다. 카메라, 센서, 알림 시스템, 대시보드, 사용자 워크플로우와 연결됩니다.
도시 폐쇄회로 텔레비전 관제센터나 스마트 공장을 생각해보면 더 분명합니다. "불꽃을 즉시 감지한다"는 설명만으로는 실제 운영 성능을 판단하기 어렵습니다. 화면 속 불꽃, 훈련용 연기, 영화 포스터, 용접 불꽃, 실제 화재를 얼마나 잘 구분하는지도 함께 보아야 합니다.
초당 수십 프레임이 쏟아지는 데이터 흐름 안에서 인공지능이 맥락을 오해해 수천 건의 가짜 경보를 만들면, 오탐은 단순한 숫자가 아닙니다. 불필요한 출동 비용, 직원의 알림 피로, 운영자의 스트레스, 그리고 무엇보다 시스템 신뢰의 하락으로 이어집니다. 알림이 반복적으로 틀리면 실제 위험 상황에서도 경고가 무시될 수 있습니다.
따라서 위험 판단 모델을 배포할 때는 모델 점수만으로 충분하지 않습니다. 어떤 조건에서 알림을 발생시키는지, 오탐과 실제 위험을 놓치는 경우를 어떻게 기록하는지, 카테고리별 임계값을 어떻게 조정하는지, 사람이 확인하는 절차를 어디에 둘 것인지까지 함께 다루어야 한다고 하겠습니다.
이번 결과를 통해 몇 가지 실무적 교훈을 얻을 수 있었습니다.
- 정밀도와 재현율을 함께 봐야 합니다. 높은 재현율만 보고 위험 탐지 모델을 배포하면 오탐 비용을 놓치기 쉽습니다.
- 카테고리별 정책이 필요합니다. 의료 응급 상황, 사고, 자연재해는 시각 단서와 오탐 비용이 다르기 때문에 하나의 임계값이나 프롬프트로 모두를 다루기 어렵습니다.
- 맥락 추론을 별도로 평가해야 합니다. 위험 요소를 인식하는 능력과 그 요소가 실제 위험인지 판단하는 능력은 서로 다릅니다.
- 운영 루프가 중요합니다. 실제 배포에서는 알림 빈도, 사용자 피드백, 사람이 개입하는 확인 절차, 사후 분석 로그가 모델 성능만큼 큰 영향을 줍니다.
다음 과제: 시간과 물리적 맥락 이해
현재 비전-언어 모델은 불이나 피, 쓰러진 사람처럼 위험과 강하게 연결된 시각 단서를 민감하게 포착합니다. 그러나 그 단서가 실제 응급 상황을 의미하는지, 훈련이나 재현 장면처럼 안전한 맥락에 놓여 있는지는 안정적으로 구분하지 못했습니다. 모델을 더 크게 만드는 것만으로는 이 문제가 자연스럽게 해결되지 않았고, 보수적 프롬프트도 근본적인 해법은 아니었습니다. 오탐을 줄이는 대신 실제 위험을 놓치는 경우가 늘어났기 때문입니다. 결국 평가해야 할 능력은 물체 인식 자체가 아니라, 시각 단서가 놓인 상황을 해석하는 능력입니다.
이와 같은 과제는 피지컬 AI에 대한 관심이 높아질수록 더 중요해집니다. 로봇, 자율주행 시스템, 현장 감시 에이전트는 한 장의 이미지만 보고 판단하지 않습니다. 시간에 따라 사람이 어떻게 움직이는지, 불꽃이나 연기가 퍼지는지, 주변 사람들이 대피하는지 훈련을 진행하는지, 물체가 실제 공간에서 어떤 상호작용을 일으키는지를 함께 보아야 합니다. 즉, 정적인 시각 인식보다 시간적 인지와 물리적 맥락 판단이 더 중요해집니다.
시각적 응급 상황 인식 벤치마크는 이 전환점에 자리매김하고 있습니다. 안전한 모델을 만들려면 위험 단서를 잘 찾는지뿐 아니라, 그 단서가 실제 세계에서 어떤 사건으로 이어지는지까지 평가해야 합니다. 오탐과 실제 위험을 놓치는 경우를 함께 줄이는 평가, 카테고리별 정책, 사람의 확인 절차는 그 출발점이라고 하겠습니다.
참고 자료