길을 걷다가 마주치는 무인매장들, 곳곳에 배치된 방범 CCTV 카메라들...
하지만 기존의 영상 감시 시스템은 다음과 같은 한계를 가지고 있습니다.
- 감시 인력이 직접 모니터링해야 한다는 점
- 사건이 발생한 이후에만 대응이 가능하다는 점
이러한 문제를 해결하기 위해, VLM(Visual Language Model) 기반의 멀티모달 CCTV 시스템을 개발하였습니다.
자동으로 상황을 인식하고, 실시간 모니터링 정보를 갱신하는 AI CCTV를 구현하여 감시 인력을 줄이고 더욱 신속한 대응이 가능하도록 하였습니다.
기능 | 모델 | 설명 |
---|---|---|
객체 탐지 (Object Detection) | YOLO | CNN 기반의 1-stage 탐지 모델로, 이미지 내 객체의 위치와 클래스를 실시간으로 예측 |
이미지 캡셔닝 (Image Captioning) | BLIP | Transformer 기반 멀티모달 모델로, ViT 이미지 인코더와 BERT 언어 모델을 활용하여 이미지에 대한 설명(캡션) 생성 |
비디오 캡셔닝 (Video Captioning) | VAST | Transformer 기반 모델로, 멀티모달 정보를 병합하여 비디오 내 행위를 이해하고 캡션 생성 |
데이터셋 | 설명 |
---|---|
Carades Dataset | 일상생활에서 수행하는 다양한 행동을 학습하기 위한 비디오 데이터셋 (9848개의 비디오 클립 및 스크립트 포함) → BLIP & VAST 모델 학습에 활용 |
Kid_Image Dataset | 다양한 연령대와 성별의 사람들이 가방, 책, 휴대폰 등과 상호작용하는 6,927개의 이미지 → YOLO 모델 학습에 활용 |
사람의 위험한 행동을 감지하여 경고를 주는 기능을 수행한다.
object detection을 수행하여 사람이 감지된다면 관심있게 보고, 병렬적으로 image & video captioning을 통해 상황에 대한 캡션을 생성, 캡셔닝을 통해 사람의 행동을 추출하여 위험 행동을 효과적으로 감지.
- 언어 & 프레임워크:
Python
,PyTorch
,OpenCV
이름 | 기수 | 역할 |
---|---|---|
김도현 | 3기 | 객체 탐지 모델 훈련 |
심수민 | 2기 | 객체 탐지 모델 훈련 |
이예은 | 6기 | 비디오 캡셔닝 모델 훈련 |
호수빈 | 6기 | 이미지 캡셔닝 모델 훈련 |
박예은 | 6기 | 디자인 |
# 1️⃣ 필수 라이브러리 설치
pip install -r requirements.txt
# 2️⃣ 모델 실행 (예시)
python main.py