저자의 의도
YOLOv7 기반으로 향상시킨 cnn과 transformer의 융합
기존 문제점
기존의 yolov7 아키텍처와 다른 객체 detect 모델들은 small object 를 detect 하는데 한계가 있어 cnn과 transformer의 융합을 통해 전반적인 성능을 개선하고, 작은 객체를 detect 하는 정확도에 중점을 뒀다.
해결 아이디어
1. cnn-swin transformer
- backbone으로 swin transformer을 사용하고, feature extraction module은 yolov7 을 따른다. 다양한 recetpive field의 input feature map 에서 특징을 추출할 수 있다. 이는 모델이 이미지에서 중요한 정보를 더 효과적으로 인식하도록 한다.
- swin-transformer 에서 2가지 self-attention 메커니즘 사용한다.
- window attention: window를 먼저 나눔으로써 창 간의 종보교환이 없어서 detection 속도를 개선하고, 로컬특징을 추출한다.
- shift window attention: 이동한 뒤에 window를 나눔으로써 글로벌 특징을 추출함
- so, 각 창 내에서 독립적으로 self-attention 을 적용하여 로컬특징을 추출하고, shift window 메커니즘을 통해 서로 다른 window간의 정보를 융합하여 글로벌 특징을 추출한다.
2. weighted ELAN
feature map을 융합하는 과정에서 각 feature map 에 가중치를 적용하는 방법은 2가지가 있다.
- W-ELAN1
- W-ELAN2
dynamic feature map을 융합한다. feature map 에 가중치를 주어 덜 중요한 정보는 억제하고, 중요한 정보에는 더 주의를 준다. 즉, 이미지에서 유의미한 정보를 강조하고 불필요한 정보를 줄이는 데 도움을 준다.
3. Multiscale channel split
- Multiscale Channel Split (MCS) 모듈은 모델이 다양한 스케일에서 대상 특징 정보를 인식할 수 있도록 개선하는 데 사용된다.
- small object detect에 중요한 역할을 한다.
4. concatenate convolutional layers
- CatConv 모듈은 YOLOv7의 feature fusion 부분인 MPConv 구조를 수정하여 개발되었다.
- 이 모듈은 최대 픽셀 값을 선택하는 MaxPool을 대체하여 CBSConcat을 생성하고, 다운샘플링 부분에서 관련 특징을 2배로 증가시킨 후 CatConv 모듈의 입력으로 사용한다 -> feature map 크기를 조정하고 특징 융합 전에 2단계 컨볼루션을 적용한다.
- YOLOv7의 detect head로 RepConv와 IDetect를 사용한다.
'논문리뷰' 카테고리의 다른 글
[논문 리뷰] DETRs Beat YOLOs on Real-time Object Detection (1) | 2024.03.18 |
---|---|
[논문 리뷰] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (0) | 2024.02.25 |
[논문 리뷰] Attention Is All You Need (1) | 2024.01.14 |