본문 바로가기
논문리뷰

[논문 리뷰] CST-YOLO: A NOVEL METHOD FOR BLOOD CELL DETECTION BASED ON IMPROVEDYOLOV7 AND CNN-SWIN TRANSFORMER

by King_eun 2024. 2. 28.

저자의 의도

YOLOv7 기반으로 향상시킨 cnn과 transformer의 융합

 

기존 문제점

기존의 yolov7 아키텍처와 다른 객체 detect 모델들은 small object 를 detect 하는데 한계가 있어 cnn과 transformer의 융합을 통해 전반적인 성능을 개선하고, 작은 객체를 detect 하는 정확도에 중점을 뒀다.

 

해결 아이디어

1. cnn-swin transformer


- backbone으로 swin transformer을 사용하고, feature extraction module은 yolov7 을 따른다. 다양한 recetpive field의 input feature map 에서 특징을 추출할 수 있다. 이는 모델이 이미지에서 중요한 정보를 더 효과적으로 인식하도록 한다. 

- swin-transformer 에서 2가지 self-attention 메커니즘 사용한다.

  • window attention: window를 먼저 나눔으로써 창 간의 종보교환이 없어서 detection 속도를 개선하고, 로컬특징을 추출한다.
  • shift window attention: 이동한 뒤에 window를 나눔으로써 글로벌 특징을 추출함
  • so, 각 창 내에서 독립적으로 self-attention 을 적용하여 로컬특징을 추출하고, shift window 메커니즘을 통해 서로 다른 window간의 정보를 융합하여 글로벌 특징을 추출한다.

2. weighted ELAN
feature map을 융합하는 과정에서 각 feature map 에 가중치를 적용하는 방법은 2가지가 있다.
- W-ELAN1
- W-ELAN2


 dynamic feature map을 융합한다. feature map 에 가중치를 주어 덜 중요한 정보는 억제하고, 중요한 정보에는 더 주의를 준다. 즉, 이미지에서 유의미한 정보를 강조하고 불필요한 정보를 줄이는 데 도움을 준다.


3. Multiscale channel split


- Multiscale Channel Split (MCS) 모듈은 모델이 다양한 스케일에서 대상 특징 정보를 인식할 수 있도록 개선하는 데 사용된다. 

- small object detect에 중요한 역할을 한다.


4. concatenate convolutional layers


- CatConv 모듈은 YOLOv7의 feature fusion 부분인 MPConv 구조를 수정하여 개발되었다.

- 이 모듈은 최대 픽셀 값을 선택하는 MaxPool을 대체하여 CBSConcat을 생성하고, 다운샘플링 부분에서 관련 특징을 2배로 증가시킨 후 CatConv 모듈의 입력으로 사용한다 -> feature map 크기를 조정하고 특징 융합 전에 2단계 컨볼루션을 적용한다.

- YOLOv7의 detect head로 RepConv와 IDetect를 사용한다.