본문 바로가기
논문리뷰

[논문 리뷰] DETRs Beat YOLOs on Real-time Object Detection

by King_eun 2024. 3. 18.

저자의 의도

- 실시간으로 작은 객체들을 정확하게 Detect 하려는 목적

 

기존 문제점

- 1. Real-time object detectors
- 실시간 객체 추적의 모델들은 anchor box 들로인해 여러개의 박스가 생성돼서 NMS 후처리를 해야한다. so, 정확도와 속도에 영향을 미친다.

2. End-to-end object Detectors
- transformer이 베이스인 object detrcotr 인 DETR 이 처음으로 제안됐다. 
- anchor와 NMS 를 제거하고 BIPARTITE MATCHING 방법을 사용하여 객체들을 직접적으로 하나씩 매칭하고 예측한다.
- detect 파이프라인을 단순화하고 NMS 로 인한 성능 병목현상을 줄인다.
- 문제점이 느린 학습수렴과 최적화하기 어려운 쿼리이다.
- so, 여러가지 변형된 DETR 모델들이 제안됐다.
- Deformable-DETR, Conditional DETR, Anchor DETR, DAB-DETR, DN-DETR, Group-DETR, DINO... 

3. Multi-scale Features for Object Detection
- multi-scale 특징은 작은 객체 탐지에 효과적이다.
- FPN 은 인접한 스케일의 특징들을 융합한다.

 

해결 아이디어

1. Model Overview


- backbone, hybrid encoder, transformer decoder 
- backbone에서 S3,S4,S5 의 세단계가 encoder의 input 으로 들어감, 이 단계들에서 추출된 특성들은 이미지의 다양한 크기와 관점에서 중요한 정보를 담고 있다.
- hybrid encoder - 다양한 스케일의 특성을 시퀀스의 이미지 특성으로 변환한다. 동일 스케일 내에서의 상호작용(intra-scale interaction)과 다른 스케일 간의 융합(cross-scale fusion) 을 통해 이루어진다.
- IOU-aware Query selection - eoncoder의 출력 시퀀스에서 고정된 수의 이미지 특성을 선택하여 decoder 의 초기 객체 쿼리로 사용한다. 
- Decoder 와 Auxiliary prediction heads - decoder 는 보조 예측 헤드 (auxiliary prediction heads) 와 함께 객체 쿼리를 반복적으로 최적화하여 상자와 신뢰도 점수를 생선한다. 이는 detect 된 객체의 위치와 크기를 결정하고 그 신뢰도를 평가하는 과정이다.

 

2. Efficient Hybrid Encoder


- Computational bottleneck analysis -> 계산 병목 현상을 해결하기 위해서 multi scale 특징을 도입하고 attention mechanism 을 사용하여 DETR 의 학습 수렴 속도와 성능을 향상시킬 수 있다. but, 입력시퀀스의 길이가 급격히 증가함에 따라 인코더가 계산 병목이 되어 실시간 DETR 의 구현을 방해한다.
- Deformable-DETR -> Deformable-DETR 의 인코더는 전체 계산 중 49% 를 차지하지만 성능에는 단 11%만 기여한다.
- 해결책
- encoder 구조 개선: 멀티스케일 특징 상호작용을 두 단계의 작업(동일 스케일 상호작용과 교차 스케일 융합) 으로 분리함으로써 모델 정확도를 향상시키고 계산 비용을 크게 줄인다.


- 효율적 하이브리드 인코더: attention 기반 동일 스케일 상호 작용(AIFI) 모듈과 CNN 기반 교차 스케일 특징 융합 모듈(CCFM) 로 구성된다. AIFI는 고수준의 특징(S5) 에만 attention 연산을 적용하여 의미 있는 개념들 간의 연결을 찾는다. CCFM 은 교차 스케일 특징 융합을 위해 여러 융합 블록을 사용한다.

 

3. IoU-aware Query selection
- 분류 점수와 위치 신뢰도의 분포가 일치하지 않아, 높은 분류 점수를 가지면서도 실제 객체(GT, Ground Truth) 상자에 가깝지 않은 예측 상자가 발생할 수 있다. 이는 디텍터의 성능 저하를 불러일으킨다. 이를 해결하기 위해, 저자들은 IoU 점수가 높은 특징에는 높은 분류 점수를, IoU 점수가 낮은 특징에는 낮은 분류 점수를 부여하는 IoU-aware 쿼리 선택을 제안했다.

 

4. scaled RT-DETR
- ResNet 백본을 HGNetv2 로 교체한다 -> 모델의 전반적인 성능 향상

- 백본 및 하이브리드 인코더의 확장 -> 모델의 크기를 조절하기 위해 백본과 하이브리드 인코더를 depth multiplier, width multiplier를 사용해 확장한다.

- 위의 2가지 조정을 통해 파라미터 수와 FPS 가 다른 두 가지 버전의 RT-DETR 을 얻을 수 있다.