본문 바로가기

전체 글5

[논문 리뷰] DETRs Beat YOLOs on Real-time Object Detection 저자의 의도 - 실시간으로 작은 객체들을 정확하게 Detect 하려는 목적 기존 문제점 - 1. Real-time object detectors - 실시간 객체 추적의 모델들은 anchor box 들로인해 여러개의 박스가 생성돼서 NMS 후처리를 해야한다. so, 정확도와 속도에 영향을 미친다. 2. End-to-end object Detectors - transformer이 베이스인 object detrcotr 인 DETR 이 처음으로 제안됐다. - anchor와 NMS 를 제거하고 BIPARTITE MATCHING 방법을 사용하여 객체들을 직접적으로 하나씩 매칭하고 예측한다. - detect 파이프라인을 단순화하고 NMS 로 인한 성능 병목현상을 줄인다. - 문제점이 느린 학습수렴과 최적화하기 어려운.. 2024. 3. 18.
[논문 리뷰] CST-YOLO: A NOVEL METHOD FOR BLOOD CELL DETECTION BASED ON IMPROVEDYOLOV7 AND CNN-SWIN TRANSFORMER 저자의 의도 YOLOv7 기반으로 향상시킨 cnn과 transformer의 융합 기존 문제점 기존의 yolov7 아키텍처와 다른 객체 detect 모델들은 small object 를 detect 하는데 한계가 있어 cnn과 transformer의 융합을 통해 전반적인 성능을 개선하고, 작은 객체를 detect 하는 정확도에 중점을 뒀다. 해결 아이디어 1. cnn-swin transformer - backbone으로 swin transformer을 사용하고, feature extraction module은 yolov7 을 따른다. 다양한 recetpive field의 input feature map 에서 특징을 추출할 수 있다. 이는 모델이 이미지에서 중요한 정보를 더 효과적으로 인식하도록 한다. - s.. 2024. 2. 28.
[논문 리뷰] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 저자의 의도 이미지 분야에서 attention 기법을 사용할 경우 대부분 CNN과 함께 사용되거나 CNN 구조를 유지하면서 CNN 의 특정 구성 요소를 대체하는데 사용했는데 vit 에서는 CNN에 의존하지 않고 이미지 패치의 시퀀스를 입력값으로 사용하는 transformer 를 적용했다. 기존 문제점 self-attention 과 결합하려고 하고 있고, 일부는 conv 을 완전히 대체한다.but, 하드웨어에서 제한적임. so, resnet과 유사한 아키텍처가 여전히 최첨단임 - CNN 보다 성능 좋게 하려면? large scale로 학습하고 적은 데이터로 전이학습 시키면 성능이 높아진다. 해결 아이디어 VISION TRANSFORMER (VIT) 원래의 transformer와 비슷하게 만들어서 nlp t.. 2024. 2. 25.
[논문 리뷰] Attention Is All You Need 저자의 의도 - input과 output 간 전역 의존성을 모델링 할 수 있는 Attention mechanism만을 사용한 모델 구조인 Transformer 을 제안했다. 기존 문제점 - recurrent model은 input과 output의 symbol positions에 따라 계산한다. 그러나 이것은 train시에 sequence가 길어질수록 병렬화가 불가능해져 메모리 제약으로 인해 예제 간 일괄 처리가 제한된다. - rnn과 cnn 모델 모두에게 존재하는 장거리 의존성 문제가 존재한다. rnn은 문장의 순차적인 특성이 유지되지만 먼거리에 있는 의존성을 알기 취약하다는 단점이 있다. 그리고 cnn은 근처의 특징들만 연산하는 국소적인 메카니즘의 문제가 있다. 해결 아이디어 1. scaled dot-.. 2024. 1. 14.