[Object Detection] Faster RCNN 를 처음 접한 뒤 의문점 및 정리


이걸 공부할 때는 Chat GPT가 지금처럼 활발하지 않았었는데.. 지금 물어보니 자세한 답변이 나온다.

그리고 되게 당연한 걸 궁금해했던 것 같다 ㅋㅋㅋ


1. sliding window

Q. Sliding window가 정확히 어떻게 쓰이는 건가요? anchor box로 변하게 된다는데 layer의 일종인가요?

sliding window

sliding window는 기법 이름
정의된 커널을 미는 것처럼 feature가 얼마나 부합하는지 따져보는것


2. hyperparameter 256

Q . RPN구조에서 sliding window는 feature로 변하게 되는데 256의 수는 왜 이렇게 정의된 것이며 anchor box의 개수가 9인 것과 관련이 있나요?
A . hyperparameter의 수를 경험적으로 256으로 정의한 것


3. RPN Loss function

RPN Loss function

Q. RPN Loss function 우항에서 윗 줄은 classfication의 score / 아랫줄은 Bounding box의 location인데 합이 어떻게 상수로 표현 가능한가요? 람다에서 분모에 들어가는 값도 전체 location의 값인데 이 부분이(상수로 도출된다는 것이)잘 이해가 가지 않습니다.(location이라 함은 좌표나 벡터라고 생각했다)

A. 여기서 IoU 값이 쓰인다 (location 의 도출값)  


 

IoU관련해서는 이 글이 도움이 됐다
https://gaussian37.github.io/math-algorithm-iou/

'ML DL > Object Detection' 카테고리의 다른 글

[Object Detection] YOLO, RCNN, Fast R-CNN  (0) 2023.09.23