Cascade_rcnn + Swin Transformer + multi scale mode #35
JiyouSeo
started this conversation in
Show and tell
Replies: 1 comment 1 reply
-
그런데 validset을 어떻게 구성하고 테스트하고계신건가요...? |
Beta Was this translation helpful? Give feedback.
1 reply
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
backbone : SwinTransformer
roi head : Cascade ROI head
multi scale mode : img_scale=[(480, 1024), (512, 1024), (544, 1024), (576, 1024),
(608, 1024), (640, 1024), (672, 1024), (704, 1024),
(736, 1024), (768, 1024), (800, 1024)], (configs파일의 swin의 mask_rcnn_swin-t-p4-w7_fpn_ms-crop-3x_coco 참고하여 1024로수정)
epoch : 10
aistage mAP : 0.477
backbone으로는 SwinTransformer를 사용하였고, roi head는 classifier에서 순차적으로 IOU를 높여 BBox를 학습하는 방법인 cascade rcnn을 사용하였습니다. (사실 SwinTransformer는 SOTA라는 오피스아워때의 멘토님 말씀에 시도해보았습니다. 앞으로 공부해볼 생각입니다.)
제 생각에 lr이 0.0001부터 시작하여 10 epoch까지만 돌았기 때문에 아직까지 학습의 여지가 남아있을 것으로 생각됩니다.
multi scaling을 iteration마다 진행하는지라, 각 s1 loss가 0.1xxx(cls, bbox), s1 acc 93~94, ...을 상회하고 있습니다.
multi scaling을 진행한 계기는 아무래도 object 크기가 다양한지라, stage단에서의 low level ~ high level간의 feature 공유뿐만아니라
input 단에서 image 크기를 다양하게 학습하면 어떨까하는 생각에 진행해 보았습니다.
총 32 epoch을 돌리고 있는데, 10 epoch에서 추론을 진행하여 제출한 이유는 오늘 12시 이전에 제출 횟수가 많이 남은 것 같아서 제 제출횟수를 1개 쓰기 위해서 제출해보았습니다. 앞으로 32 epoch을 다 돌려서 내일쯤 result를 이미지에 본격적으로 시각화해보고 다시 제출해볼 생각입니다.
reulst.pdf
result2.pdf
Beta Was this translation helpful? Give feedback.
All reactions