Deep Learning

Paper Review : HigherHRNet

해시브라우니 2022. 11. 5. 22:37

https://arxiv.org/abs/1908.10357

 

HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

Bottom-up human pose estimation methods have difficulties in predicting the correct pose for small persons due to challenges in scale variation. In this paper, we present HigherHRNet: a novel bottom-up human pose estimation method for learning scale-aware

arxiv.org

Bottom-up Human pose estimation 방식은 Scale Variation 때문에 작은 사람의 포즈를 추정하는데 어려움을 겪어왔으며, 문제점을 보완하기 위해 HigherHRNet을 발표하였고, 해당 Model은 고해상도 Feature Pyramid를 사용하는 Bottom-up방식의 모델이다. Multi-resolution Supervision을 통해 학습하고, 추론에서 해당 Multio-resolution을 통합함으로써 Scale Variation으로 인한 Bottom-up 방식의 문제를 해결하려 하였다. HigherHRNet의 Feature Pyramid는 HRNet에서 따왔으며, Deconvolution(Transpose Convolution)을 통해 고해상도의 결과물을 upsampling하는 역할을 한다.

해당 모델은 현존하는 Bottom-up 방식보다 더 좋은 결과를 나타내며, CrowdPose에서는 Top-down 방식을 능가하는 성능을 보여주었다.

2D pose Estimation 방식은 사람의 Keypoint를 찾아 localizing 하는 방식인데 현존하는 두개의 방식으로는 Top-down과 Bottom-up 방식이 존재한다. 

Top-down 방식은 각 사람을 먼저 Bounding Box로 Detect하고, 해당 사람의 Keypoint를 찾는 것으로 수행된다. Top-down 방식은 Scale-variation에 대해 덜 민감하다는 특징이 있으며, 따라서 항상 좋은 성능은 Top-down 방식의 Estimation에서 나왔다. 하지만 떨어져 있는 사람이나 개인마다 pose를 estimate해야하는 경우 계산이 매우 많아지며, 이는 end to end system이라고 말할 수 없었다.

반면 Bottom-up 방식은 Top-down과 달리 사람마다 Keypoint를 먼저 localize하며, 사람마다 grouping 하여 나타내는 방식이다. 이러한 방식은 더 빠르고 실시간의 pose estimation에 유용하다. 하지만, Scale variation에대한 문제가 남아있으며, 이것은 여전히 top-down과 bottom-up 방식 사이의 차이로 남아있다.

크기가 작은 사람의 keypoint를 예측하는데는 두가지 문제점이 존재한다.이는 크기가 큰 사람의 성능저하를 막으면서 작은 사람의 성능을 높이는 것(1)과 고해상도 히트맵을 만드는 것(2)이다. 

이전 bottom-up 방식은 keypoint를 grouping하는데 초점을 맞춰왔고 입력이미지의 1/4 해상도의 단일해상도 Feature map을 사용하였다. 이러한 방식은 Scale variation의 문제점을 해결하지 못하였고, Image pyramid의 결과에만 의존하게 되었다.

Feature pyramid는 Scale variation을 조절하는 기본요소이다. 하지만 저해상도의 feature map은 top-down feature pyramid에서 고해상도 히트맵의 제작에 문제점을 겪었다. (2번째 문제)

PersonLab에서 입력이미지의 해상도를 높임으로써 고해상도의 히트맵을 얻어냈고 이는 원하는 결과는 얻어냈지만, Large person에 대한 성능이 감소해버렸다. 따라서 이런 문제를 해결하기 위해 bottom-up 방식을 위한 공간적으로 더 정확하고 scale-aware한 히트맵을 만드는 것이 중요하게 되었다.

그래서 나온 것이 HigherHRnet이며 이러한 문제점들을 다루기 위해 HigherHRNet은 고해상도 히트맵을 고해상도 Feature pyramid를 통해 제작하고(backbone : HRNet) pyramid level에 해당하는 각각 다른 해상도를 training하기 위해 Multi-resolution Supervision 를 사용하였다. 그리고 마침내 추론 부분의 결합을 통해서 scale-aware한 고해상도 히트맵을 만들어내었다. 

HigherHRNet의 성능을 나타내는 문단이며, COCO 데이터셋에서 70.5%의 AP를, 다른 bottom-up방식보다 좋은 퍼포먼스를 보여주었다. 더나아가 크기가 큰 사람들의 인식률도 낮추지 않고 가장 좋은 결과를 얻었다는 것이 주목할 만했다. 여러 군중들이 모여있는 CrowdPose내에서는 67.6%의 AP를 달성하였고, 이는 bottom-up방식이 군중에 효과가 있다는 것을 나타내었다.

요약하면 

1. scale variation 문제를 다루기위해 bottom-up 방식을 사용하였고, 

2. small person 인식에 유리한 scale aware high resolution heatmap을 generate하는 HigherHRNet을 구현

3. COCO Dataset으로 증명하였고 타 bottom-up 방식보다 Outperform한 성능을 나타냄

4. CrowdPose에서 최고기록 갱신하면서 bottom-up 방식의 유리함을 보여줌

 

 

 

다음 포스트는 직접 구현해보고 결과를 나타낸 것을 작성할 예정.. 논문은 뒤에 내용이 더 있으나 기록용으로 앞의 내용만 적었음. 

제 첫번째 논문 리뷰고, 그냥 흔적 기록용이기 때문에 요약한 내용이 난해할 수 있으니 혹시 읽게 되시는 분은 양해 부탁드립니다.

1908.10357.pdf
1.62MB

 

'Deep Learning' 카테고리의 다른 글

StarGAN-V2 구현하기  (0) 2022.12.26
HigherHRNet : Model 구현  (0) 2022.11.20
WSL 시간 동기화 하기  (0) 2022.11.06
Linear Regression with Multiple variables  (0) 2022.07.18
What is Machine Learning  (0) 2022.07.15