반응형

PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model

feature

  • box-free bottom-up
  • multi-person
  • single shot model
  • pose estimation, instance segmentation

Keypoint detection

Goal: 각각의 사람마다 키포인트 감지
Base paper: Papandreou, G., Zhu, T., Kanazawa, N., Toshev, A., Tompson, J., Bregler, C., Murphy, K.: Towards accurate multi-person pose estimation in the wild. In: CVPR. (2017)
keypoint detecting: 키포인트 예측은 각 채널별로 binary classification으로 접근. 예측한 키포인트가 GT에서 R(radius)범위 안에 있다면 정답 이때 R은 32(pixel)로 설정

Short-range offset: 히트맵을 예측할 때 같이 예측함. R의 값에 노말라이즈됨. 임의의 픽셀에서 가까운 키포인트로 향하는 벡터

Hough arrays: 히트맵과 short range offset을 이용하여 hough voting을 함

Mid-range offset:

반응형
반응형

Pose Estimation

Pose Estimation

  • 컴퓨터 비전에서 인간, 동물 등의 객체의 위치(Position)와 방향(Orientation)을 탐지하는 문제
  • 사람의 신체 관절인 키포인트(Keypoint)의 위치를 측정(Localization)하고 추정(Estimation)하는 문제
  • 평가지표: https://ctkim.tistory.com/101?category=906618, 추가 -

--PCKh: 전체 프레임에서 사람의 스케일링이 변화되므로 머리 크기에 따라 적응적 임계값 적용 --MAP: Multi-person Pose Estimation의 평가지표로 사용

  • 2D: x, y , 3D: x, y, z
  • Top-down: 사람 인식 후 crop -> pose estimation
    • 정확도 높음
    • Detection 성능에 의존
    • 속도 느림 - 다중 객체 환경에서 특히
  • Bottom-up: 영상에 포함된 사람의 키포인트를 모두 추정하고, 키포인트 간의 상관관계를 분석하여 포즈 추정
    • 빠름, 정확도 낮음

### Pose Estimation Datasets * MPII Human Pose: http://human-pose.mpi-inf.mpg.de/ * Leeds Sports Poses: http://sam.johnson.io/research/lsp.html * FLIC: https://bensapp.github.io/flic-dataset.html, https://bensapp.github.io/flic-dataset.html * ITOP: https://www.alberthaque.com/projects/viewpoint\_3d\_pose/, https://www.alberthaque.com/projects/viewpoint\_3d\_pose/ * DensePose-COCO: http://densepose.org/ * COCO: http://cocodataset.org/


##State-of-the-art leaderboards

MPII Human Pose

Cascade Feature Aggregation for Human Pose Estimation

  • PCKh-0.5 : 93.9%
  • Cascade Feature Aggregation (CFA) 제안
  • 각 다른 스테이지에서의 Feature 들을 통합하여 풍부한 문맥정보를 얻음
  • 서로 다른 스케일의 다양한 정보를 포착하기 위해 Hourglass model 을 Backbone 으로 사용
  • Encoder와 Decoder의 Backbone은 ResNet model을 사용
  • Partial Occlusion에 강건한 추정과 Keypoint Localization 정확도를 향상 시킬 수 있음

Leeds Sports Poses

Learning Feature Pyramids for Human Pose Estimation

  • PCK : 93.9%
  • DCNN(Deep Coonvolutional Neural Network) 모델에서 Pyramid 를 학습
  • DCNN의 스케일에서 불변성을 높이기 위해 PRM(Pyramid Residual Module)을 제안 =
  • Multi-branch Network에서 서로 다른 서브샘플링 비율로 얻어진 입력 특징의 다양한 스케일에 Convolution Filter 를 적용하여 학습
  • Joint Location의 Score Map은 각 Hourglass 모듈의 끝부분에서 생성되며 Squared-error Loss 또한 각 Stack에 입력

FLIC Wrists

Stacked Hourglass Networks : Stacked Hourglass Networks for Human Pose Estimation

  • PCK@0.2 : 97.0%
  • 얼굴이나 손과 같은 Feature 들은 Local Evidence 가 중요
  • 전체적인 포즈를 추정하기 위해서는 Full-body 를 이해하는 것이 필요
  • 여러 스케일에 대한 정보를 포착하는 것이 중요
  • 영상에서 모든 스케일에 대한 정보를 Downsampling의 과정에서 추출하고 이를 Upsampling 과정에 반영
  • Pixel-wise output 생성, 이러한 과정을 반복하여 Stacked Hourglass Network 구조를 완성

ITOP front-view, top-view

V2V-PoseNet (Voxel-to Voxel Prediction Network for Accurate 3D Hand and Human Pose Estimation from a Single Depth Map)

  • Mean mAP : 88.74%
  • 하나의 깊이 지도(Depth Map)에서 3차원 손과 인간의 자세를 추정하기 위한 기존의 딥러닝 기반 방법은 대부분 2차원 깊이 지도를 이용하여 손 또는 신체 관절과 같은 키포인트의 3차원 좌표를 직접 "회귀(Regression)" 하는 방법을 사용
  • 이러한 접근법은 2차원 깊이 지도에서 원근의 왜곡이 존재
  • 원근의 왜곡이란 예를 들어 3차원 실세계를 2차원으로 투영하여 영상을 생성하기 때문에 실제 객체의 모양에 대한 정보가 소실되는 문제점이 있고, 이를 다시 3차원으로 복원하려고 할 때 정보를 완벽하게 복원 하는데 한계가 있음
  • 또한, 2차원 영상에서 3차원 좌표를 직접 회귀시키는 것은 2차원 좌표에 대응하는 3차원 좌표가 무한히 많기 때문에 정보가 매우 비선형적이므로 학습이 어려움
  • 그래서 본 논문에서는 3차원 손과 인간의 포즈 추정 문제를 3차원 복셀화 된 그리드를 사용
  • Voxel-to Voxel 방식으로 예측
  • 각 키포인트에 대해 Voxel 당 Likelihood 를 추정

DensePose-COCO

Parsing R-CNN for Instance-Level Human Analysis

  • AP : 61.6%
  • Human Part Segmentation, Dense Pose, Human-object Interaction 분야에서는 인간의 Details 정보가 필요
  • 영상에서 서로 다른 사람의 인스턴스를 구별하고 각 인스턴스의 세부 사항을 표현하는 것이 필요
  • 본 논문은 Parsing R-CNN 이라는 인스턴스 수준의 인간 분석을 해결하기 위한 End-to-End 방법을 제안
  • Region 기반 접근법의 특성과 인간의 외형을 종합적으로 고려하여 인스턴스의 세부사항을 표현
  • Feature Semantic 정보를 향상 시키고, 해상도를 유지하기 위해 Separation Sampling 적용
  • RolPool 연산은 많은 세부적인 특징들을 소실 시키기 때문에 Finest Level 에서만 수행
  • 인스턴스의 다른 부분이나 밀도가 높은 부분을 구별하기 위해 Feature Map 해상도를 확대
  • Receptive Field 를 확대하고 신체의 다른 부분들 사이의 관계를 파악하기 위해 기하학적 및 문맥 부호화 모듈 제안
  • 높은 퀄리티의 Class-aware Mask 가 생성됨
  • 높은 정확성과 작은 오버헤드를 갖는 적절한 브랜치를 구성함
  • R-CNN을 Parsing 하는 것은 매우 효율적이기 때문에 많은 문제에 적용 시킬 수 있음

COCO

HRNet-48 : Deep High-Resolution Representation Learning for Human Pose Estimation

HRNet Network

(a) Hourglass, (b) Cascaded Pyramid Network, (c) SimpleBaseline, (d) HRNet

  • Mean mAP : 77%
  • 고 해상도의 인간 포즈 추정
  • 기존의 방법은 고해상도에서 저해상도 네트워크에 의해 생성된 저해상도 표현으로부터 고해상도 표현을 복원
  • HRNet 은 전체 프로세스를 통해 고해상도 표현을 유지
  • 고해상도 서브 네트워크를 시작으로 점차적으로 고해상도와 저해상도 서브넷을 하나씩 추가하여 많은 스테이지를 생성하고 다중 해상도의 서브 네트워크를 병렬로 연결
  • COCO 데이터 세트를 이용하여 벤치마크 한 결과 중 현재 제일 성능이 우수한 논문

OpenPose

  • 문제점

    • 이미지 내에 몇명의 사람이 등장하는지 모름
    • 관절이나 팔다리가 가려질 수 있음
    • 처리시간
  • 알고리즘

    • 이미지에서 Part Affinity Fields(PAFs)와 Part Confidence Maps(PCM) 검출하여 관절을 찾음
    • 찾아진 관절간의 관계성을 찾아 matching
  • PCM

    • 관절의 위치에 대한 히트맵
  • PAFs

    • 뼈에 대한 정보를 담고 있는 히트맵
    • vector로 표현됨
    • 여러 stage를 통해 정밀화
    • 관절의 주인 찾기

VGG 19에서 10 층만 사용 후 인풋 이미지의 feature 추출하여 PCM 취득 후 PAFs 취득

**
참고: https://reading-cv-paper.tistory.com/entry/TPAMI-OpenPose-Realtime-Multi-Person-2D-Pose-Estimation-using-Part-Affinity-Fields
참고: https://eehoeskrap.tistory.com/329 [Enough is not enough]

반응형
반응형

Super resolution의 초기 논문인 Image Super-Resolution Using Deep Convolutional Networks 논문 리뷰를 하겠습니다.

Introduction


Super Resolution (SR)은 저해상도 이미지를 고해상도 이미지로 복원하는 것입니다.

Single image super resolution (SISR)과 Multiple image super resolution (MISR)로 분야가 나뉘어져 있습니다.

본 논문에서 기존의 Sparse Coding (SC), Example-based 기법에서 더 나아가 딥러닝 기법을 적용한 기법을 제안합니다.

성능은 그림 1과 같습니다.

기존 기법에 비해 PSNR이 높은 것을 볼 수 있습니다.

여기서 Peak signal-to-noise ratio(PSNR)이란?

영상의 손실 압축에서 화질 손실 정보를 평가할 때 사용하는 평가지표입니다.

그림 1 SRCNN 성능


본 논문에서 어필하는 Contributions는 다음과 같습니다.

  • 전처리가 거의 없이 데이터와 CNN을 이용하여 end-to-end SR을 함
  • 전통적인 기법과 딥러닝의 상관관계를 분석하여 네트워크 구조 설계 지침
  • 딥러닝 기반의 기술을 통해 높은 성능과 속도를 제공

Related Work

 

Image Super-Resolution

SISR 알고리즘은 4가지로 분류 가능합니다.

  • Prediction models
  • Edge based methods
  • Image statistical method
  • Patch based methods

본 논문에선 Patch based methods에 관한 설명을 간단하게 합니다.



  • 저해상도와 고해상도의 쌍으로된 patch 정보(딕셔너리)를 가지고 있음
  • 저해상도에서 고해상도로 복원시 nearest neighbor(NN)으로 보간

전통적인 SR 알고리즘은 grayscale이나 single channel image를 중점으로 연구
컬러 이미지는 YUV로 변환 후 Y값만 사용
이전 연구에서 컬러값을 결과 이미지에 덮어 씌운 경우는 있으나, 각 채널간 분석은 없음

Convolutional Neural Network (CNN)

CNN은 최근 이미지 분류 분야에서 성공적인 성능을 보이는 추세입니다.
객체 인식, 얼굴 인식 등 컴퓨터 비전 영역에도 접목 중입니다.
CNN이 성공하려면 몇가지 factor가 필요합니다.

  • 강력한 GPU로 효과적인 학습
  • ReLu를 이용 (빠른 수렴)
  • 데이터 셋 접근성 용이 (ImageNet)

 

Deep Learning for Image Restoration

Fully connected layer (FC) 로만 이루어진 Multi Layer Perceptron (MLP) 모델, CNN으로 이미지 denoising 연구가 있었습니다.
패턴(먼지/비내림)을 제거하는 연구가 있었습니다.

위 연구들의 한계는 denoising만을 하는 점, end-to-end가 아닌 점입니다.

SRCNN

SRCNN은 그림 2와 같이 구성되어 있습니다.

bicubic interpolation으로 upscaling한 Low resolution image data를 이용합니다.

Y는 보간된 이미지, F(Y)의 방식을 통해 고해상도 X를 얻어내는 것이 목표입니다.

F는 3가지 과정으로 구성됩니다.

그림 2 SRCNN 구조

  • Patch extraction and representation - Y를 overlapping하며 high dimensional vector로 변환. 즉, feature map 생성
  • Non-linear mapping - 고차원 to 고차원으로 비선형 매핑
  • Reconstruction - 비선형 매핑이 진행된 feature map을 통하여 X 생성

Patch Extraction and Representation

  • 유명한 patch extraction기법은 PCA, DCT, Haar과 같은 선행 학습된 기법을 이용하는 것 
  • 본 논문에선 patch extraction을 아래 수식과 같이 정의
  • W는 weight, B는 bias
  • 1번째 layer에서 ReLu를 activation function으로 사용하였기 때문에 아래 수식이 도출됨 
  • Filter가 c X f1 X f1 인것으로 보아 channel first인 것으로 확인

 

F1(Y) = max(0, W1 * Y + B1)



Non-Linear Mapping

1번째 layer에서 출력된 feature map을 입력함

 

F2(Y) = max(0, W2 * F1(Y) + B2)

Reconstruction

  • 1번째 layer와 2번째 layer간 비선형 매핑 연산에서 출력된 n1-dimensional feature를 입력함
  • Activation function으로 linear를 사용함
  • Loss function = Mean Squared Error(MSE)

Experiments

그림 3과 같이 1번째 layer에서 엣지를 추출하는 것이 시각화되고, 2번째 layer에서 density를 추출함

그림 3 시각화

성능 실험은 filter 개수, 크기, layer 수를 변경하여 실험 
Filter 개수가 많을수록 성능이 좋지만 속도는 느림 
Filter 크기가 클 수록 성능이 좋음 
Layer 수가 많으면 오히려 성능이 낮음

그림 4 실험 결과

 

반응형

'인공지능 > 논문리뷰' 카테고리의 다른 글

Personlab 논문 리뷰  (0) 2021.03.15
Pose Estimation  (0) 2021.03.15

+ Recent posts