Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

 

 

 

0. 용어

  • 최대 신호 대 잡음비(Peak Signal-to-noise ratio, PSNR)
  • : 신호가 가질 수 있는 최대 전력에 대한 잡음의 전력을 나타낸 것이다. 주로 영상 또는 동영상 손실 압축에서 화질 손실 정보를 평가할 때 사용된다.
  • Mean opinion score (MOS)
  • : a measure used in the domain of Quality of Experience and telecommunications engineering, representing overall quality of a stimulus or system
  • Image Super Resolution (SR)  : 저해상도(Low Resolution) 이미지를 고해상도 이미지(High Resolution) 이미지로 변환시키는 문제를 말합니다
    • Interpolation-based method
    • Reconstruction-based method
    • (Deep) Learning-based method
  • ill-posed problem
  • : 저해상도 이미지를 고해상도로 복원을 해야 하는데, 가능한 고해상도의 이미지가 여러 개 존재하는 것을 말합니다. 그림2 참고.

 

 

1. 요약

1.기존 SR모델들이 가진 texture detail이 떨어지는 문제 발생

2.loss function이 원인이었음.

3.mse based per-fixel loss는 3posed-problem이 있기 때문에, 즉 가능한 고해상도가 여러개이다. 이들을 평균내는 결과를 취하게 되므로, GAN이 생성한 다양한 high texture detail들이 smoothing 되는 결과를 초래했던 거였음

4.perceptual loss를 사용하자!

5.perceptual loss는 이미지를 vgg19를 통과시켜 얻은 feature map을 비교하는 것.

6.해결!!

 

 

 

 

2. 논문내용

2.1. INTRO

Deep Learning-based method, 그 중에서도 2017년 공개된 논문( Photo-Realistic Single Image Super Resolution Using a Generative Adversarial Network)에서 처음 등장한 SR GAN

 

기존 SR 모델 중 하나인 SRResNet이 생성한 이미지를 매우 확대해보면, original HR image와 비교했을 때 texture detail이 떨어지는 것을 확인할 수 있습니다.

저자들은 이 원인이 기존 SR 모델들의 loss function에 있다고 보았습니다. 기존 SR 모델들의 목표는 보통 복구된 HR 이미지와 원본 이미지의 pixel 값을 비교하여 pixel-wise MSE를 최소화하는 것입니다. 그러나 pixel-wise loss를 사용하면 high texture detail을 제대로 잡아내지 못하는 한계가 있습니다. 저자들은 이전 연구와는 다르게 VGG network의 high-level feature map을 이용한 perceptual loss를 제시하여 이런 문제를 해결하였다고 합니다.

 

 

 

2.2. architecture

 

 

2.3. 기존의 mse based per-fixel loss의 문제

Generator을 이용해 얻어낸 가짜 고해상도 이미지를 진짜 고해상도 이미지와 Pixel by pixel로 비교하는 것을 Per-pixel loss라고 하고,각 이미지를 pre-trained CNN 모델에 통과시켜 얻어낸 feature map을 비교하는 것을 Perceptual loss라고 합니다.

동일한 이미지이나 한 pixel씩 오른쪽으로 밀려있는 두 이미지가 있다고 가정해보겠습니다. 이런 경우 loss는 0 이어야하겠지만 per-pixel loss를 구하면 절대 0이 될 수 없습니다. per-pixel loss의 이러한 단점은 super resolution의 고질적인 문제인 Ill-posed problem 때문에 더 부각됩니다.

Ill-posed problem이란  저해상도 이미지를 고해상도로 복원을 해야 하는데, 가능한 고해상도의 이미지가 여러 개 존재하는 것을 말합니다. GAN 모델을 이용하여 여러 개의 가능한 고해상도 이미지 (아래 그림상 Possible solutions)를 구하여도 MSE based Per-pixel loss를 사용하면 possible solutions 들을 평균내는 결과를 취하게 되므로, GAN이 생성한 다양한 high texture detail들이 smoothing 되는 결과를 초래합니다.

 

 

 

---> 이런 단점을 해결하기 위해 저자들은 GAN이 생성한 HR 이미지와 Original HR 이미지를 Pretrained VGG 19에 통과시켜 얻은 Feature map 사이의 Euclidean distance를 구하여 content loss를 구하였습니다.

 

 

2.4. perceptual loss를 사용하자

2.4.1. content loss

GAN이 생성한 이미지와 Original 이미지를 VGG 19에 통과시켜 얻은 Feature map 사이의 Euclidean distance를 구한다

 

 

2.4.2. adversarial loss

 

Generator가 생성한 이미지를 진짜라고 판단할 확률로 앞에 - 가 붙어있으므로 이를 최소화하는 방향으로 학습한다

 

2.5.결론

 

00. 참고문헌

'논문 리뷰' 카테고리의 다른 글

[딥러닝][논문리뷰] ESRGAN  (0) 2023.01.27

+ Recent posts