au— layout: post title: “vision preprocessing(data augmentation)” date: 2021-04-26 19:20:23 +0900 category: datascience —

RandAugment (Cubuk et al. 2020)

간단하게 설명하면 augmnet transform 기술들을 랜덤으로 선택하서 랜덤한 값으로 augmnet transform 을 하나 선택해서 augment를 n회 반복

거의다 PIL 라이브러리에서 지원함

RandAugmnet안에 들어갈 augment 기술들 정리

  • shearing

강제로 사진을 찌그러트린다.

일반적으로 -20 ~ 20도 사이로 랜덤하게 줌

X축 Y축 또한 랜덤으로 선택지중 하나로 추가

  • transloate

상하좌우로 몇 픽셀씩 미는것

X축 Y축 또한 랜덤으로 선택지중 하나로 추가

  • rotate

0~360도 사이로 랜덤함게 회전

  • color

색감을 바꾸는 작업으로 색 이탈(color jittering)방법 이 있음.

RGB에 랜덤 노이즈를 무작위로 더해 주기만 해도 이상한 색감이 됨.

혹은 pca를 통해 찾은 중요 성분들 만큼을 랜덤하게 더해주기도 함(AlexNet)

-> 흑백화 시키기도 함

  • posterize

각 색상 채널의 비트 수를 줄임

각 채널에서 유지할 비트수 1~8개를 선택

  • solarize

임계 값 이상의 모든 픽셀 값을 반전

default = 128

  • contract

이미지 대비를 조정( 이미지의 밝은 부분과 어두운 부분 사이의 차이를 조절, 대비를 늘리면

밝은 부분이 더 밝아지고 어두운 부분은 더 어두워짐)

  • sharpness

이미지 선명도를 조정(이미지의 중점을 더 뚜렷하게 또는 부드럽게(흐림))

  • brightness

이미지 밝기를 조정(이미지의 흰색 양을 변경)

  • autocontrast

색 대조를 높이는 방법(정규화 입력 이미지의 히스토스램을 계싼하고 가장 밝은 픽셀과 어두운 픽셀의 배분율을 제거, 가장 어두은 픽셀이 검은색 0이되고 밝은 픽셀이 0이 되도록 매핑)

  • equalize

이미지 히스토그램을 균등화함 이미지에 비선형 매핑을 적용

  • invert

좌우 이미지 반전

기타 추가 정리

  • stretching

사진을 늘린다 1~1.3배

  • flipping

상하/좌우 반전

  • rescaling

사진 크기를 키우거나 줄이는데 사용 보통 1~1.6배로 사진을 키움

  • shifting

랜덤하게 10px씩 상/ 하/ 좌/ 우f 로 움직임

-> 각 외각쪽이 잘린 사진이 들어감

  • RGB 평균을 0으로 만들기

정리 및 시도해볼 전처리 리스트

  • BDA(Base Data Augmentation)
  • rotation
  • perspective distortion
  • motion blur
  • Gaussian noise
  • AutoAugment (Cubuk et al. 2019)
  • RandAugment (Cubuk et al. 2020) -> best for OCR
  • CutOut (DeVries and Taylor 2017)
  • RandErasing (Zhong et al. 2020) -> good for OCR
  • HideAndSeek (Singh and Lee 2017)
  • GridMask (Chen 2020)
  • Mixup (Zhang et al. 2017)
  • Cutmix (Yun et al. 2019)
  • TIA (Luo et al. 2020) -> effective auggmentation for OCR 사용시 0.91 스코어 상승

vision argumentation benchmark

  • PP-OCR 논문 중에서

benchmark_1

-

참고 사이트

https://nittaku.tistory.com/272

https://arxiv.org/pdf/2009.09941.pdf