자연어 처리 뿐만 아니라 최근 컴퓨터 비전 영역에서도 사용되고 있는 유명한 모델인 Transformer를 알아보도록 하겠습니다. Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org 트랜스포머는 2017년 구글에서 발표한 논문으로, Attent..
이미지 분야에 Transformer 구조를 적용한 아키텍쳐를 제시한 논문인 ViT에 대해 정리하고자 합니다. ViT는 구글에서 발표한 논문으로, 기존에 자연어 처리 분야에서 널리 사용되고 있는 트랜스포머를 비전 분야에 적용함으로써 SOTA의 성능을 보인 논문입니다. 이 모델 자체는 엄청나게 많은 양의 데이터로 Pre-train 해야 한다는 단점은 있지만, 어쨋든 높은 성능을 보인다는 점과, 비전 분야에 트랜스포머를 성공적으로 적용한 논문이라는 의의가 있습니다. Architecture ViT는 다음과 같은 구조로 이루어져 있습니다. 이 아키텍쳐를 기준으로 어떻게 동작하는지를 설명해보도록 하겠습니다. Patch, Embedding ViT는 이미지가 들어왔을 때, 먼저 여러개의 Patch로 자르는 작업을 실행..
기존 CNN 모델들의 경우 고성능 컴퓨터에서는 이를 연산할 만한 충분한 컴퓨팅 자원들이 있었지만 스마트폰이나 기타 기기에서 사용하기에는 너무 무겁다는 단점을 가지고 있었습니다. 구글은 이러한 문제를 해결하기 위해 Mobilenet을 개발하였으며, 성능을 최대한 희생하지 않으면서도 모바일 환경에서 구동될만큼 경량화 한 것이 특징입니다. 이번 페이지에서는 Mobilenet V1의 핵심 아이디어 Depthwise Separable Convolution을 간략하게 정리하고, Mobilenet V2, 이 모델의 핵심 아이디어인 Inverted Residuals, Linear Bottlenecks를 정리하도록 하겠습니다. Depthwise Separable Convolution Mobilenet V2를 이해하기 전..
이전 페이지에서는 Transformer가 무엇인지 이론을 확인할 수 있었습니다. 이번 페이지에서는 Transformer를 구현해보도록 하겠습니다. [논문 리뷰] Transformer 리뷰 자연어 처리 뿐만 아니라 최근 컴퓨터 비전 영역에서도 사용되고 있는 Attention이라는 기법을 적용한 유명한 모델인 Transformer를 알아보도록 하겠습니다. Transformer 트랜스포머는 2017년 구글에서 발 dyddl1993.tistory.com Transformer class Transformer(nn.Module): def __init__(self, N = 2, hidden_dim = 256, num_head = 8, inner_dim = 512): super().__init__() self.enco..
자연어 처리 뿐만 아니라 최근 컴퓨터 비전 영역에서도 사용되고 있는 Attention이라는 기법을 적용한 유명한 모델인 Transformer를 알아보도록 하겠습니다. Transformer 트랜스포머는 2017년 구글에서 발표한 Sequence to Sequence 모델입니다. 이 모델을 통해 이전 모델의 단점들(고정된 Context Vector, 첫 레이어의 결과값이 연산을 반복하면서 희미해짐 등)을 해결하게 되었습니다. 모델의 특이점으로는 RNN, CNN등의 레이어를 사용하지 않았다는 점, Attention이라는 개념을 사용했다는 점 정도가 있습니다. Encoder Input input값으로 임베딩 된 벡터를 사용하는 것은 기존의 방법들과 같다고 할 수 있지만, 이 값에 더해 추가로 Positional..
기존의 딥러닝 기반 얼굴 인식 연구는 두 가지 방법으로 정리할 수 있습니다. 첫번째 방식은 softmax loss를 사용하는 방식으로 분류 모델을 softmax를 통해 훈련하는 방식입니다. 두번째는 triplet loss를 사용하는 방식인데 이 방식은 분류 모델을 학습하는 것이 아닌 임베딩 벡터를 학습하는 방식입니다. 저자들은 두 loss 모두 단점이 몇 가지 존재한다고 설명합니다. softmax loss의 경우 가지고 있는 훈련 데이터셋에 적합한 학습을 하기 때문에 open-set에는 적합하지 않다고 설명을 하고 있는데, 이는 쉽게 말해 새로운 인물에 대해서는 적절한 feature를 추출하지 못하는 단점을 가지고 있다고 보시면 됩니다. triplet loss의 경우 학습에 어려움이 있다는 점과, fac..
이제 이미지나 자연어 등의 비정형 데이터에 대해서는 딥러닝을 기반으로 한 연구만이 진행되고 있다고 봐도 무방합니다. 다만 정형 데이터에 대해서는 아직도 머신러닝 모델, 특히 트리 기반의 부스팅 계열 모델들의 성능이 더 뛰어납니다. 제가 참여했던 프로젝트에서도 정형 데이터에 대한 모델링을 수행할 때는 일반적으로 LightGBM 등 머신러닝 계열 모델의 성능이 딥러닝 모델들보다 조금 더 좋은 결과를 보여주었습니다. 대표적으로 LightGBM, XGBoost, CatBoost 등의 모델이 있는데, 이 모델들은 아직까지도 정형 데이터를 사용하는 경진대회에서 상위권을 차지하고 있을 만큼 성능이 좋습니다. 하지만 최근 들어 TabNet이라는 딥러닝 모델이 가끔씩 대회에서 등장하고 있습니다. 이 모델은 저자들의 테스..
MTCNN MTCNN에 대해 간단하게 리뷰해보도록 하겠습니다. MTCNN은 최초 논문을 통해 공개된 저자의 버전이 존재하고, Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks 가공한 버전들이 존재합니다. 하단 링크는 그 중 가장 퍼블릭한 버전입니다. GitHub - ipazc/mtcnn: MTCNN face detection implementation for TensorFlow, as a PIP package. 파라미터 버전마다 약간의 차이는 존재할 수 있으나 기본적으로 조절할 수 있는 파라미터는 다음과 같습니다. weights_file, min_face_size, steps_threshold, scale..
현재 진행중인 프로젝트를 하는 데 있어 Head pose estimating 관련 논문인 FSA-Net 을 알아본 김에 향후 까먹지 않도록 블로그에 리뷰해놓고자 합니다. 데모 파일에 대해 주석처리한 내용도 있어 하단에 링크로 남겼습니다. 글을 작성하는 이유가 제가 까먹지 않기 위한 목적이라 글이 깔끔하지 않을 수 있습니다. 모델 소개 우선 FSA-Net에서 어떠한 결과값이 나오는 지 확인해 보겠습니다. 단일 이미지를 Input으로 받았을 때 FSA-Net은 세 가지의 값을 Output합니다. 각각의 값이 Yaw, Pitch, Roll을 의미합니다. Yaw Pitch Roll 정의 Yaw Pitch Roll 정의 원문 : http://blog.naver.com/blueintel/130001901193 Im..
Resnet(Residual Network) 일반 컨볼루젼 신경망에서 FC레이어는 스킵/바로가기 연결이 없어, 신경망이 더 깊을 때 소실되거나 폭발하는 그래디언트 문제(problem of vanishing/exploding gradients)가 발생한다. 이를 해결하기 위해 만들어진 모델이다. Problem of Vanishing / Exploding Gradients 역전파(backpropagation) 동안, 트레이닝의 각 반복에서 현재 가중치에 대해 오차 함수(error function)의 편미분을 할 때, 이것은 n-레이어 네트워크에서 이들 작은/큰 숫자 n을 곱하여 “프론트” 레이어의 그레디언트를 계산하는 효과를 갖는다. 네트워크가 깊을 때, 이 작은 수 n을 곱하면 0이 된다. (Vanishi..