'VISION' 카테고리의 글 목록

본문 바로가기

2022. 2. 23. 19:22

Quadratic interpolation을 쓰지 않는 이유 Linear > quadratic > cubic으로 갈 수록 function approximation을 위해 더 많은 주변 픽셀을 필요로 한다. 예를 들면 linear function은 두 개의 점만 있어도 그릴 수 있지만, quadratic function은 3개, cubic function은 4개의 점을 필요로 한다. linear interpolation의 단점은 포인트 간 linear function을 그리면 포인트들에서 sharp edge가 생긴다는 것이다. 따라서 포인트 전후의 값을 interpolation하면 포인트 직전과 직후임에도 함수의 방향이 다르므로 값이 달라지고 계단이 생길 수 있다. 이를 보완하려면 포인트 전후로 연속함수여야 한다. quadratic interpolation의 경우,..

2021. 3. 14. 17:29

[Study] Camera and Light Exposure Color constancy 연구를 위한 photography 기본 개념 공부

2021. 3. 8. 01:37

Toy Project - vol.1 Project Topic 편의점, 대형마트 등 물품을 구입하는 곳에서 바코드가 아닌 상품의 이미지를 인식해 계산하는 계산대 시스템을 개발하고자 한다. Background and Objective 최근 국내 리테일 업계는 무인 점포를 위한 기술을 도입하고 있다. 대표적 사례로 곳곳에서 셀프 계산대를 볼 수 있는데, 외적으로는 기술이 발전한 것 같지만 바코드를 찍는 점원의 역할을 사용자에게 전가한 형태에 그친다. 때문에 제품의 바코드 위치나 계산과정에 능숙하지 않은 고객들이 제품을 돌려가며 바코드를 찾아 인식시켜야 하며 이로 인해 계산에 소요되는 시간이 더 늘어난다. 또한 바코드가 없는 상품은 직접 입력해야 하는 번거로움이 있고, 다이소의 경우 셀프 계산대로 바뀐 후 모든 물품에 QR코드를 새로 부착하는 추..

2021. 2. 19. 19:23

[논문] SinGAN: Learning a Generative Model from a Single Natural Image Literature Review GAN을 이용해 새로운 이미지를 생성할 때, 보통 대량의 training set에서 이미지/오브젝트의 스타일 분포를 학습한 후 그 분포에서 이미지를 생성한다. 하지만 이 논문에서는 하나의 이미지만으로 학습을 진행하며, 학습한 정보를 바탕으로 input 이미지와 비슷한 새로운 이미지를 생성해낸다. 이전에도 하나의 이미지로 새로운 이미지를 얻어내려는 시도가 있었지만 fine texture를 재현해내는 데 그쳤다. PSGAN, Deep Texture Synthesis 등의 방식은 training input으로 들어온 이미지의 특정 텍스처를 학습한 뒤 이를 반복적으로 적용하는 형태이다. 이런 경우 예술적인 이미지를 만들어주지만 실제와 같은 이미지를 만들어 내기는 어려웠다. Sin..

2021. 2. 15. 18:04

[논문] Generative Adversarial Nets & SRGAN for Super Resolution Discriminative model : 데이터 X가 주어졌을 때 decision boundary를 찾아 classification/regression을 하는 일반적인 모델의 형태. Generative model : 데이터의 분포를 학습하는 모델. 클래스 마다 데이터들의 분포를 파악하기 때문에 클래스가 주어지면 새로운 데이터를 샘플링할 수 있다. Adversarial Network 이전까지 Generative model은 이미지 생성 시 필요한 수식들이 적분 불가능함으로 인해 높은 성능을 낼 수 없었다. 때문에 성능이 좋았던 대부분의 DNN은 discriminative model이었는데, GAN은 이 적분불가능함을 해결하고 두 가지 모델이 적대적(adversarial)으로 대치하며 서로를 이기기 위해 학..

2021. 2. 10. 23:43

[논문] DeepFace: Closing the Gap to Human-Level Performance in Face Verification Face recognition task에서 사람은 97.5%의 정확도를 달성하는데, 이전의 모델들은 96%에 그치고 있었다. 이 논문에서는 face alignment와 feature representation 단계의 개선을 통해 정확도를 human level에 근접시켰다. Face Alignment 얼굴인식은 크게 검출 – 정렬 – 특징 추출 – 분류 단계로 이루어진다. 여기서는 정렬 단계에서 모두 정면을 바라보도록 정렬하는 방법을 이용한다. 먼저 input image에서 얼굴의 영역을 검출하고(a), 얼굴 영역에서 67개의 기준점을 잡아 얼굴을 3D 모델로 변환한다(c). 그리고 나서 기준점을 중심으로 나눠진 조각별로 정면을 바라보도록 piece-wise transformation을 진행한다. Feat..

2021. 2. 2. 00:15

[논문] An image is worth 16x16 words (Vision transformer) What is Attention? 기존의 기계번역은 인코더가 input을 차례대로 읽어 vector를 만들어내면 이를 이용해 디코더가 translation을 생성하는 과정으로 이루어져 있었다. 그런데 인코딩 과정에서 문장의 길이에 관계없이 고정된 길이의 벡터를 생성하기 때문에 문장구조가 제대로 표현되지 않으며, 트레이닝 세트보다 테스트 세트의 문장이 더 길다면 성능이 떨어지는 문제가 생긴다. 논문에서는 translation을 진행할 때마다 초점을 두어야 할 부분(subset)을 알려주는 방식으로 이 문제를 해결하고자 하였다. 각 단어가 다른 모든 단어와 얼마나 연관되어 있는지(alignment score)를 계산해서 context score를 계산해낸다. 이러한 방식을 attention(해당 단어가 집중..

2021. 1. 21. 18:36

[논문] Unpaired Image-to-Image Translation using CycleGAN Author: Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros 이미지를 특정 스타일로 변환시키는 style transfer model 을 학습시킬 때, 변형 전과 변형 후 데이터가 세트로 존재하는 경우는 변환 모델을 쉽게 학습시킬 수 있다. 하지만 대부분의 경우 직접적인 순서쌍이 없는데 이 논문에서는 이러한 경우를 위한 변환 모델 학습 방법인 CycleGAN 을 제시하였다 모델 기본 구조 음식 이미지를 특정 화가의 그림체로 바꾸고 싶다고 했을 때, 사람은 실제 사진과 변환될 이미지의 순서쌍이 없더라도 어떤 식으로 변환될 지 상상이 가능하다. 이 점을 이용해 타겟 이미지 세트의 특징을 잡아내 다른 이미지 세트에 적용하는 모델을 개발하였다. CycleG..

2021. 1. 15. 22:40

[논문] Densely Connected Convolutional Networks (DenseNet) Author: Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger Neural network 연구가 시작된 이래로 깊은 네트워크 구조를 형성하기 위한 많은 노력이 있었다. Highway Network는 bypassing path를 이용해 깊은 네트워크에서도 효율적으로 학습시키는 방법을 제안했고, ResNet이 bypassing path로 identity mapping을 사용하면서 높은 정확도를 달성하였다. 혹은 네트워크의 너비를 높이는 접근도 있었는데, GoogLeNet에서는 여러 필터를 통과시켜 결과를 concatenating하여 다음 레이어에 전달하였다. 이 연구에서는 이전의 모든 아웃풋을 현재 레이어에 인풋으로 전달함으로써 den..

2020. 12. 29. 21:45

ideas on AI 뇌에서 힌트를 얻을 수는 있지만 뇌를 모방하려고 하지 않는 게 더 좋을 수도 있다. neural net도 뉴런이라는 개념만 차용한 것이지 사실은 비선형 함수를 찾아내기 위한 복잡한 수식이다. 뇌를 완전히 모방하는 것과, 컴퓨터적으로 지능을 만들어내는 것 중 후자가 더 빠를 수도 있다는 생각이 든다. 전자는 맹인이 모르는 길을 찾는 것이고, 후자는 새로운 길을 만들어가는 것. 강화학습이 action에 대한 보상을 줌으로써 학습시키듯, 어떤 데이터의 정답 뿐 아니라 정답에 대한 사람의 선호도 등 정성적인 평가를 같이 학습시켜서 좀 더 비선형적으로 강력하게 만들 수 있지 않을까? label의 feature가 여러 개인 것. 예를 들어 숫자를 recognition할 때 9가 맞다/아니다 뿐 아니라 각도는 어떤 ..

이전 1 2 3 다음

티스토리툴바