본문 바로가기

2021. 2. 10. 23:43
[논문] DeepFace: Closing the Gap to Human-Level Performance in Face Verification Face recognition task에서 사람은 97.5%의 정확도를 달성하는데, 이전의 모델들은 96%에 그치고 있었다. 이 논문에서는 face alignment와 feature representation 단계의 개선을 통해 정확도를 human level에 근접시켰다. Face Alignment 얼굴인식은 크게 검출 – 정렬 – 특징 추출 – 분류 단계로 이루어진다. 여기서는 정렬 단계에서 모두 정면을 바라보도록 정렬하는 방법을 이용한다. 먼저 input image에서 얼굴의 영역을 검출하고(a), 얼굴 영역에서 67개의 기준점을 잡아 얼굴을 3D 모델로 변환한다(c). 그리고 나서 기준점을 중심으로 나눠진 조각별로 정면을 바라보도록 piece-wise transformation을 진행한다. Feat..
2021. 2. 2. 00:15
[논문] An image is worth 16x16 words (Vision transformer) What is Attention? 기존의 기계번역은 인코더가 input을 차례대로 읽어 vector를 만들어내면 이를 이용해 디코더가 translation을 생성하는 과정으로 이루어져 있었다. 그런데 인코딩 과정에서 문장의 길이에 관계없이 고정된 길이의 벡터를 생성하기 때문에 문장구조가 제대로 표현되지 않으며, 트레이닝 세트보다 테스트 세트의 문장이 더 길다면 성능이 떨어지는 문제가 생긴다. 논문에서는 translation을 진행할 때마다 초점을 두어야 할 부분(subset)을 알려주는 방식으로 이 문제를 해결하고자 하였다. 각 단어가 다른 모든 단어와 얼마나 연관되어 있는지(alignment score)를 계산해서 context score를 계산해낸다. 이러한 방식을 attention(해당 단어가 집중..
2021. 1. 21. 18:36
[논문] Unpaired Image-to-Image Translation using CycleGAN Author: Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros 이미지를 특정 스타일로 변환시키는 style transfer model 을 학습시킬 때, 변형 전과 변형 후 데이터가 세트로 존재하는 경우는 변환 모델을 쉽게 학습시킬 수 있다. 하지만 대부분의 경우 직접적인 순서쌍이 없는데 이 논문에서는 이러한 경우를 위한 변환 모델 학습 방법인 CycleGAN 을 제시하였다 모델 기본 구조 음식 이미지를 특정 화가의 그림체로 바꾸고 싶다고 했을 때, 사람은 실제 사진과 변환될 이미지의 순서쌍이 없더라도 어떤 식으로 변환될 지 상상이 가능하다. 이 점을 이용해 타겟 이미지 세트의 특징을 잡아내 다른 이미지 세트에 적용하는 모델을 개발하였다. CycleG..
2021. 1. 15. 22:40
[논문] Densely Connected Convolutional Networks (DenseNet) Author: Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger Neural network 연구가 시작된 이래로 깊은 네트워크 구조를 형성하기 위한 많은 노력이 있었다. Highway Network는 bypassing path를 이용해 깊은 네트워크에서도 효율적으로 학습시키는 방법을 제안했고, ResNet이 bypassing path로 identity mapping을 사용하면서 높은 정확도를 달성하였다. 혹은 네트워크의 너비를 높이는 접근도 있었는데, GoogLeNet에서는 여러 필터를 통과시켜 결과를 concatenating하여 다음 레이어에 전달하였다. 이 연구에서는 이전의 모든 아웃풋을 현재 레이어에 인풋으로 전달함으로써 den..
2020. 12. 29. 21:45
ideas on AI 뇌에서 힌트를 얻을 수는 있지만 뇌를 모방하려고 하지 않는 게 더 좋을 수도 있다. neural net도 뉴런이라는 개념만 차용한 것이지 사실은 비선형 함수를 찾아내기 위한 복잡한 수식이다. 뇌를 완전히 모방하는 것과, 컴퓨터적으로 지능을 만들어내는 것 중 후자가 더 빠를 수도 있다는 생각이 든다. 전자는 맹인이 모르는 길을 찾는 것이고, 후자는 새로운 길을 만들어가는 것. 강화학습이 action에 대한 보상을 줌으로써 학습시키듯, 어떤 데이터의 정답 뿐 아니라 정답에 대한 사람의 선호도 등 정성적인 평가를 같이 학습시켜서 좀 더 비선형적으로 강력하게 만들 수 있지 않을까? label의 feature가 여러 개인 것. 예를 들어 숫자를 recognition할 때 9가 맞다/아니다 뿐 아니라 각도는 어떤 ..
2020. 12. 18. 12:57
2020 배달의민족(우아한형제들) 테크콘서트 루비 데이터베이스는 고스펙 사양 DB라 하나의 테이블에만 문제가 있어도 전체 시스템 장애 발생 - PHP에서 자바로 이동(대용량 트래픽 대응 가능) - 마이크로서비스 아키텍처. 리뷰, 주문, 결제를 분리하여 서비스 구현 - IDC에서 AWS로 이동하여 트래픽이 특정 시점에 몰려 생기는 문제를 해결 CQRS - 비즈니스 커맨드(Command. 주문)와 사용자 요청(Query. 가게정보 조회)이 분리되어 실행될 수 있도록. - 조회 : 고성능 DB 이용. dynamoDB, mongoDB, redis, elesticsearch(광고리스팅, 검색) - 커맨트 : 안정성 중시. 오로라DB 이용. Querysql - querydsl을 사용하는 경우 exist를 내부적으로 count로 실행하는데 보통 exist는 발..
2020. 11. 28. 23:17
시각에 대한 생각들 이미지는 근본적으로 무엇일까? 영상은? 사람에게 있어 시각의 핵심은 뭘까? - 사실 : 색깔, 경계, 재질, 방향(위치), 원근, 명암 - 지식 : 접혀있다, 푹신하다, 가려졌다, 오염되었다, 텍스트이다 등 어떤 물체인지 알고 어떤 것을 의미하는 지 아는 것 - 기억 : 경험, 그곳에 있을 것이라는 기대, 자동으로 연상되는 것 우선 경계(edge)가 핵심인 것 같다. 색이나 재질, 명암에 대한 정보가 없어도 시각은 성립하지만 물체 간에 경계가 없다면 그 물체를 보고 있다고 할 수 없다. 색깔, 재질, 명암은 경계를 구성하거나 알려주는 요소로서 작용한다. 원근은 나에게서 얼마나 떨어져있는지 아는 것. 시각 체계에서 원근감을 뺀다면 근본적으로 다른 시각이 되므로 원근도 핵심 요소인 것 같다. 위치는 컴퓨터나..
2020. 11. 8. 07:00
docker, centos, mariadb, python, django 가상환경에서 centos를 사용하기 위해 docker 설치 : www.docker.com/get-started 커맨드 또는 powershell에서 centos 다운로드 : docker pull centos 버전을 명시(centOS7)하고 싶은 경우 : docker pull centos:7 설치 확인 : docker images 도커에 마리아db 설치 : docker pull mariadb 마리아db 컨테이너 생성 : docker run --name mariadb -d -e MYSQL_ROOT_PASSWORD=0000 mariadb (패스워드를 0000으로 지정함) 결과 : 582333e0b4895e15d79841637962a45efa562c888d5d1b3c186f7e0fb7830f6f 마리아db 계정 ..
2020. 11. 7. 06:34
[강연] 컴퓨터 비전과 딥러닝의 현재와 미래 by 서울대학교 한보형 교수님 / 카오스재단 비전 : 이미지나 비디오의 내용을 컴퓨터로 자동으로 이해하는 기술 딥러닝 : 기계학습의 한 종류로, 많은 층을 가지고 있는 신경망을 통한 학습방법. 다른 기계학습법과의 차이점은 데이터의 표현법을 학습한다는 점. 기존에는 컴퓨터가 이해할 수 있는 벡터나 행렬로 만들어주어야 학습을 시작하는데, 딥러닝은 데이터 자체를 주면 데이터로부터 무엇을 중요하게 봐야 하는지 알아채서 데이터를 표현하는 방법까지도 학습함. CNN : 합성곱 신경망. 2차원의 데이터를 학습할 때 주로 사용. Convolutoin = filter. 이미지를 변환시키는 것. RNN : 재귀적 신경망. 이미지보다는 시간에 따라 데이터가 달라지는 경우(비디오, 주식, 텍스트 등)에 사용. 신경망의 출력이..
2020. 11. 3. 04:11
YOLO object detection for autonomous driving YOLO(You Only Look Once) 알고리즘은 이미지에서 한 번의 CNN 연산으로 multiple object의 bounding box를 찾아낼 수 있다. 과제 : 자율주행 환경에서의 object detection task. 목표 : 주어진 주행 환경 이미지에서 object의 bounding box를 그리고 카테고리(클래스)를 알아내는 것. 이미지 전처리 from PIL import Image image = Image.open(/path/) resized = image.resize((608, 608), Image.BICUBIC) image_data = np.array(resized, dtype='float32') image_data /= 255. 그리드화 이미지를 인풋으로 받아 19*19의 그리..