뇌에서 힌트를 얻을 수는 있지만 뇌를 모방하려고 하지 않는 게 더 좋을 수도 있다. neural net도 뉴런이라는 개념만 차용한 것이지 사실은 비선형 함수를 찾아내기 위한 복잡한 수식이다. 뇌를 완전히 모방하는 것과, 컴퓨터적으로 지능을 만들어내는 것 중 후자가 더 빠를 수도 있다는 생각이 든다. 전자는 맹인이 모르는 길을 찾는 것이고, 후자는 새로운 길을 만들어가는 것.
강화학습이 action에 대한 보상을 줌으로써 학습시키듯, 어떤 데이터의 정답 뿐 아니라 정답에 대한 사람의 선호도 등 정성적인 평가를 같이 학습시켜서 좀 더 비선형적으로 강력하게 만들 수 있지 않을까?
label의 feature가 여러 개인 것. 예를 들어 숫자를 recognition할 때 9가 맞다/아니다 뿐 아니라 각도는 어떤 9이고 선명도는 어떤 9인지까지 예측하게 하면 더 복잡한 모델이 완성될 수 있지 않을까? 어쩌면 학습은 매우 복잡하게 하는데 label이 너무 단순해서 학습한 내용을 충분히 담아내지 못하는 것일 수도 있다.
검정 고양이만 학습시킨 모델은 색깔있는 고양이를 잘 인식하지 못할 수 있다. 그래서 training data에 다양한 샘플을 넣어주어야 하는데, 사람은 검정 고양이를 학습해도 색깔있는 고양이를 잘 인식할 수 있다. 그럼 현재의 학습방법이 뭔가 부족한거 아닐까? black box라 모르는 부분을 아는 것으로 하나씩 대체해보거나, 아예 다른 학습방식을 찾아보자.
human level에 대한 정의가 잘못된 건 아닐까? 지금은 accuracy로 따지지만, 사실 사람의 퍼포먼스는 더 복잡한 정성적 지표로 정의된다. 99%를 넘긴다고 사람이랑 비슷하게 예측할 수 있는 게 아니다. 인공지능의 성능은 이미 사람의 성능을 뛰어넘었지만 때로 쉬운 일을 하지 못한다. 기본을 학습시킬 수 있을까? 모든 판단의 원리가 되는 조건이나 대전제를 학습시켜서, 그걸 모든 판단에 적용하도록.
사람이 아니라 자연을 모방하려고 해야 한다. 과학적 원리는 이미 오래 전부터 자연에 존재해왔고, 그걸 우리는 물리학, 수학, 천문학, 화학, 생물학 등을 통해 밝혀내왔다. 그것들에서 힌트를 얻어서 모방하고 학습한 후, 사람과 대화하는 interface를 만들어야하는 것이 아닐까? 현재 ai의 한계는 과학을 학습하지 않고 공학을 학습하기 때문에 오는 문제들이 아닐까
convolution을 할때, 기존의 이미지의 window가 identity matrix에서 얼마나 떨어져있는지 계산해서 어떤 변화를 일으키는 matrix인지 알아내는 방법. 그걸 feature로 잡고 detection해보면 어떨까?
row vector 간의 차이를 계산해서 feature로 잡는 방법. row간의 변화량을 추적하면 변화량이 비슷한 곳에서 detection이 되지 않을까? column vector끼리도 계산해서 두 정보를 합치면 더 정확해질듯. row picture, column picture
시각은 지식에 의존할 수 있다. 딥러닝으로 좋은 모델을 만들어냈다고 해도, test는 training 과정의 배경지식에 의존한다. training에 뭔가를 추가해서 모델을 더 똑똑하게 만드는 방법이 있지 않을까? 어떤 딥러닝 모델이든 적용 가능한. 시각적인 부분에서. training 이전에.... simple technique이 있지않을까? 예를 들어 imagenet classification이라고 했을때, 물체를 분류하는데 필요한 배경지식이 뭘까?
사진의 edge를 겹쳐서 가장 값이 높은 edge를 찾아내는 방법?
--> 레이어를 지날 때마다 그 결과를 class끼리 쌓아 새로운 뉴런을 만들고 그걸 다음 레이어에 보냄?!
--> 저차원의 레이어에서는 불규칙하게 엣지를 찾아내기 때문에 고차원의 레이어에서 쌓아 보내는 게 더 효율적일 것이라는 게 가정.
여러 이미지셋에서 배운 내용을 계속해서 쌓아갈 수는 없을까? 매번 새롭게 training하는게 아니라, 어쨌든 네트워크도 이미지에 대한 지식을 계속 쌓아나가는거니까. 그래야 똑똑해질텐데.
사전지식 없이도 모든 과제를 잘 수행하도록 하는 것 vs 그 분야에 특화된 과제를 잘 수행하도록 하는 것
사전 지식 없이 데이터를 넣고 학습시키는 것 vs 전문가의 이해를 바탕으로 네트워크를 만들어서 학습시키는 것 (딥러닝이 학습한 feature를 이해하는 게 더 효과적일까 사람이 인식하는 feature를 이해시키는 게 더 효과적일까?)
비전은 이미지의 스토리를 이해해야 한다. 예를 들면 사진 속에서 사람들이 왜 웃는지. 그걸 알려면 배경지식이 필요하다. 그 사진 속의 사람이 버락 오바마라는 것. 그가 발을 체중계에 올려놨기 때문에 사람들이 웃는 거라는 것을 알려면 사람들이 서있다 저건 사람이다가 아니라 맥락을 이해해야 하는 것.
읽어볼 것들
- mit summer vision project
- david marr - vision
- sift - david lowe
- hog - dalal&triggs
- deformable part model
- 1998 lenet
- lin cvpr 2012 dense descriptor grid: hog, lbp - local coordinate, super vector - pooling spm - linear svm
- 각 레이어가 detect하는 것을 이미지화하는 방법
'VISION' 카테고리의 다른 글
[논문] Unpaired Image-to-Image Translation using CycleGAN (0) | 2021.01.21 |
---|---|
[논문] Densely Connected Convolutional Networks (DenseNet) (0) | 2021.01.15 |
시각에 대한 생각들 (0) | 2020.11.28 |
[강연] 컴퓨터 비전과 딥러닝의 현재와 미래 (0) | 2020.11.07 |
YOLO object detection for autonomous driving (0) | 2020.11.03 |