2020. 9. 9. 04:50
forward/back propagation 코드 구현 시 헷갈렸던 내용 정리
나중에 또 궁금할까봐 적어놓는데 나만 알아볼 수 있을듯. 1) Z = W.T · X에서 왜 transpose를 해야하는가? - data matrix X에서 하나의 열에 하나의 샘플이 배정되어있는데, W에는 데이터 샘플 하나가 가지는 여러 feature에 대한 w값들이 column vector로 나열되어있기 때문에 X와 매칭해서 dot product를 수행하려면 transpose해주어야 한다. 2) cost를 계산할 때는 np.sum으로 각 샘플의 loss를 더한 다음 m(샘플 개수)으로 나눠줘야 한다. 샘플이 하나가 아니니까 그냥 loss funtion을 통과시키면 각 샘플의 loss들이 벡터로 나오기 때문에 그걸 더하고 나눠서 하나의 실수값으로 만드는 것. 1) w에 대한 derivative (dw)를..