close_btn
로그인, 회원가입후 더 많은 혜택을 누리세요 로그인 회원가입 닫기

2016. 8. 13 연구노트

2016.08.13 21:09

이영무 조회 수:1509 추천:5

2016년 8월 13일 연구노트

 

1. 드디어 PRML책을 나가기 시작했습니다!!!

 

2. 1장 : Introduction

   1) Polynomial Curve Fitting

    gif.latex?y(x,\textbf{w})&space;=&space;

 

   - 위의 식으로 curve fitting을 할 수 있다. 그때 sum of the squares 에러를 아래와 같이 나타낼 수 있다.

 

    gif.latex?E(\textbf{w})&space;=&space;\f

  

   - 위의 식을 minimize하면 된다. (1/2은 나중에 수학적 편의를 위해 쓴다)

   

   - 이때 M이 커지면 overfitting될 수 있다. 그래서 아래의 식으로 overfitting을 해결할 수 있다.

 

    gif.latex?\widetilde{E}(\textbf{w})&spac : L2 Regularization

 

   2) Probabilitic Interpretation

   - 우리는 타겟의 distribution을 다음과 같이 나타낼 수 있다.

   

    gif.latex?p(t|x,\textbf{w},\beta)&space; 

 

   - 우리가 구한 y(x,w)에 대한 타겟의 distribution이다. 타겟이 항상 우리가 구한 식에 맞으면 좋겠지만

     거의 항상 차이가 나기 때문에 우리가 구한 식에서 떨어져 있을 확률을 위처럼 distribution으로 나타낼 수 있다.

     (베타는 precision으로 variance(of distribution)의 역수이다)

   

   - 여기서 data가 여러개이면서 각각이 independent하다고 가정하면 다음과 같이 나타낼 수 있다.

     (x, w가 얼마나 타겟 t와 잘 맞는지에 대한 확률분포이다)

   

    gif.latex?p(\textbf{t}|\textbf{x},\textb

 

   - 위의 식에서 바로 로그를 취해 log likelihood를 구해보자. 그럼 아래와 같은 식을 얻을 수 있다.

   

    gif.latex?\ln&space;p(\textbf{t}|\textbf

 

   - log likelihood를 최대화 하는 행위는 확률에서는 확률을 높이는 행위이다. 타겟과 비슷할 확률을 높이는 행위는

     결과적으로 뒤의 두 항을 무시한다면(w와 independent한 항이라 무시할 수 있다.) sum of square 에러를 최소화

     하는 행위와 동일하다.

 

 

 

   - 이번에는 Bayesian 관점에서 바라보자. 일단 먼저 w와 beta를 이미 maximum likelihood로 정했다고 하자.

     그리고 위의 식에서 그대로 likelihood를 갖고올 것이다. 이제 새로운 x에 대해 예측을 하는 Bayesian모델을

     생각해 볼 것이다.

 

   - 먼저 prior를 알아야 한다. prior를 다음과 같이 정하자.

 

    gif.latex?p(\textbf{w}|\alpha)&space;=&s

 

   - 그러면 posterior를 다음과 같이 나타낼 수 있다고 한다.(여기서는 새로운 x, t가 주어지면 그게 w와 얼마나

     잘 맞는지에 대한 확률이다)

   

    gif.latex?p(\textbf{w}|\textbf{x},\textb

 

   - 그리고 위의 posterior를 maximize하는 행위를 할 것이다. 이것을 MAP(maximize posterior)라고 한다. 

     negative logarithm을 취해서 minimize하는 문제로 바꾸면 다음과 최종적으로 같은 식을 얻게 된다.

 

    gif.latex?\frac{\beta}{2}\sum_{n=1}^N\{y

 

   - 즉, bayesian 확률 모델로 보면 Regularized된 Error function을 유도할 수 있게된다.