*기본적인 머신러닝 모형

 

나이브베이즈(Naïve bayes classifier)

 - 설명변수간의 독립을 가정한 알고리즘

 

KNN(k-Nearest Neighbor)

 - 새로운 데이터 주변의 k개의 샘플데이터를 기준으로 새로운 데이터의 y를 예측(새로운 데이터를 분류, 회귀)하는 알고리즘

 

LDA(Linear Discriminant Analysis)

 - 평균의 차이를 극대화하고 분산의 크기를 최소화하기 위한 알고리즘

 - LDA를 위한 가정: 각 집단은 정규분포 형태의 확률분포를 가진다. 각 집단은 비슷한 형태의 공분산 구조를 가진다.

 

SVM(Support Vector Machine)

 - 데이터 분포의 가정을 위해 margin을 최대화하는 boundary를 찾는 알고리즘

 - 만약 데이터가 섞여있어 바운더리 설장이 어렵다면 적당한 에러를 허용하고 이를 최소화할 수 있는 바운더리를 설정해야한다.

 - 종류: 종속 변수 데이터의 형태에 따라 나뉜다. 범주형변수(SVM, support vector classifier)/연속형변수(SVR, support vector regression)

 

의사결정나무(Decision Tree): Classification Tree, Regressiong Tree등

 - 변수들을 기준으로 만들고, 이를 통해 샘플데이터(x)를 분류하고 분류된 집단의 성질을 통해 종속변수(y)를 추정하는 모형

 - 장: 해석력이 높음(분류과정을 풀어나가기 쉽다), 직관적, 범용적 / 단: 높은 변동성, 샘플에 민감함(샘플이 조금만 변화해도 모델이 변화함)

 - 종류: 반응변수에 따라 구분함

     반응변수가 범주형 변수일 경우: 분류트리

     반응변수가 연속형 변수일 경우: 회귀트리

 

신경망 모형: 인조 뉴런 연산, 역전파 알고리즘(backpropagation) 등

 - 인간의 뉴런의 구조를 모델링함.

 - 한개의 뉴런을 perceptron이라 하며, 이는 y= f(x) = w0+w1x1+w2x2 ...(선형결합구조)에 해당함

     :입력데이터 혹은 다른 레이어의 출력을 받아 결과 값을 내는 구조이다

     :input, weights, activation function(활성함수)로 구성

       - 활성함수는 연속, 비선형, 단조증가, bounded, 점근성의 특성을 가진다.

       - 활성함수의 종류는 step function(이산적, 미분시 사용불가), sigmoid function(선형적, 딥러닝 이전에 많이 사용됬다)등이 있다.    

       - 활성함수의 사용이유: 여러 은닉레이어가 쌓인 구조가 의미있는 구조가 될 수 있게 함

         (여러 선형의 레이어를 쌓아봐야 결국 하나의 선형식이 되나 각각의 레이어에서 activation function를 사용하여 비선형 관계를 만들어 줌)

 - 뉴런간의 연결인 시냅스를 따라 perceptron연결을 표현함(다중 교차 입력을 사용)

     : multi layer perceptron 구조이며, 입력레이어, 은닉레이어, 출력레이어로 구성됨

     : 입력레이어 - 입력데이터를 의미

     : 은닉레이어 - 은닉레이어의 입력은 입력데이터나 또 다른 은닉레이어의 출력값이다. 이러한 입력을 받은 perceptron을 모은 집합을 은닉레이어라고 한다

     : 출력레이어 - 마지막 은닉레이어의 출력값. 

 - 신경망 구축을 모형으로 보며 이해할 수 있는 사이트: https://playground.tensorflow.org

'Study > Deep_Machine learning' 카테고리의 다른 글

클러스터링  (0) 2020.09.06
앙상블기법  (0) 2020.09.06
회귀분석  (0) 2020.08.17
머신러닝 기초5  (0) 2020.08.17
머신러닝 기초4  (0) 2020.08.14

+ Recent posts