SiLaure's Data
[Machine Learning] Machine Learning의 종류 본문
선형 회귀분석(Linear Regression)
- 독립변수와 종속변수가 선형적인 관계가 있다라는 가정 하에 분석
- 선형적인 관계 : 𝑋가 증가하면 𝑌도 증가하는 관계
- 직선을 통해 종속변수를 예측하기 때문에 독립변수의 중요도와 영향력을 파악하기 쉬움
의사결정 나무(Decision Tree)
- 독립변수의 조건에 따라 종속변수를 분리(비가내린다 -> 축구를 한다/하지 않는다)
- 이해하기 쉬우나 overfitting이 잘 일어남
- overfitting : 과적합.
학습데이터에 대해 지나치게 정확하게 맞춘 결과로 실제 데이터에는 맞지 않아 예측이 어려워 지는 것
- overfitting : 과적합.
KNN(K-Nearest Neighbor)
- 새로 들어온 데이터를 주변 k개의 class 중 하나로 분류하는 기법
- k는 사용자가 지정한다.(Hyper Parameter)
Neural Network
- 입력(Input), 은닉(Hidden), 출력(Output)의 3개 층으로 구성된 모형으로서 각 층을 연결하는 노드의 가중치를 업데이트 하면서 학습
- 1개의 직선 = 1개의 선형회귀 모형 = 1개의 가중치(Weight)
SVM(Support Vector Machine)
- Class 간의 거리(margin)가 최대가 되도록 decision boundary를 만드는 방법
- 학습 시간이 오래걸리고, 데이터가 많아질 수록 더 오래 걸린다. 최근에는 잘 쓰이지 않음.
Ensemble Learning(앙상블)
- 여러 개의 모델(Classifier or Base Learner)을 결합하여 사용하는 모델
- 한 Dataset의 결과는 늘 하나의 같기 때문에 하나의 변수가 아닌 여러 변수를 통해 변화를 주는 방법으로 다양하게 분석한다.
K-means Clustering
- Unsupervised Learning의 대표적인 모델
- Label(Y) 없이 데이터(X)의 군집으로 k개로 생성
- 처음에 점 두 개를 임의로 찍고 두 점을 각각 가까운 군집에 포함시킨 후 중심을 따라 군집을 변화한다.
- 단점
k에 따라 성능이 달라진다.
고차원의 데이터에서는 적용하기 어렵다.
- 단점
'Records of > Learning' 카테고리의 다른 글
[Machine Learning] 지도학습과 비지도학습 (0) | 2021.08.18 |
---|---|
[Machine Learning] Machine Learning의 개념 (0) | 2021.08.18 |
[ad DA] 01~02. 데이터 전처리 실습 (0) | 2021.08.11 |
[Marketing DA] 03~04. 시각화 라이브러리 matplotlib (0) | 2021.08.11 |
[Marketing DA] 02. 데이터 분석을 위한 Domain Knowledge (0) | 2021.08.11 |
Comments