<Overfitting>
1. Underfitting, Overfitting / High Biased, High
- Underfitting = High Biased
- Overfitting = High Variance
2. Overfitting의 문제점?
- 주어진 데이터 케이스를 너무 완벽하게 설명하는 Cost Function을 만들다보니,
해당 데이터 케이스만을 설명할 수 있는 Cost Function이 만들어진다
-> "융통성"이 부족!
3. Overfitting을 해결할 수 있는 방법?
- 1) 변수의 갯수를 줄인다. How?
- 노가다 (직접 몇 개를 선택해서 변수를 제거)
- 알고리즘 사용 (Model Selection Algorithm)
- 2) 정규화
- 방식 : 모든 변수들을 그대로 유지하되, 매개변수 값의 크기를 줄인다
- 유용한 상황 : 많은 변수를 갖고 있으나, 각각 조금씩만 결괏값에 영향력을 지닌 경우
<Logistic Regression>
1. 로지스틱 회귀 vs 일반 회귀
- 둘 다 종속변수와 독립변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용
-> 선형 회귀도 마찬가지이지만, 다른 점이 존재.
2. 로지스틱 회귀 vs 선형 회귀
< 종속 변수 >
- 종속 변수의 데이터 성질 (1) : 범주
- 로지스틱 회귀 : 범주형 데이터를 대상으로 함
- 선형 회귀 : 반드시 범주형 데이터를 대상으로 하진 않음 (좀 더 포괄적임)
- 종속 변수의 데이터 성질 (2) : 분류
- 로지스틱 회귀 : 입력 데이터에 대한 출력값이 특정 분류로 나뉨 (분류 기법의 성질을 띤다)
-> 즉, 종속변수가 특정 분류로 나뉨
-> 일반적으로, 로지스틱 회귀는 2개의 범주로 종속변수가 분류 됨
** 더 많은 범주로 분류할 경우, 다항 로지스틱 회귀, 분화 로지스틱 회귀 등.. 다른 이름임
<로지스틱 회귀 특징 : 독립-종속변수 관계>
- 1) 이항형 데이터에 적용시 (독립변수를)
- 로지스틱 회귀 : 종속변수 y 값이 [0-1] 로 제한됨
- 2) 종속 변수가 이진적 -> 조건부 확률 P(x|y) 의 분포가 이항분포 (정규분포 X)
** 따라서,
이러한 로지스틱 회귀를 일반적인 단순 선형 회귀에 적용시, 오류 발생(범위가 0-1 을 벗어남)
-> 로지스틱 회귀에 딱 맞는 함수를 찾아야 한다 !
-> 1) 로지스틱 모형 2) 검벨 모형
** 시그모이드 함수 = 로지스틱 모형의 특수한 경우
** 추가) 로지스틱 모형을 만드는 방법 ?
-> 일반 회귀 함수에다가 여러 조치를 취해 준다 : log 취하기, odds 값 취하기
'기계학습 > 코세라 - 기계학습 (Andrew Ng)' 카테고리의 다른 글
(개념별 정리) Gradient Descent, Cost Function, Classification (0) | 2019.08.17 |
---|---|
(개념별 정리) Regularization (0) | 2019.08.17 |
week 11 (0) | 2019.08.14 |
week10 (0) | 2019.08.14 |
week9 (0) | 2019.08.14 |