(개념별 정리) 오버피팅, 회귀

1. Underfitting, Overfitting / High Biased, High

- Underfitting = High Biased

- Overfitting = High Variance

2. Overfitting의 문제점?

- 주어진 데이터 케이스를 너무 완벽하게 설명하는 Cost Function을 만들다보니,

해당 데이터 케이스만을 설명할 수 있는 Cost Function이 만들어진다

-> "융통성"이 부족!

3. Overfitting을 해결할 수 있는 방법?

- 1) 변수의 갯수를 줄인다. How?

- 노가다 (직접 몇 개를 선택해서 변수를 제거)

- 알고리즘 사용 (Model Selection Algorithm)

- 2) 정규화

- 방식 : 모든 변수들을 그대로 유지하되, 매개변수 값의 크기를 줄인다

- 유용한 상황 : 많은 변수를 갖고 있으나, 각각 조금씩만 결괏값에 영향력을 지닌 경우

1. 로지스틱 회귀 vs 일반 회귀

- 둘 다 종속변수와 독립변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용

-> 선형 회귀도 마찬가지이지만, 다른 점이 존재.

2. 로지스틱 회귀 vs 선형 회귀

< 종속 변수 >

- 종속 변수의 데이터 성질 (1) : 범주

- 로지스틱 회귀 : 범주형 데이터를 대상으로 함

- 선형 회귀 : 반드시 범주형 데이터를 대상으로 하진 않음 (좀 더 포괄적임)

- 종속 변수의 데이터 성질 (2) : 분류

- 로지스틱 회귀 : 입력 데이터에 대한 출력값이 특정 분류로 나뉨 (분류 기법의 성질을 띤다)

-> 즉, 종속변수가 특정 분류로 나뉨

-> 일반적으로, 로지스틱 회귀는 2개의 범주로 종속변수가 분류 됨

** 더 많은 범주로 분류할 경우, 다항 로지스틱 회귀, 분화 로지스틱 회귀 등.. 다른 이름임

<로지스틱 회귀 특징 : 독립-종속변수 관계>

- 1) 이항형 데이터에 적용시 (독립변수를)

- 로지스틱 회귀 : 종속변수 y 값이 [0-1] 로 제한됨

- 2) 종속 변수가 이진적 -> 조건부 확률 P(x|y) 의 분포가 이항분포 (정규분포 X)

** 따라서,

이러한 로지스틱 회귀를 일반적인 단순 선형 회귀에 적용시, 오류 발생(범위가 0-1 을 벗어남)

-> 로지스틱 회귀에 딱 맞는 함수를 찾아야 한다 !

-> 1) 로지스틱 모형 2) 검벨 모형

** 시그모이드 함수 = 로지스틱 모형의 특수한 경우

** 추가) 로지스틱 모형을 만드는 방법 ?

-> 일반 회귀 함수에다가 여러 조치를 취해 준다 : log 취하기, odds 값 취하기

저작자표시 (새창열림)

'기계학습 > 코세라 - 기계학습 (Andrew Ng)' 카테고리의 다른 글

(개념별 정리) Gradient Descent, Cost Function, Classification (0)	2019.08.17
(개념별 정리) Regularization (0)	2019.08.17
week 11 (0)	2019.08.14
week10 (0)	2019.08.14
week9 (0)	2019.08.14

지나간것은 지나간대로

(개념별 정리) 오버피팅, 회귀

'기계학습 > 코세라 - 기계학습 (Andrew Ng)' 카테고리의 다른 글

티스토리툴바

(개념별 정리) 오버피팅, 회귀

'기계학습 > 코세라 - 기계학습 (Andrew Ng)' 카테고리의 다른 글

관련글

티스토리툴바