본문 바로가기
기계학습/코세라 - 기계학습 (Andrew Ng)

(개념별 정리) 오버피팅, 회귀

by tryotto 2019. 8. 17.

<Overfitting>


1. Underfitting, Overfitting / High Biased, High 

      - Underfitting = High Biased

      - Overfitting = High Variance


2. Overfitting의 문제점?

      - 주어진 데이터 케이스를 너무 완벽하게 설명하는 Cost Function을 만들다보니,

         해당 데이터 케이스만을 설명할 수 있는 Cost Function이 만들어진다

-> "융통성"이 부족!


3. Overfitting을 해결할 수 있는 방법?

      - 1) 변수의 갯수를 줄인다. How?

- 노가다 (직접 몇 개를 선택해서 변수를 제거)

- 알고리즘 사용 (Model Selection Algorithm)


      - 2) 정규화

- 방식 : 모든 변수들을 그대로 유지하되, 매개변수 값의 크기를 줄인다

- 유용한 상황 : 많은 변수를 갖고 있으나, 각각 조금씩만 결괏값에 영향력을 지닌 경우



<Logistic Regression>


1. 로지스틱 회귀 vs 일반 회귀

- 둘 다 종속변수와 독립변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용

->  선형 회귀도 마찬가지이지만, 다른 점이 존재.

2. 로지스틱 회귀 vs 선형 회귀 

< 종속 변수 >

- 종속 변수의 데이터 성질 (1) : 범주

- 로지스틱 회귀 : 범주형 데이터를 대상으로 함 

- 선형 회귀 : 반드시 범주형 데이터를 대상으로 하진 않음 (좀 더 포괄적임)


- 종속 변수의 데이터 성질 (2) : 분류

- 로지스틱 회귀 : 입력 데이터에 대한 출력값이 특정 분류로 나뉨 (분류 기법의 성질을 띤다)

-> 즉, 종속변수가 특정 분류로 나뉨

-> 일반적으로, 로지스틱 회귀는 2개의 범주로 종속변수가 분류 됨

    ** 더 많은 범주로 분류할 경우, 다항 로지스틱 회귀, 분화 로지스틱 회귀 등.. 다른 이름임


<로지스틱 회귀 특징 : 독립-종속변수 관계>

- 1) 이항형 데이터에 적용시 (독립변수를)

- 로지스틱 회귀 : 종속변수 y 값이 [0-1] 로 제한됨


- 2) 종속 변수가 이진적 -> 조건부 확률 P(x|y) 의 분포가 이항분포 (정규분포 X)


** 따라서,

이러한 로지스틱 회귀를 일반적인 단순 선형 회귀에 적용시, 오류 발생(범위가 0-1 을 벗어남)

-> 로지스틱 회귀에 딱 맞는 함수를 찾아야 한다 ! 

-> 1) 로지스틱 모형  2) 검벨 모형

** 시그모이드 함수 = 로지스틱 모형의 특수한 경우

** 추가) 로지스틱 모형을 만드는 방법 ?

-> 일반 회귀 함수에다가 여러 조치를 취해 준다 : log 취하기, odds 값 취하기


'기계학습 > 코세라 - 기계학습 (Andrew Ng)' 카테고리의 다른 글

(개념별 정리) Gradient Descent, Cost Function, Classification  (0) 2019.08.17
(개념별 정리) Regularization  (0) 2019.08.17
week 11  (0) 2019.08.14
week10  (0) 2019.08.14
week9  (0) 2019.08.14