본문 바로가기
기계학습/자연어 처리 머신러닝

스팸 메일 분류기 - 실습 이론

by tryotto 2020. 2. 13.

# 스팸 메일 분류기




1. 나이브 베이즈 분류기

- 인공 신경망 아님

- 준수한 성능




2. 베이즈 정리 - 나이브 베이즈 분류기 이론 기초


- 목적식 : P( 정상 메일 | 입력 텍스트 ), P( 스팸 메일 | 입력 텍스트 ) 

     -> 이 목적식을 베이즈 정리를 이용해서 구해준다

- 베이즈 정리 : P(A|B) = P(B|A)*P(A)/P(B)


- 입력 텍스트 : 토큰화를 시켜서 입력


- 특징 : 문장의 sequence 가 중요하지 않다 (결국 결괏값은 순서와 상관 없이 연산되기 때문)


- 한계 : 확률이 0 이 되는 경우가 생긴다

     -> 정확한 판단이 힘들어짐

     -> 해결책 : 나이브 베이즈 분류기 - 라플라스 스무딩 이용