본문 바로가기
기계학습/자연어 처리 머신러닝

문서 표현 방법 - 딥러닝을 이용한 자연어 처리 입문

by tryotto 2019. 12. 28.

# 문서 유사도 구하기


- 종류 : 코사인 유사도, 유클리드 거리, 자카드 유사도

- 의의 : 카운트 기반 단어 빈도수 계산 가능 >> 문서 유사도 계산도 가능해졌다!



1. 코사인 유사도  https://wikidocs.net/24603


- 방식 : 두 벡터 사이의 코사인 각도를 이용

1) DTM 또는 TF-IDF 행렬을 이용해서, 각 문서의 빈도를 벡터로 표현한다.

2) 두 벡터의 내적 값 공식을 이용해서, 코사인 값을 구한다

3) 코사인 값을 이용해서, 사잇각을 구한다. 각도가 작을수록, 유사한 문서다.




2. 유클리드 거리  https://wikidocs.net/24654


- 방식 : 그냥, 각 빈도수 값들의 거리 차 제곱 값들을 합해준다.




3. 자카드 유사도  https://wikidocs.net/24654


- 방식 : 집합의 성질을 이용한 방식