# 문서 유사도 구하기
- 종류 : 코사인 유사도, 유클리드 거리, 자카드 유사도
- 의의 : 카운트 기반 단어 빈도수 계산 가능 >> 문서 유사도 계산도 가능해졌다!
1. 코사인 유사도 https://wikidocs.net/24603
- 방식 : 두 벡터 사이의 코사인 각도를 이용
1) DTM 또는 TF-IDF 행렬을 이용해서, 각 문서의 빈도를 벡터로 표현한다.
2) 두 벡터의 내적 값 공식을 이용해서, 코사인 값을 구한다
3) 코사인 값을 이용해서, 사잇각을 구한다. 각도가 작을수록, 유사한 문서다.
2. 유클리드 거리 https://wikidocs.net/24654
- 방식 : 그냥, 각 빈도수 값들의 거리 차 제곱 값들을 합해준다.
3. 자카드 유사도 https://wikidocs.net/24654
- 방식 : 집합의 성질을 이용한 방식
'기계학습 > 자연어 처리 머신러닝' 카테고리의 다른 글
어텐션 매커니즘 - 딥러닝을 이용한 자연어처리 입문 (0) | 2020.01.28 |
---|---|
딥 러닝 개념 모음 - 딥러닝을 이용한 자연어처리 입문 (0) | 2020.01.03 |
단어 표현 방법 - 딥러닝을 이용한 자연어처리 입문 (0) | 2019.12.28 |
용어 정리 - 위키 참조 (0) | 2019.12.28 |
텍스트 전처리 - 딥 러닝을 이용한 자연어처리 입문 (0) | 2019.12.27 |