# 단어 표현 방법
- 종류 : https://wikidocs.net/31767
1. 국소 표현 방법 (Local) : 딱 그 단어 자체만 보고 매핑하여서 표현함. 주변 단어들은 신경 X
- '이산 표현 방법' 이라고 이해하면 더 쉽다.
2. 분산 표현 방법 (Distributed) : 주변에 무슨 단어가 있는지도 고려해서 매핑함.
- '연속 표현 방법' 이라고 이해하면 쉽다.
# 국소 표현 방법 (Local)
- 종류 : 원 핫 벡터, N-gram, 카운트 기반
- 카운트 기반 기법 종류 : BoW, DTM, TF-IDF
1. BoW
- 순서 :
1) 문장 속 각 단어에 정수 인덱싱
2) 각 인덱스 위치에 단어 토큰의 등장횟수 기록 벡터 만들기
- 용도 :
1> 어떤 성격의 문서인지 판단
2> 여러 문서들 간의 유사도 판단
2. 문서 단어 행렬 (DTM)- BoW 응용
- 구조 : 문서/단어 각각을 행/열 로 만들어서 빈도수를 체크 >> 행렬로 만들기
- 한계 :
1) 희소 표현 : 대부분의 값들이 0 으로 채워져 있는 경우, 비효율
- 원 핫 벡터도 비슷한 단점.
2) 불용어의 등장 : 쓸데없는 단어들도 높은 빈도수로 등장할 경우가 있음 >> 한계
3. TF-IDF
- 공식 : TF 값 * IDF 값
- TF (d, t) : 특정 문서 d 에서 특정 단어 t 의 등장 횟수
- DF (t) : 특정 단어 t 가 등장하는 문서의 수
- IDF(t) : DF (t) 에 반비례 하는 수
'기계학습 > 자연어 처리 머신러닝' 카테고리의 다른 글
어텐션 매커니즘 - 딥러닝을 이용한 자연어처리 입문 (0) | 2020.01.28 |
---|---|
딥 러닝 개념 모음 - 딥러닝을 이용한 자연어처리 입문 (0) | 2020.01.03 |
문서 표현 방법 - 딥러닝을 이용한 자연어 처리 입문 (0) | 2019.12.28 |
용어 정리 - 위키 참조 (0) | 2019.12.28 |
텍스트 전처리 - 딥 러닝을 이용한 자연어처리 입문 (0) | 2019.12.27 |