본문 바로가기
기계학습/자연어 처리 머신러닝

단어 표현 방법 - 딥러닝을 이용한 자연어처리 입문

by tryotto 2019. 12. 28.

# 단어 표현 방법



- 종류 : https://wikidocs.net/31767


1. 국소 표현 방법 (Local) : 딱 그 단어 자체만 보고 매핑하여서 표현함. 주변 단어들은 신경 X

- '이산 표현 방법' 이라고 이해하면 더 쉽다.


2. 분산 표현 방법 (Distributed) : 주변에 무슨 단어가 있는지도 고려해서 매핑함.

     - '연속 표현 방법' 이라고 이해하면 쉽다.




# 국소 표현 방법 (Local)


- 종류 : 원 핫 벡터, N-gram, 카운트 기반 

- 카운트 기반 기법 종류 : BoW, DTM, TF-IDF



1. BoW

- 순서 :

1) 문장 속 각 단어에 정수 인덱싱

2) 각 인덱스 위치에 단어 토큰의 등장횟수 기록 벡터 만들기

- 용도 : 

1> 어떤 성격의 문서인지 판단

2> 여러 문서들 간의 유사도 판단



2. 문서 단어 행렬 (DTM)- BoW 응용

- 구조 :  문서/단어  각각을 행/열 로 만들어서 빈도수를 체크 >> 행렬로 만들기

- 한계 : 

1) 희소 표현 : 대부분의 값들이 0 으로 채워져 있는 경우, 비효율

- 원 핫 벡터도 비슷한 단점.

2) 불용어의 등장 : 쓸데없는 단어들도 높은 빈도수로 등장할 경우가 있음 >> 한계


3. TF-IDF

- 공식 : TF 값 * IDF 값

- TF (d, t)  : 특정 문서 d 에서 특정 단어 t 의 등장 횟수

- DF (t) : 특정 단어 t 가 등장하는 문서의 수

- IDF(t) : DF (t) 에 반비례 하는 수