본문 바로가기

기계학습/자연어 처리 머신러닝28

문서 표현 방법 - 딥러닝을 이용한 자연어 처리 입문 # 문서 유사도 구하기 - 종류 : 코사인 유사도, 유클리드 거리, 자카드 유사도- 의의 : 카운트 기반 단어 빈도수 계산 가능 >> 문서 유사도 계산도 가능해졌다! 1. 코사인 유사도 https://wikidocs.net/24603 - 방식 : 두 벡터 사이의 코사인 각도를 이용1) DTM 또는 TF-IDF 행렬을 이용해서, 각 문서의 빈도를 벡터로 표현한다.2) 두 벡터의 내적 값 공식을 이용해서, 코사인 값을 구한다3) 코사인 값을 이용해서, 사잇각을 구한다. 각도가 작을수록, 유사한 문서다. 2. 유클리드 거리 https://wikidocs.net/24654 - 방식 : 그냥, 각 빈도수 값들의 거리 차 제곱 값들을 합해준다. 3. 자카드 유사도 https://wikidocs.net/24654 -.. 2019. 12. 28.
단어 표현 방법 - 딥러닝을 이용한 자연어처리 입문 # 단어 표현 방법 - 종류 : https://wikidocs.net/31767 1. 국소 표현 방법 (Local) : 딱 그 단어 자체만 보고 매핑하여서 표현함. 주변 단어들은 신경 X- '이산 표현 방법' 이라고 이해하면 더 쉽다. 2. 분산 표현 방법 (Distributed) : 주변에 무슨 단어가 있는지도 고려해서 매핑함. - '연속 표현 방법' 이라고 이해하면 쉽다. # 국소 표현 방법 (Local) - 종류 : 원 핫 벡터, N-gram, 카운트 기반 - 카운트 기반 기법 종류 : BoW, DTM, TF-IDF 1. BoW- 순서 :1) 문장 속 각 단어에 정수 인덱싱2) 각 인덱스 위치에 단어 토큰의 등장횟수 기록 벡터 만들기- 용도 : 1> 어떤 성격의 문서인지 판단2> 여러 문서들 간의 .. 2019. 12. 28.
용어 정리 - 위키 참조 ---------------------------------------------------------------------------------------------------------------------------------------------------- 하이퍼 파라미터 : 사용자가 직접 값을 선택하며 성능에 영향을 주는 매개변수를 말함https://en.wikipedia.org/wiki/Hyperparameter_(machine_learning) - 매개 변수 : 가중치와 편향과 같은 학습을 통해 바뀌어져가는 변수 >> 하이퍼파라미터는, 학습 이전에 사용자가 직접 선택한 값이다.https://wikidocs.net/32012 - fitting : 모델을 데이터의 값에 맞춰서 훈련하는 과정. .. 2019. 12. 28.
텍스트 전처리 - 딥 러닝을 이용한 자연어처리 입문 프로젝트 목록 : 문서 유사도를 이용한 자연어처리 기법 # 자연어 처리를 위한 준비단계 : 텍스트 전처리 - 종류 1 : 준비단계 1. 토큰화 : https://wikidocs.net/21698 - 단어/문장의 토큰화 : 각 패키지별로 다른 방식 적용함 - 토큰화에서 고려할 사항 : 구두점/특수문자 단순제외 ㄴㄴ, 줄임말과 단어 내에 띄어쓰기(접어)는 분리> 보완책 : 이진 분류기 - 한국어/영어 토큰화의 어려움 차이점 : 한국어가 토큰화가 더 어려움 - 품사 태깅 (팀플때 했던 것) 2. 정제 : 1) 규칙에 기반한 표기가 다른 단어들의 통합 : 어간/표제어 추출을 이용한 방법2) 대/소문자 통합3) 불필요한 단어 제거 : 빈도가 작거나, 길이가 짧은 단어 3. 정규화 : 좀 더 효율적인 방식으로 정제.. 2019. 12. 27.