본문 바로가기

프로그래밍 언어 기본 문법/파이썬6

Dataframe - Pandas 자료형 정리 # Series 자료형과의 관계 - Dataframe, Series 둘 다 Pandas 에만 존재하는 자료형 - Dataframe > Series> Dataframe 의 한 컬럼 == Series # 기본적인 정보 확인하기 1) df.shape ex) (891, 12) 2) df.index : 인덱스에 대한 개요를 반환한다 ex) RangeIndex(start=0, stop=891, step=1) 3) df.column : 컬럼 목록을 반환한다 ex) Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex']) # 특정 행(row) 선택하기 - 종류 : iloc, loc, ix 1) iloc .. 2020. 3. 11.
파이썬 데이터/자료형 # 파이썬 기본 "데이터" 타입 - 종류 : 1) str : 문자열 2) int : 정수 3) float : 실수 # 파이썬 기본 "자료형" - 종류 : 1) list (리스트) : - 표기 방식 : [ ] - 의의 : 1> 다양한 자료형을 하나로 묶을 수 있다ex) [1, 'ab', "abcd" ] 2> 중첩 사용이 가능하다 : 다차원 배열 생성 가능ex) [ [ 1, 2 ], [ 3, 4 ] ] : 2차원 배열 3> 삭제, 수정, 추가에 유리하다 -> 동적할당이 알아서 되는거랑 비슷. c++ 의 vector 라고 생각.ex) a=[ 1, 2 ], b=[3] -> c = a+b -> c=[ 1, 2, 3 ] 2) tuple (튜플) : - 표기 방식 : ( )- 의의 : 수정 불가능한 리스트 > 리스트.. 2020. 3. 11.
딥러닝 라이브러리 모음 # imdb - 데이터 불러오기 - 긍정/부정 분류기 (binary 분류) # random - 랜덤한 인덱스 값 얻어내기 위함 (randint 함수 사용) # tensorflow.keras : 자연어 처리 용도 - 데이터 셋 : - 로이터 뉴스 데이터 가져오기 (multiclass 분류) - MNIST 데이터 가져오기 - 전처리 : - pad_sequence : 패딩 연산 하기 - to_categorical : 원핫 인코딩 처리 - 토큰 처리 : - Tokenizer() : Corpus 를 토큰화 시켜서 데이터를 사용 가능하도록 변형한다 - fit_on_texts 연산 : 각각의 문자들에 대해서 정수 인덱스를 부여한다 ex) { 'apple : 1' , 'banana : 2' }> 반환값이 없으며, 해당.. 2020. 2. 15.
(최신화 중)여러 패키지 문법 정리 - 딥러닝을 이용한 자연어처리 입문 # Pandas 문법 정리 1) pd.read_csv(경로) : 특정 경로에 있는 데이터를 불러와서 객체로 반환한다. - input :1) 경로 : 어디서 데이터를 불러올 것인지 확인2) sep ='특정 기호' : 특정 기호를 기준으로, 한 줄의 데이터를 여러개로 쪼개서 분리한다3) names =[ , , ] : sep 에 의해 쪼개진 여러개의 데이터에, 이름을 붙여서 객체의 부분으로 만든다. > 단순히 이름만 붙여주는게 아니라, 따로 "객체 내부의 부분 객체" 로 만드는것이다! ex) lines.tar() 이때, "객체"임을 상기하자. 그렇기 때문에 lines.sample() 같은 함수 연산이 가능한 것이다> 또한, 해당 객체는 여러개의 "문장"으로 구성되어 있다 그렇기 때문에 for 문을 이용한 접근.. 2020. 1. 31.
케라스 함수형 API - 딥러닝을 이용한 자연어처리 입문 # 함수형 API 문법 - sequential API vs. functional API 1) 입력층 : > sequential API : 입력층이 따로 필요없다. 입력 값 input_data_X 가 있으면 그대로 그걸 모델에 넣으면 된다. > functional API : 입력층이 따로 존재한다. 입력 데이터가 있더라도, 해당 데이터의 크기에 맞을 수 있는 입력 층 인스턴스를 선언한 뒤에야 쓸 수 있다.ex) inputs = Input(shape=(10, ))- Input() : 입력층 객체를 반환한다. 그러나, "실제 input 데이터"는 없다. 그냥 "형태"만 있는 입력층 객체다 2) Dense() 함수 : "똑같은 패키지"에서 가져 온 함수지만, 사용되는 방식은 전혀 다르다 > sequential .. 2020. 1. 30.
케라스 기본 문법 정리 - 딥러닝을 이용한 자연어처리 입문 # 자연어처리 문법 정리 1) Embedding : 정수 인코딩 된 문장(또는 단어)을 입력받아서, 밀집 벡터로 전환시키는 함수-> 단어의 차원 수를 줄일 수 있다. Why? 원래 단어 하나는, 원핫벡터로 표시되어야 하므로 단어의 종류에 따라서 차원 수가 무한정 커질 수 있다> 그러나, 밀집벡터를 이용할 경우 하나의 단어를 표현하기 위해 적은 차원 수로 표현이 가능하다 (보통은 2의 제곱수 만큼의 차원 벡터로 표현한다. 2, 4, 8, 16 차원...) - input : 2D 정수 텐서 -> 두 개의 입력 길이를 가진 2차원 텐서가 필요 1) # of samples>이때, samples들은 정수 인코딩이 완료된 값들 ex) i love you -> [3, 1, 2] 2) input length> 각각의 .. 2020. 1. 30.