본문 바로가기
프로그래밍 언어 기본 문법/파이썬

(최신화 중)여러 패키지 문법 정리 - 딥러닝을 이용한 자연어처리 입문

by tryotto 2020. 1. 31.

# Pandas 문법 정리




1) pd.read_csv(경로) : 특정 경로에 있는 데이터를 불러와서 객체로 반환한다.


     - input :

1) 경로 : 어디서 데이터를 불러올 것인지 확인

2) sep ='특정 기호' :  특정 기호를 기준으로, 한 줄의 데이터를 여러개로 쪼개서 분리한다

3) names =[ , , ] : sep 에 의해 쪼개진 여러개의 데이터에, 이름을 붙여서 객체의 부분으로 만든다.

    > 단순히 이름만 붙여주는게 아니라, 따로 "객체 내부의 부분 객체" 로 만드는것이다!

        ex) lines.tar() <- 객체 내부에 tar 이라는 부분 객체를 만들었기에 다음과 같은 연산이 가능


     - output : 데이터 전체를 하나의 객체화 시켜서 반환한다.

> 이때, "객체"임을 상기하자. 

   그렇기 때문에 lines.sample() 같은 함수 연산이 가능한 것이다

> 또한, 해당 객체는 여러개의 "문장"으로 구성되어 있다

   그렇기 때문에 for 문을 이용한 접근이 가능한 것.

ex) for line in lines ~






# keras 기본 문법 정리




1) pad_sequences (input, maxlen=?, padding=' ')   :  padding 을 수행해준다


     - input : 리스트 자료형

1) input 데이터 : 어떤 데이터를 padding 연산 취해줄 것인지 넣어줘야 한다

2) maxlen : padding 을 해서 총 얼마의 길이를 반환할 것인지 정해준다

3) padding = 'post/pre' : padding 을 앞에 할건지, 뒤에 할건지 정해준다


     - output : padding 연산을 완료한 리스트 자료형을 반환한다




2) to_categorical


     - input : 정수 인덱싱이 완료된 리스트

ex) [ 3, 1, 2 ]


     - output : 각각의 정수값들을 원핫벡터로 옮긴, 이중 리스트

ex) [ 3, 1, 2 ] ->     [ [ 0, 0, 1], [ 1, 0, 0 ], [0, 1, 0] ]







# 기본 파이썬 문법 정리 



1) enumerate(배열) : 배욜에 있는 각각의 원소들의 갯수를 세서, 각각의 원소에게 인덱스를 부과한다

    

     - input : 리스트

ex) enumerate( [a, b, c] )


     - output : 튜플

ex) enumerate( [a, b, c] ) = (0, a)  (1, b)  (2, c)




2) for A in B :   객체 B 에 있는 원소들을 반복문을 이용해 하나씩 뽑아낸다


     - input :  반드시, "객체" 가 B 의 자리에 와야 한다!

> 가능한 자료형 :  list, dictionary, set, string, tuple, bytes


     - output : 객체 B 를 쪼갠 부분 단위인 A 가 반환된다

ex) B = lines 일 경우 -> line 이 반환

     B = string 일 경우 -> char 가 반환



3) 여러 자료형의 형식 예시


     - 리스트 : [1, 3, 5, 7]

     - 딕셔너리 : {"a": 1, "b":1} <- 딕셔너리를 for문으로 처리할 경우, key 값만 출력된다 (index 값은 안 나옴)

     - set : {1, 3}

     - string : "abc"

     - bytes : b'abcdef'

     - tuple : (1, 3, 5, 7)

     ** range : range(0,5)  <- "자료형" 이라고 하기엔 애매하다! 주로 다른 자료형과 섞어서 사용된다

ex) list( range(5) ) = [0, 1, 2, 3, 4]




4) 딕셔너리 변환 : 무조건 set 형식으로 반환한다


     - input : 

1) [ [ ~ ] ]

2) [ ( ~ ) ]

3) ( [ ~ ] )

4) ( ( ~ ) )


     - output : { key1 : idx1,  key2 : idx2,  key3 : idx3, ......  }