이미지전처리 (1) 썸네일형 리스트형 텍스트 전처리 텍스트 전처리란 풀고자 하는 용도에 맞게 텍스트를 처리하는 작업입니다. 1.토큰화 tokenization 2.정제 cleaning , 정규화 normalization 3.어간추출 stemming, 표제어추출 lemmatization 4.불용어 stopword 5.정규표현식 regular expression 6.정수 인코딩 integer encoding 7.패딩 padding 8.원핫 인코딩 one-hot encoding 9.데이터 분리 splitting data 1.토큰화 tokenization - 단어토큰화 - 문장토큰화 - 품사태익 - NLTK와 KoNLPy를 이용한 토큰화, POS 실습 토큰화란 주어진 코퍼스(corpus)에서 토큰이라 불리는 단위로 나누는 것을 의미합니다. 코퍼스란 자연언어 연구를.. 이전 1 다음