본문 바로가기

분류 전체보기

(12)
카운트 기반의 단어 표현 1.다양한 단어의 표현 방법 2.Bag of Words(Bow) 3.문서 단어 행렬(Document-Term Matrix, DTM) 4.TF-IDF(Term Frequency-inverse Document Frequency) 1.다양한 단어의 표현 방법 국소 표현(Local Representation): 해당 단어 그 자체만 보고, 특정값을 맵핑하여 단어를 표현하는 방법 단어의 의미, 뉘앙스를 표현할 수 없다 이산 표현(Discrete Representation)이라고도 함 분산 표현(Distributed Representation): 그 단어를 표현하고자 주변을 참고하여 단어를 표현 단어의 뉘앙스를 표현할 수 있다 연속 표현(Continuous Represnetation)이라고도 함 2.Bag of W..
언어모델(Languagel Model) 1.언어모델이란? 2.통계적 언어 모델(Statistical Language Model, SLM) 3.N-gram 언어 모델 4.Perplexity, PPL 1.언어모델이란? 언어 모델(Languagel Model)? 단어 시퀀스(문장)에 확률을 할당하는 모델 이를통해 빈칸에 들어갈 단어를 예측하는데 사용됩니다. 통계에 기반한 전통적인 언어 모델(Statistical Languagel Model, SLM)에 대해서 학습합니다. 통계에 기반한 언어 모델은 우리가 실제 사용하는 자연어를 근사하기에는 많은 한계가 있었고, 요즘 들어 인공 신경망이 그러한 한계를 많이 해결해주면서 통계 기반 언어 모델은 많이 사용 용도가 줄었습니다. 하지만 그럼에도 통계 기반 방법론에 대한 이해는 언어 모델에 대한 전체적인 시야..
텍스트 전처리 텍스트 전처리란 풀고자 하는 용도에 맞게 텍스트를 처리하는 작업입니다. 1.토큰화 tokenization 2.정제 cleaning , 정규화 normalization 3.어간추출 stemming, 표제어추출 lemmatization 4.불용어 stopword 5.정규표현식 regular expression 6.정수 인코딩 integer encoding 7.패딩 padding 8.원핫 인코딩 one-hot encoding 9.데이터 분리 splitting data 1.토큰화 tokenization - 단어토큰화 - 문장토큰화 - 품사태익 - NLTK와 KoNLPy를 이용한 토큰화, POS 실습 토큰화란 주어진 코퍼스(corpus)에서 토큰이라 불리는 단위로 나누는 것을 의미합니다. 코퍼스란 자연언어 연구를..
Numpy 행렬의 필요성 - 현실 세계의 많은 문제는 행렬(리스트)을 이용해 해결할 수 있습니다. - axis 0(행), 1차원: 벡터 - axis 1(열), 2차원: 행렬 - axis 2(채널), 3차원: Tensor 행렬은 어디에 쓰이는가? - 컴퓨터의 메모리 구조는 행렬 형태의 표현이 가능합니다. - 표 형태, 이미지 데이터는 행렬로 표현할 수 있습니다. Numpy란? - 다차원 배열을 효과적으로 처리 가능 - 다양한 데이터는 배열로 나타낼 수 있음 - 파이썬의 리스트에 비해 빠르고 강력한 기능 내포 - 특정 인댁스에 바로 접근 가능, 배열의 크기를 자유대로 바꿀 수 있음(reshape) Numpy 기본 사용법 a = [1, 2, 3, 4] b = [5, 6, 7, 8] #리스트 생성 array = np.ar..