Tokenization
Tokenization •구두점이나 특수 문자 포함 • 줄임말과 단어 내 띄어쓰기 • 문장 토큰화 • 한국어 토큰화 - 교착어 (조사, 어미 사용) - 형태소(Morpheme) * 자립 형태소 → 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 * 의존 형태소 →접사, 어미, 조사, 어간 - 띄어 쓰기 - ex) 말뭉치또는코퍼스는자연언어연구를위해특정한목적을가지고언어의표본을추출 한집합이다. - ex) Howmanystepsshouldyouwalkeachdaytostayhealthyandlivelonger? • 품사 태깅 (Part-of-speech tagging) - 어떤 품사가 있는지? 명사를 꾸며주는건 형용사, 나머지는 부사 • Cleaning - 데이티 정제(노이즈 제거 작업,글씨가 이..
2022. 3. 22.