본문 바로가기
자연어처리(NLP)

Word Embedding, Word2Vec

by 대금부는개발자 2022. 3. 22.
SMALL

 

• Sparse Representation (희소 표현)

- 벡터, 행렬의 값이 대부분이 0으로 표현

- ex) one-hot-vector

- ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0]

 

• Dense Representation (밀집 벡터)

- 사용자가 설정한 값으로 모든 단어의 벡터 차원을 맞춤

- 실수로 표현

- ex) 강아지 = [0.2 1.8 1.1 -2.1 1.1 2.8 ... ] # 이 벡터의 차원은 128

 

• 희소 표현으로는 유사성 표현할 수 없음 → 다차원 공간에 벡터화

• 단어 간 유사성을 벡터화. → 워드 임베딩

• 단어를 벡터로 표현 → 밀집 표현

- Embedding Vector

- LSA, Word2Vec, FastText, Glove, Keras의 Embedding()

 

 

Word2Vec

단어 벡터 간 유사도 반영 → 단어를 수치화

Word2Vec 테스트 사이트[Korean Word2Vec]

 

 

• CROW(Continuous Bag of Words)

 

 

 

 

 

 

• Skip-Gram

- 중간의 단어로 주변 단어를 예측

 

 

 

 

 

Vector란??

• 비슷한 특징 (Sementics)를 갖는 단어를 추측

-시멘틱스 (Sementics, 의미) - 프로그램이 무엇을 어떻게 수행할지 나타내 주며, 특정 기능의 의미가 다 른 부분

과의 상호 연관에 의해서만 정확히 설명

• 다음에 올 단어를 추측

- 번역

- 자동 문장 생성, 자동 응답 → AI System

 

단어 가지고 백터 표현 그림[Linguistic Regularities in Continuous Space Word Representations - ACL Anthology]

 

 

https://simonezz.tistory.com/35

LIST

'자연어처리(NLP)' 카테고리의 다른 글

Tokenization  (0) 2022.03.22
베이즈 정리(Bayes’ theorem)  (0) 2022.03.21
Python Text, PDF파일 다루기  (0) 2022.03.15
정규표현식(Regular Expression)  (0) 2022.03.15

댓글