ML&DL

Word2Vec - 시각화 2

joyHong 2020. 8. 12. 01:49

이번에는 https://projector.tensorflow.org/

 

Embedding projector - visualization of high-dimensional data

Visualize high dimensional data.

projector.tensorflow.org

에서 임베딩 결과를 시각화해보도록 한다.

임베딩 프로젝터에서 시각화를 하려면 임베딩 모델에서 별도의 tsv 파일을 생성해야 한다.

python -m gensim.scripts.word2vec2tensor --input word2vec --output word2vec

 

위의 명령을 실행하면 2개의 tsv 파일이 생성된다.

여기서 --input과 --output 옵션 뒤에 word2vec은 임베딩모델을 저장한 파일명이 되겠다.

 

그럼 파이참에서는 터미널 탭을 눌러 word2vec 파일이 존재하는 폴더로 이동한다.

cd 명령을 통해 디렉토리 이동 후 위의 명령을 실행하면 아래와 같은 메세지와 함께 두 개의 파일이 생성이 된다.

파일이 준비되었으면 임베딩 프로젝트 사이트에서 접속하여 왼쪽에 있는 Load 버튼을 클릭해 두개의 tsv 파일을 업로드 한다.

업로드가 완료되면 PCA, t-SNE 등으로 시각화된 내용을 볼 수 있다

이번에 업로드한 대강의 모습이다. 기본적으로 3차원으로 나타나며, 2차원으로도 볼 수 있다.

 

특정 단어를 선택하면 관련된 단어들이 하이라이트되어 보여진다.

 

T-SNE 탭을 클릭하면 초기화 작업 중이라는 메세지가 뜨고 t-SNE 시각화로 변경된다.