ML&DL
Word2Vec - 시각화 2
joyHong
2020. 8. 12. 01:49
이번에는 https://projector.tensorflow.org/
에서 임베딩 결과를 시각화해보도록 한다.
임베딩 프로젝터에서 시각화를 하려면 임베딩 모델에서 별도의 tsv 파일을 생성해야 한다.
python -m gensim.scripts.word2vec2tensor --input word2vec --output word2vec
위의 명령을 실행하면 2개의 tsv 파일이 생성된다.
여기서 --input과 --output 옵션 뒤에 word2vec은 임베딩모델을 저장한 파일명이 되겠다.
그럼 파이참에서는 터미널 탭을 눌러 word2vec 파일이 존재하는 폴더로 이동한다.
cd 명령을 통해 디렉토리 이동 후 위의 명령을 실행하면 아래와 같은 메세지와 함께 두 개의 파일이 생성이 된다.
파일이 준비되었으면 임베딩 프로젝트 사이트에서 접속하여 왼쪽에 있는 Load 버튼을 클릭해 두개의 tsv 파일을 업로드 한다.
업로드가 완료되면 PCA, t-SNE 등으로 시각화된 내용을 볼 수 있다
이번에 업로드한 대강의 모습이다. 기본적으로 3차원으로 나타나며, 2차원으로도 볼 수 있다.
특정 단어를 선택하면 관련된 단어들이 하이라이트되어 보여진다.
T-SNE 탭을 클릭하면 초기화 작업 중이라는 메세지가 뜨고 t-SNE 시각화로 변경된다.