이번에는 https://projector.tensorflow.org/ Embedding projector - visualization of high-dimensional data Visualize high dimensional data. projector.tensorflow.org 에서 임베딩 결과를 시각화해보도록 한다. 임베딩 프로젝터에서 시각화를 하려면 임베딩 모델에서 별도의 tsv 파일을 생성해야 한다. python -m gensim.scripts.word2vec2tensor --input word2vec --output word2vec 위의 명령을 실행하면 2개의 tsv 파일이 생성된다. 여기서 --input과 --output 옵션 뒤에 word2vec은 임베딩모델을 저장한 파일명이 되겠다. 그럼..
이번에는 이전 글에서 생성한 Word2Vec의 결과를 시각화하여 보려고 한다. PCA와 t-SNE을 통해 고차원 데이터를 차원 축소하고 시각화를 할 수 있다. 이들은 비지도 학습의 종류 중 하나인 비지도 변환의 일종으로 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘이라고 할 수 있다. 차원 축소 분야에서 많이 사용하며 데이터를 구성하는 단위나 성분 찾기에도 사용한다. PCA(주성분 분석)은 특성들이 통계적으로 상관관계가 없도록 데이터셋을 회전시키는 기술로서 특성들의 상관관계가 가장 큰 방향(분산이 가장 큰 방향)을 찾고 그 방향과 직각인 방향 중에서 가장 많은 정보를 담은 방향을 찾아낸다. PCA는 주성분의 일부만 남기는 차원 축소 용도..
임베딩 기법 중 Word2Vec을 활용하여 한국어를 대상으로 임베딩을 생성해보고자 한다. 대상이 되는 데이터는 지난 글에서 생성한 네이버 영화리뷰와 이와 더불어 KorQuAD, 한국어 위키백과 그리고 웹 크롤링을 통해 수집한 쇼핑몰의 사용자 리뷰데이터를 합하여 사용해 보았다. 준비한 데이터의 파일 크기는 약 690MB 이고, 라인수로는 약 67만 라인정도가 된다. Word2Vec에 대한 설명은 다른 여러 블로그에서 충분히 설명하고 있기 때문에 쉽게 찾아볼 수 있다. 여기서는 gensim 이라는 패키지를 활용해 Word2Vec에 대한 코드를 작성한다. 코드 from gensim.models import Word2Vec from gensim.models.callbacks import CallbackAny2V..
이번 글에서는 네이버 영화리뷰 데이터에서 실제 리뷰 문장을 읽어 명사만 추출하고자 한다. 형태소 분석기는 Mecab 형태소 분석기를 활용할 것이다. 실행환경은 윈도우즈10에서 파이참을 사용한다. 윈도우즈에서 Mecab을 사용하기 위한 방법은 https://joyhong.tistory.com/127 윈도우 환경에서 mecab 설치 후 파이참(PyCharm) 에서 사용하기 윈도우에서 파이참을 사용하여 개발할 때 형태소 분석기 중 하나인 mecab을 사용하려면 몇가지 설치와 실행을 통해서 가능하다. 먼저 다운 받아야 할 것은 1. mecab-ko-msvc 2. mecab-ko-dic-msvc.zip 이렇게 joyhong.tistory.com 에서 설명한 적이 있다. 명사를 추출할 대상이 되는 파일은 이전 글에..
네이버 영화리뷰 데이터 획득하기 https://ratsgo.github.io/embedding/downloaddata.html 데이터 다운로드 말뭉치나 임베딩을 다운로드하는 방법을 안내합니다. ratsgo.github.io 이 블로그에서 네이버 영화리뷰 데이터를 다운 받을 수 있다. 이 외에도 한국어 위키백과와 KorQuAD 데이터도 다운 받을 수 있다. 네이버 영화리뷰 데이터를 다운로드 받아서 확인해 보면, id, document, label 순으로 탭 구분되어 있는 데이터를 볼 수 있다. 이 파일에서 필요한 부분인 document 만을 추출하여 다른 파일로 저장하도록 한다. (여기서는 부정, 긍정을 나타내는 label인 0과 1은 사용하지 않을 예정이기 때문에 추출하지 않는다.) 코드 import j..
- Total
- Today
- Yesterday
- 사이퍼
- 온톨로지
- django
- pyvis
- 지식그래프
- TDB
- RDF 변환
- Ontology
- LOD
- MeCab
- RDF
- sparql
- 스프링부트
- TBC
- Thymeleaf
- Linked Data
- TopBraid Composer
- Knowledge Graph
- 그래프 데이터베이스
- 타임리프
- neosemantics
- networkx
- Neo4j
- 지식 그래프
- property graph
- cypher
- stardog
- 장고
- 트리플 변환
- 트리플
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |