임베딩 기법 중 하나인 Word2Vec을 활용하여 특정 코퍼스를 임베딩해보았다. 그리고 Word2Vec 결과에 유사도 상위 단어 목록을 체크도 해보았는데 간혹 단어를 입력하다보면 어휘에 없는 단어라는 메세지가 나오는 경우가 있다. 이는 코퍼스에 포함되어 있지 않은 단어이기 때문에 임베딩 값이 없다. 하지만 FastText는 각 단어를 문자 단위 n-gram으로 표현하기 때문에 이러한 부분을 어느 정도 커버할 수 있다. 이번 예에서는 gensim에서 제공하는 fasttext를 활용하여 임베딩하는 과정을 기록한다. 코드 from gensim.models import FastText from tqdm import tqdm corpus_fname = 'D:/Data/embedding/data/tokenized/..
이번에는 https://projector.tensorflow.org/ Embedding projector - visualization of high-dimensional data Visualize high dimensional data. projector.tensorflow.org 에서 임베딩 결과를 시각화해보도록 한다. 임베딩 프로젝터에서 시각화를 하려면 임베딩 모델에서 별도의 tsv 파일을 생성해야 한다. python -m gensim.scripts.word2vec2tensor --input word2vec --output word2vec 위의 명령을 실행하면 2개의 tsv 파일이 생성된다. 여기서 --input과 --output 옵션 뒤에 word2vec은 임베딩모델을 저장한 파일명이 되겠다. 그럼..
이번에는 이전 글에서 생성한 Word2Vec의 결과를 시각화하여 보려고 한다. PCA와 t-SNE을 통해 고차원 데이터를 차원 축소하고 시각화를 할 수 있다. 이들은 비지도 학습의 종류 중 하나인 비지도 변환의 일종으로 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘이라고 할 수 있다. 차원 축소 분야에서 많이 사용하며 데이터를 구성하는 단위나 성분 찾기에도 사용한다. PCA(주성분 분석)은 특성들이 통계적으로 상관관계가 없도록 데이터셋을 회전시키는 기술로서 특성들의 상관관계가 가장 큰 방향(분산이 가장 큰 방향)을 찾고 그 방향과 직각인 방향 중에서 가장 많은 정보를 담은 방향을 찾아낸다. PCA는 주성분의 일부만 남기는 차원 축소 용도..
임베딩 기법 중 Word2Vec을 활용하여 한국어를 대상으로 임베딩을 생성해보고자 한다. 대상이 되는 데이터는 지난 글에서 생성한 네이버 영화리뷰와 이와 더불어 KorQuAD, 한국어 위키백과 그리고 웹 크롤링을 통해 수집한 쇼핑몰의 사용자 리뷰데이터를 합하여 사용해 보았다. 준비한 데이터의 파일 크기는 약 690MB 이고, 라인수로는 약 67만 라인정도가 된다. Word2Vec에 대한 설명은 다른 여러 블로그에서 충분히 설명하고 있기 때문에 쉽게 찾아볼 수 있다. 여기서는 gensim 이라는 패키지를 활용해 Word2Vec에 대한 코드를 작성한다. 코드 from gensim.models import Word2Vec from gensim.models.callbacks import CallbackAny2V..
이번 글에서는 네이버 영화리뷰 데이터에서 실제 리뷰 문장을 읽어 명사만 추출하고자 한다. 형태소 분석기는 Mecab 형태소 분석기를 활용할 것이다. 실행환경은 윈도우즈10에서 파이참을 사용한다. 윈도우즈에서 Mecab을 사용하기 위한 방법은 https://joyhong.tistory.com/127 윈도우 환경에서 mecab 설치 후 파이참(PyCharm) 에서 사용하기 윈도우에서 파이참을 사용하여 개발할 때 형태소 분석기 중 하나인 mecab을 사용하려면 몇가지 설치와 실행을 통해서 가능하다. 먼저 다운 받아야 할 것은 1. mecab-ko-msvc 2. mecab-ko-dic-msvc.zip 이렇게 joyhong.tistory.com 에서 설명한 적이 있다. 명사를 추출할 대상이 되는 파일은 이전 글에..
- Total
- Today
- Yesterday
- 지식 그래프
- property graph
- TBC
- Thymeleaf
- Linked Data
- TopBraid Composer
- RDF 변환
- 트리플
- pyvis
- Knowledge Graph
- LOD
- Neo4j
- 스프링부트
- neosemantics
- networkx
- RDF
- cypher
- TDB
- 사이퍼
- django
- 온톨로지
- sparql
- 트리플 변환
- Ontology
- 장고
- 그래프 데이터베이스
- rdfox
- 지식그래프
- stardog
- 타임리프
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |