윈도우 환경에서 파이참을 활용하여 GloVe를 사용해보고자 한다. GloVe는 2014년에 나온 임베딩 기법으로 말뭉치 전체의 통계 정보와 임베딩된 단어 벡터 간 유사도를 활용하고자 하는 시도이다. 자세한 내용은 다른 블로그에서 멋지게 설명하고 있으니 그곳을 참조하면 좋을 것 같다. 먼저 GloVe를 윈도우 환경에서 사용하기 위해 몇번의 시도를 하였지만 좀처럼 해결이 되지 않았다. 그래서 찾은 해결(?), 다른 방안으로 해보았다. 우선 인스톨 하는 패키지는 glove-python-binary 이다. GloVe가 설치가 되면 이제 이전 블로그에서 생성한 코퍼스 파일을 읽어 학습을 시켜보도록 한다. 코드 import numpy as np from glove import Glove from glove impo..
한글로된 코퍼스를 자소 분리하여 FastText의 입력으로 전달함으로 각각의 하나의 문자에 대하여 n-gram을 하도록 할 수도 있다. 이와 같이 사용하려면 학습 전 준비단계에서 해야 하는 일 한가지와 테스트시 해야 하는 일 두가지만 추가하면 된다. 1. (준비단계) 자소분리된 코퍼스 준비 2. (테스트) 테스트를 위한 문자를 자소로 분리하여 전달 3. (테스트) 결과로 나온 단어들의 자소를 합쳐 원래 단어로 변경 그럼 자소로 분리하는 것부터 하도록 한다. 코드 import util.utils as util from tqdm import tqdm def process_jamo(tokenized_corpus_fname, output_fname): toatal_lines = sum(1 for line in ..
임베딩 기법 중 하나인 Word2Vec을 활용하여 특정 코퍼스를 임베딩해보았다. 그리고 Word2Vec 결과에 유사도 상위 단어 목록을 체크도 해보았는데 간혹 단어를 입력하다보면 어휘에 없는 단어라는 메세지가 나오는 경우가 있다. 이는 코퍼스에 포함되어 있지 않은 단어이기 때문에 임베딩 값이 없다. 하지만 FastText는 각 단어를 문자 단위 n-gram으로 표현하기 때문에 이러한 부분을 어느 정도 커버할 수 있다. 이번 예에서는 gensim에서 제공하는 fasttext를 활용하여 임베딩하는 과정을 기록한다. 코드 from gensim.models import FastText from tqdm import tqdm corpus_fname = 'D:/Data/embedding/data/tokenized/..
임베딩 기법 중 Word2Vec을 활용하여 한국어를 대상으로 임베딩을 생성해보고자 한다. 대상이 되는 데이터는 지난 글에서 생성한 네이버 영화리뷰와 이와 더불어 KorQuAD, 한국어 위키백과 그리고 웹 크롤링을 통해 수집한 쇼핑몰의 사용자 리뷰데이터를 합하여 사용해 보았다. 준비한 데이터의 파일 크기는 약 690MB 이고, 라인수로는 약 67만 라인정도가 된다. Word2Vec에 대한 설명은 다른 여러 블로그에서 충분히 설명하고 있기 때문에 쉽게 찾아볼 수 있다. 여기서는 gensim 이라는 패키지를 활용해 Word2Vec에 대한 코드를 작성한다. 코드 from gensim.models import Word2Vec from gensim.models.callbacks import CallbackAny2V..
- Total
- Today
- Yesterday
- TBC
- Ontology
- rdfox
- RDF
- Linked Data
- django
- Thymeleaf
- 장고
- 타임리프
- TDB
- 스프링부트
- RDF 변환
- stardog
- 트리플
- TopBraid Composer
- 그래프 데이터베이스
- networkx
- sparql
- 트리플 변환
- 지식 그래프
- 사이퍼
- cypher
- Knowledge Graph
- LOD
- neosemantics
- 온톨로지
- 지식그래프
- Neo4j
- property graph
- pyvis
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |