윈도우 환경에서 파이참을 활용하여 GloVe를 사용해보고자 한다. GloVe는 2014년에 나온 임베딩 기법으로 말뭉치 전체의 통계 정보와 임베딩된 단어 벡터 간 유사도를 활용하고자 하는 시도이다. 자세한 내용은 다른 블로그에서 멋지게 설명하고 있으니 그곳을 참조하면 좋을 것 같다. 먼저 GloVe를 윈도우 환경에서 사용하기 위해 몇번의 시도를 하였지만 좀처럼 해결이 되지 않았다. 그래서 찾은 해결(?), 다른 방안으로 해보았다. 우선 인스톨 하는 패키지는 glove-python-binary 이다. GloVe가 설치가 되면 이제 이전 블로그에서 생성한 코퍼스 파일을 읽어 학습을 시켜보도록 한다. 코드 import numpy as np from glove import Glove from glove impo..
토픽모델링 기법 중에 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 이용하여 토픽이 어떻게 존재하는지 살펴볼 예정이다. 데이터로는 공훈전자사료관에서 제공하는 독립유공자공적조서를 활용한다. https://e-gonghun.mpva.go.kr/user/RewardOpenAPI.do?goTocode=50001 공훈전자사료관 국가보훈처 공훈전자사료관은 사용자가 응용프로그램을 쉽고 용이하게 개발·활용할 수 있도록 데이터를 일정한 형식으로 개방하고 있습니다. 아래 내용을 참조하여 데이터를 활용하시기 바랍 e-gonghun.mpva.go.kr 위 사이트에서 내려받아 구성해 놓은 데이터는 아래의 링크에서 다운로드 받을 수 있다. 파일은 csv 파일로 이름, 생년, 몰년, 성별..
한글로된 코퍼스를 자소 분리하여 FastText의 입력으로 전달함으로 각각의 하나의 문자에 대하여 n-gram을 하도록 할 수도 있다. 이와 같이 사용하려면 학습 전 준비단계에서 해야 하는 일 한가지와 테스트시 해야 하는 일 두가지만 추가하면 된다. 1. (준비단계) 자소분리된 코퍼스 준비 2. (테스트) 테스트를 위한 문자를 자소로 분리하여 전달 3. (테스트) 결과로 나온 단어들의 자소를 합쳐 원래 단어로 변경 그럼 자소로 분리하는 것부터 하도록 한다. 코드 import util.utils as util from tqdm import tqdm def process_jamo(tokenized_corpus_fname, output_fname): toatal_lines = sum(1 for line in ..
형태소 분석기인 mecab에 사용자 사전을 정의하여 사용하다보면 간혹 사전을 생성했음에도 사전에 입력한 대로 결과가 나오지 않고 단어가 분리되어 나올 때가 있다. 실제로 그러한 경우를 재현해 보도록 하겠다. 환경은 Windows 에 파이참을 사용한다. 윈도우 환경 + 파이참 에서 mecab을 사용하는 방법은 아래의 내용을 참고하세요 https://joyhong.tistory.com/127 윈도우 환경에서 mecab 설치 후 파이참(PyCharm) 에서 사용하기 윈도우에서 파이참을 사용하여 개발할 때 형태소 분석기 중 하나인 mecab을 사용하려면 몇가지 설치와 실행을 통해서 가능하다. 먼저 다운 받아야 할 것은 1. mecab-ko-msvc 2. mecab-ko-dic-msvc.zip 이렇게 joyhon..
임베딩 기법 중 하나인 Word2Vec을 활용하여 특정 코퍼스를 임베딩해보았다. 그리고 Word2Vec 결과에 유사도 상위 단어 목록을 체크도 해보았는데 간혹 단어를 입력하다보면 어휘에 없는 단어라는 메세지가 나오는 경우가 있다. 이는 코퍼스에 포함되어 있지 않은 단어이기 때문에 임베딩 값이 없다. 하지만 FastText는 각 단어를 문자 단위 n-gram으로 표현하기 때문에 이러한 부분을 어느 정도 커버할 수 있다. 이번 예에서는 gensim에서 제공하는 fasttext를 활용하여 임베딩하는 과정을 기록한다. 코드 from gensim.models import FastText from tqdm import tqdm corpus_fname = 'D:/Data/embedding/data/tokenized/..
- Total
- Today
- Yesterday
- 타임리프
- Thymeleaf
- networkx
- cypher
- Knowledge Graph
- Linked Data
- TDB
- rdfox
- TBC
- 장고
- 온톨로지
- property graph
- 스프링부트
- django
- pyvis
- 그래프 데이터베이스
- LOD
- Ontology
- 트리플
- 지식그래프
- RDF 변환
- 사이퍼
- Neo4j
- RDF
- 지식 그래프
- sparql
- neosemantics
- 트리플 변환
- stardog
- TopBraid Composer
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |