임베딩 - Word2Vec
임베딩 기법 중 Word2Vec을 활용하여 한국어를 대상으로 임베딩을 생성해보고자 한다. 대상이 되는 데이터는 지난 글에서 생성한 네이버 영화리뷰와 이와 더불어 KorQuAD, 한국어 위키백과 그리고 웹 크롤링을 통해 수집한 쇼핑몰의 사용자 리뷰데이터를 합하여 사용해 보았다. 준비한 데이터의 파일 크기는 약 690MB 이고, 라인수로는 약 67만 라인정도가 된다. Word2Vec에 대한 설명은 다른 여러 블로그에서 충분히 설명하고 있기 때문에 쉽게 찾아볼 수 있다. 여기서는 gensim 이라는 패키지를 활용해 Word2Vec에 대한 코드를 작성한다. 코드 from gensim.models import Word2Vec from gensim.models.callbacks import CallbackAny2V..
ML&DL
2020. 8. 12. 00:39
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- networkx
- RDF 변환
- stardog
- rdfox
- 스프링부트
- pyvis
- 트리플
- sparql
- 지식그래프
- 트리플 변환
- 사이퍼
- 지식 그래프
- 그래프 데이터베이스
- 장고
- RDF
- 온톨로지
- Linked Data
- django
- TBC
- property graph
- TDB
- Knowledge Graph
- LOD
- 타임리프
- neosemantics
- Neo4j
- TopBraid Composer
- Ontology
- Thymeleaf
- cypher
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함