임베딩 - FastText
임베딩 기법 중 하나인 Word2Vec을 활용하여 특정 코퍼스를 임베딩해보았다. 그리고 Word2Vec 결과에 유사도 상위 단어 목록을 체크도 해보았는데 간혹 단어를 입력하다보면 어휘에 없는 단어라는 메세지가 나오는 경우가 있다. 이는 코퍼스에 포함되어 있지 않은 단어이기 때문에 임베딩 값이 없다. 하지만 FastText는 각 단어를 문자 단위 n-gram으로 표현하기 때문에 이러한 부분을 어느 정도 커버할 수 있다. 이번 예에서는 gensim에서 제공하는 fasttext를 활용하여 임베딩하는 과정을 기록한다. 코드 from gensim.models import FastText from tqdm import tqdm corpus_fname = 'D:/Data/embedding/data/tokenized/..
ML&DL
2020. 8. 13. 01:17
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 트리플
- property graph
- Neo4j
- neosemantics
- sparql
- 지식 그래프
- stardog
- rdfox
- 지식그래프
- Knowledge Graph
- cypher
- RDF
- 트리플 변환
- TBC
- 스프링부트
- 그래프 데이터베이스
- RDF 변환
- 사이퍼
- pyvis
- TopBraid Composer
- networkx
- LOD
- Linked Data
- Thymeleaf
- django
- 타임리프
- Ontology
- 온톨로지
- 장고
- TDB
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함