본문 바로가기 메뉴 바로가기

옳은 길로..

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

옳은 길로..

검색하기 폼
  • 분류 전체보기 (197)
    • J:::SemanticWeb (16)
    • O:::Linked Data (21)
    • Y:::Modeling (11)
    • H:::SPARQL (18)
    • O:::Jena 다루기 (9)
    • N:::만지작 거리기 (38)
    • G:::RDF 변환 (12)
    • OCR (1)
    • SpringBoot+Thymeleaf (9)
    • Elasticsearch (4)
    • Neo4j (16)
    • ML&DL (13)
    • Django (6)
    • KnowledgeGraph (23)
  • 방명록

gensim fasttext 한글 (1)
임베딩 - FastText

임베딩 기법 중 하나인 Word2Vec을 활용하여 특정 코퍼스를 임베딩해보았다. 그리고 Word2Vec 결과에 유사도 상위 단어 목록을 체크도 해보았는데 간혹 단어를 입력하다보면 어휘에 없는 단어라는 메세지가 나오는 경우가 있다. 이는 코퍼스에 포함되어 있지 않은 단어이기 때문에 임베딩 값이 없다. 하지만 FastText는 각 단어를 문자 단위 n-gram으로 표현하기 때문에 이러한 부분을 어느 정도 커버할 수 있다. 이번 예에서는 gensim에서 제공하는 fasttext를 활용하여 임베딩하는 과정을 기록한다. 코드 from gensim.models import FastText from tqdm import tqdm corpus_fname = 'D:/Data/embedding/data/tokenized/..

ML&DL 2020. 8. 13. 01:17
이전 1 다음
이전 다음
공지사항
  • 지금까지 해온 것들
  • 온톨로지 관련 문의 안내
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • 옳은 길로..
  • github
TAG
  • sparql
  • Knowledge Graph
  • cypher
  • 타임리프
  • TDB
  • django
  • 트리플
  • rdfox
  • Thymeleaf
  • 스프링부트
  • 지식 그래프
  • Linked Data
  • 트리플 변환
  • Ontology
  • neosemantics
  • RDF
  • RDF 변환
  • Neo4j
  • TopBraid Composer
  • stardog
  • 사이퍼
  • pyvis
  • TBC
  • 지식그래프
  • 온톨로지
  • 장고
  • LOD
  • networkx
  • property graph
  • 그래프 데이터베이스
more
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바