'한국어 임베딩' 태그의 글 목록

임베딩 - FastText (한글 자소 분리)

한글로된 코퍼스를 자소 분리하여 FastText의 입력으로 전달함으로 각각의 하나의 문자에 대하여 n-gram을 하도록 할 수도 있다. 이와 같이 사용하려면 학습 전 준비단계에서 해야 하는 일 한가지와 테스트시 해야 하는 일 두가지만 추가하면 된다. 1. (준비단계) 자소분리된 코퍼스 준비 2. (테스트) 테스트를 위한 문자를 자소로 분리하여 전달 3. (테스트) 결과로 나온 단어들의 자소를 합쳐 원래 단어로 변경 그럼 자소로 분리하는 것부터 하도록 한다. 코드 import util.utils as util from tqdm import tqdm def process_jamo(tokenized_corpus_fname, output_fname): toatal_lines = sum(1 for line in ..

ML&DL 2020. 8. 16. 23:26

임베딩 - FastText

임베딩 기법 중 하나인 Word2Vec을 활용하여 특정 코퍼스를 임베딩해보았다. 그리고 Word2Vec 결과에 유사도 상위 단어 목록을 체크도 해보았는데 간혹 단어를 입력하다보면 어휘에 없는 단어라는 메세지가 나오는 경우가 있다. 이는 코퍼스에 포함되어 있지 않은 단어이기 때문에 임베딩 값이 없다. 하지만 FastText는 각 단어를 문자 단위 n-gram으로 표현하기 때문에 이러한 부분을 어느 정도 커버할 수 있다. 이번 예에서는 gensim에서 제공하는 fasttext를 활용하여 임베딩하는 과정을 기록한다. 코드 from gensim.models import FastText from tqdm import tqdm corpus_fname = 'D:/Data/embedding/data/tokenized/..

ML&DL 2020. 8. 13. 01:17

데이터 전처리 - 네이버 영화리뷰

네이버 영화리뷰 데이터 획득하기 https://ratsgo.github.io/embedding/downloaddata.html 데이터 다운로드 말뭉치나 임베딩을 다운로드하는 방법을 안내합니다. ratsgo.github.io 이 블로그에서 네이버 영화리뷰 데이터를 다운 받을 수 있다. 이 외에도 한국어 위키백과와 KorQuAD 데이터도 다운 받을 수 있다. 네이버 영화리뷰 데이터를 다운로드 받아서 확인해 보면, id, document, label 순으로 탭 구분되어 있는 데이터를 볼 수 있다. 이 파일에서 필요한 부분인 document 만을 추출하여 다른 파일로 저장하도록 한다. (여기서는 부정, 긍정을 나타내는 label인 0과 1은 사용하지 않을 예정이기 때문에 추출하지 않는다.) 코드 import j..

ML&DL 2020. 8. 11. 22:54

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

글 보관함

옳은 길로..

티스토리툴바