명사 추출 - 네이버 영화리뷰

티스토리 뷰

ML&DL

명사 추출 - 네이버 영화리뷰

joyHong 2020. 8. 11. 23:36

이번 글에서는 네이버 영화리뷰 데이터에서 실제 리뷰 문장을 읽어 명사만 추출하고자 한다.

형태소 분석기는 Mecab 형태소 분석기를 활용할 것이다.

실행환경은 윈도우즈10에서 파이참을 사용한다.

윈도우즈에서 Mecab을 사용하기 위한 방법은

https://joyhong.tistory.com/127

윈도우 환경에서 mecab 설치 후 파이참(PyCharm) 에서 사용하기

윈도우에서 파이참을 사용하여 개발할 때 형태소 분석기 중 하나인 mecab을 사용하려면 몇가지 설치와 실행을 통해서 가능하다. 먼저 다운 받아야 할 것은 1. mecab-ko-msvc 2. mecab-ko-dic-msvc.zip 이렇게

joyhong.tistory.com

에서 설명한 적이 있다.

명사를 추출할 대상이 되는 파일은 이전 글에서 생성한 데이터를 활용할 것이다.

코드

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '1'
from konlpy.tag import Mecab
from tqdm import tqdm
from pykospacing import spacing


def tokenize(corpus_fname, output_fname, space=False):
    tokenizer = Mecab(dicpath='C:/mecab/mecab-ko-dic')
    toatal_lines = sum(1 for line in open(corpus_fname, 'r', encoding='utf-8'))
    # tqdm에 입력할 total 값을 구하기 위해 사용,

    with open(corpus_fname, 'r', encoding='utf-8') as f1, \
            open(output_fname, 'w', encoding='utf-8') as f2:
        for _, line in tqdm(enumerate(f1), total=toatal_lines):
            sentence = line.replace('\n', '').strip()
            if space:
                sentence = spacing(line.replace('\n', '').strip())
                # 띄어쓰기 교정을 수행.. 단, 시간이 오래 걸림
            tokenized_sent = ' '.join(tokenizer.nouns(sentence))
            f2.writelines(tokenized_sent + '\n')


tokenize('D:/Data/embedding/data/processed/processed_ratings.txt', 'D:/Data/embedding/data/tokenized/ratings_mecab.txt')

실행화면

위 코드를 실행하면 원 텍스트에서 명사를 추출하고

명사 목록을 띄어쓰기로 구분하여 나열한 결과를 확인할 수 있다.

형태소 분석기로 Mecab을 사용했는데 위의 결과는 mecab의 사용자 사전 구성에 따라 달라질 수 있으며,

위의 결과는 기본 사전만을 사용한 결과이며,

형태소 분석을 하기 전에 띄어쓰기 교정을 수행 후 분석을 한 결과이다.

참고:

위에서 사용한 코드는 https://github.com/ratsgo/embedding/blob/master/preprocess/supervised_nlputils.py 에서 가져와 일부 수정하여 사용하였습니다.

'ML&DL' 카테고리의 다른 글

Word2Vec - 시각화(t-SNE, PCA) (2)	2020.08.12
임베딩 - Word2Vec (5)	2020.08.12
데이터 전처리 - 네이버 영화리뷰 (0)	2020.08.11
pyeunjeon - koNLPy 스타일 mecab 래퍼 사용하기 (12)	2020.07.24
윈도우 환경에서 mecab 사용자 사전 추가하기 (0)	2020.07.24

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

옳은 길로..

티스토리 뷰

명사 추출 - 네이버 영화리뷰

'ML&DL' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역