티스토리 뷰

온톨로지 블로그에 그동안 기술한 내용을 토대로 오픈된 데이터를 수집하고, 이를 RDF 형태로 표현, 표현된 데이터를 스토어에 저장, SPARQL Endpoint를 연결한 결과를 사용하는 것에 대해 한번 살펴보겠습니다.

 

데이터는 국립국어원에서 제공하는 우리말샘 오픈 API의 데이터를 수집했습니다.

키발급 권한을 받아 데이터를 수집할 수 있는데 하루에 5만건 제한이 있어서

며칠동안 수집을 하였습니다.

라이선스는 CC-BY-SA 로 저작자표시-동일조건변경허락 으로 상업적 사용이 가능합니다.

수집 작업에 대한 간단한 코드는

https://github.com/joyhong85/OpenDictAPI.git

국립국어원 우리말샘 오픈 API를 활용한 데이터 수집

에 공개하였습니다.

 

위 github에서 수집된 데이터를 RDF형태의 데이터로 변환하여 이 데이터 또한 공유를 하고 있습니다.

 

그럼 이 데이터를 스토어에 저장하고 SPARQL Endpoint로 접근이 가능하게 하면 웹에서 데이터를 사용할 수 있게 됩니다.

물론 몇가지 장치들이 필요합니다. 웹서버와 SPARQL Interface가 있어야 하고, 필요에 따라 추가적인 툴이 필요합니다.

 

이 글에서는 LodLive를 사용하여 우리말샘 데이터를 살펴보고자 합니다.

먼저 SPARQL Endpoint를 통해 웹페이지에 사과라는 개체에 접근하면

이러한 정보가 나타납니다.

네..맞습니다. Linked Data 라고 들어보셨을 것입니다.

Linked Data는 개방형 데이터들을 네트워크를 통해 개발하고, 유통하여 연계, 협업하고자 하는 것입니다.

RDF로 생성된 데이터를 SPARQL Endpoint를 통해 웹의 세계로 나오게 되면 글로벌한 지식베이스가 만들어 지게 됩니다.

위의 예시에서는 샘플을 위해 localhost로 게시하였지만 도메인이 붙게되면 공개한 URI로 누구나 위의 정보에 접근이 가능해집니다.

이에 대한 자세한 설명은 추후에 기회가 되면 이야기하면 좋겠네요.

 

그럼 LodLive를 통해 우리말들의 상/하위 관계, 유사어, 높임말, 속담 등이 뭐가 있는지 살펴보겠습니다.

참고로 LodLive를 쓰는 이유는 시각화를 위해 사용합니다.

 

첫번째 찾아본 단어는 "사과"라는 단어입니다. 이 단어에 11개나 되는 의미가 있는 줄은 몰랐네요.

사과 라는 단어 중 잘못을 인정하고 용서를 빌 때 쓰는 "사과"라는 의미가 "진사"라는 까닭을 설명하며 사과의 말을 한다는 의미의 상위어로 나오네요..

그리고 이 진사의 의미는 "진사" 라는 단어 자체와 연결이 되는 이 단어는 또 다른 의미들을 가지고 있네요..

우리말의 세계는 심오한 것 같습니다.

 

이번에는 "도적" 이라는 단어를 살펴봤는데..

예상외였습니다..그리고 '아. 나는 한문시대 사람이 아니구나' 고 새삼 느꼈습니다.

도적에는 3개의 뜻이 있습니다.

- 지도와 호적을 아우르는 말,

- 물건을 훔치는 나쁜짓 하는 사람

- 그림과 책을 아우르는 말

 

우리말이 가지고 있는 단어와 그 의미들은 평소에 쓰던 단어와 의미만 쓰다보니 생소한 것들이 많이 있는 것 같습니다.

토이스럽게 만드는 것으로 시작했는데 단어 의미를 찾아보는 재미도 솔솔하네요.

 

자. 그럼 왜 굳이 데이터를 수집해서 RDF형태로 만들었나요?

오픈 API를 통해 필요한 데이터를 바로 받아서 쓸 수도 있지만

한꺼번에 처리가 필요할 경우가 있어서 라고 생각해두도록 하죠.

자연어 처리를 하려면 해당 단어의 의미가 무엇인지 판단하는 것도 주요한 태스크 중에 하나 일 것입니다.

또한 검색에서도 상/하위, 연관어, 유사어 등이 필요할 것입니다.

 

그래서 필요하신 분들은 위 git에서 사용하시면 도움이 될 것 같습니다.

 

이상 , 끝

'O:::Linked Data' 카테고리의 다른 글

O_20. LODAC2017 실습 Part4  (0) 2017.02.28
O_19. 2016년 국내 LOD 주소  (0) 2016.02.03
O_18. 최근 국내 LOD 주소  (0) 2015.05.21
O_17. OntoSpec 오픈  (0) 2014.09.24
O_16. OCLC WorldCat  (0) 2014.07.09
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함