티스토리 뷰

Y:::Modeling

Y_7. KDATA 사례

joyHong 2016. 2. 18. 21:31

2012년부터 우리나라의 데이터를 Linked Data로 만들어 보자는 취지로

온톨로지 모델링, 데이터 수집, 트리플 생성 작업을 

혼자 꾸준히 해오다보니 어느덧 300만건 이상의 트리플이 생성되어

kdata.kr 에서 제공하고 있다.

회사의 프로젝트를 진행하면서 KDATA의 데이터 부분을 담당하는 것이

시간적 여유가 많지 않았기에 

중간중간 공백기를 두고 틈틈히 업데이터를 진행하였다.


2013년에 DBpedia와 인터링킹을 맺는 것을 시작으로 하여

2014년에 VIAF 처럼 국내의 LOD를 상호 연결 시킬 수 있는 작업을 해보고자

2014년에 오픈된 국내LOD와 인터링킹을 맺는 작업을 진행하였다.

작년에는 다양한 분야에서 LOD 가 개방되어 

올해 초에 더 많은 국내 LOD와 인터링킹을 맺는 작업을 진행하였다.


데이터 수집은 주로 공공데이터 혹은 개방된 데이터를 대상으로 수집하였고

온톨로지 모델링은 데이터셋을 수집하게 되면 그에 맞춰서 모델링을 하였다.


초기에는 수집하는 데이터셋마다 모델을 만들어보려고 하였다.

데이터셋 마다 모델을 만들다 보니

네임스페이스 문제, URI 체계, 동일한 어휘 사용 문제 등

대상이 늘어날때 마다 관리 혹은 기억하기가 쉽지 않는 문제가 발생하여

중간부터 통합모델을 만들어 왠만한 데이터셋들은

통합모델에 의해 설계되어질 수 있도록 방향을 바꾸었다.


데이터를 표현할 때

정교한 온톨로지 모델링을 통해 실세계의 관계를 있는 그대로 잘 표현하고

표현력을 높혀서 의미적으로 잘 전달할 것이냐

아니면 단순한 1차원 관계로 데이터를 표현하여

복잡한 쿼리를 생성하고 실행할 필요가 없게 하도록 만들 것이냐

를 오래동안 고민하여 그냥 두 가지를 반영하였다.

데이터를 사용하는 입장에서는

<남대문>-<위치>-<남대문_위치>

<남대문_위치>-<주소>-서울특별시 중구 세종대로 40

와 같이 2단계를 거쳐서 표현된 것 보다는

<남대문>-<주소>-서울특별시 중구 세종대로 40

와 같이 아무래도 1차원적인 관계로 표현되어 있는 것이

사용하기에 더 편리할 것이다.

그렇지만 올바른 표현력에 따라 

남대문이라는 건출물 혹은 국보, 남대문이 위치하고 있는 장소,

그 장소의 주소 등을 고려하여 모델링 한 뒤 표현하게 되면

의미적으로 명확하고 자세하게 표현할 수 있다는 장점을 가지게 된다.

이 부분은 여전히 프로젝트를 접할 때마다 고민스러운 부분이다.


모델링에는 명확한 정답이 있는 것이 아니라

다양한 경험적 지식과 필요에 의해서 

설계 방향과 형태가 결정이 되어진다고 생각하는 것은

지금도 변함이 없다고 본다.

아무리 실세계에 근접하게 표현되었다고 해도 실제 사용이 어렵다거나

사용하기에는 쉽지만 애매함이 존재하게 되면

적절하지 못한 모델링 결과물이 아닐까 생각해본다.


'Y:::Modeling' 카테고리의 다른 글

Y_9. BIBFRAME 2.0  (0) 2019.12.04
Y_8. FRBR 온톨로지 예시  (0) 2017.02.02
Y_6. Time Ontology 예시  (0) 2012.06.05
Y_5. Ontology 모델 설계 실습 2  (0) 2012.05.04
Y_4. Ontology 모델 설계 실습 1  (2) 2012.05.04
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함