티스토리 뷰
온톨로지 모델 확장은 2011년에 기구축된 주제명, 저자명 온톨로지 모델에 추가적으로 서지데이터의 내용이 반영될 수 있도록 확장하였다. 2011년에 구축된 온톨로지는 SKOS와 FOAF 기반의 주제명, 저자명에 대한 도메인이었으며 2012년에 추가되는 서지 데이터는 다른 개념의 도메인이기 때문에 기존 모델을 확장하였다. 모델 확장을 위해서 서지 도메인 개념이 잘 반영되어 있고 널리 알려져 있는 Bibliographic Ontology (bibo)를 import하여 모델에 반영하였다. 결과적으로 bibo의 어휘를 기본으로 사용하고 FOAF, SKOS의 어휘를 추가적으로 사용하였으며 국립중앙도서관에서 필요에 의해 국립중앙도서관만의 어휘를 생성하여 구성하였다.
국립중앙도서관의 주제명은 작년과 마찬가지로 주제명 용어 560,561건, 시소러스 1,600,637건을 대상으로 동일하게 구축하였다. 주요 관계지시기호에 따라 용어간의 관계를 RDF로 표현하였으며 언어관계기호를 추가하여 생성하였다.
2011년에 구축된 저자명은 국내저자를 대상으로 구축하였으나 2012년에는 전체를 대상으로 1997년부터 2012년까지 총 213,548명에 대한 저자명전거를 RDF로 변환하여 구축하였다. RDF 생성 방법은 작년과 마찬가지로 저자제어번호를 활용하여 URI를 생성하고 저자명, 생몰년 등을 MARC에서 추출하여 변환하였다.
국립중앙도서관의 서지데이터는 KORMARC 형태로 되어있다. 대상이 되는 서지데이터는 단행본을 대상으로 하였으며, KORMARC형태의 데이터를 RDF로 변환하기 위해서 기존 KORMARC를 분석 과정을 수행하였다. 또한 해외 도서관에서 수행한 사례를 통해 MARC 필드를 어떤 RDF 어휘로 매핑하여 변환하였는지도 분석하여 서지데이터를 RDF로 변환하는데 반영하였다. 국립중앙도서관의 KORMARC필드를 RDF로 매핑하기 위해서 해외사례를 중심으로 실무자와의 회의를 통해 매핑 여부와 매핑 어휘를 결정하여 반영하였다.
서지데이터와 연결이 가능한 국립중앙도서관의 데이터는 주제명과 저자명이 있다.
먼저 서지데이터와 주제명의 연결은 서지데이터에서 600번대 필드에 기록되어 있는 주제명을 활용하여 주제명 전거데이터와 연결이 가능하다. 서지데이터의 필드 600, 610, 611, 630, 650, 651 의 서브필드 a를 대상으로 주제명을 획득하고, 획득한 주제명과 주제명 전거데이터의 주제명을 매칭하여 주제명의 전거데이터 일련번호를 획득한다. 이 후 획득한 일련번호와 매칭된 주제명을 이용하여 서지데이터와 주제명을 연결하는 RDF를 생성하도록 하였다.
서지데이터와 저자명 연결은 서지데이터에서 출현하는 저자명전거데이터의 제어번호와 저자명전거데이터 제어번호를 매칭하여 연결하는 방식으로 수행하였다. 서지데이터에서 필드 100, 700, 710 중 서브필드 w에 나타나는 저자명 제어번호가 대상이 되었으며 이 저자명 제어번호를 서지데이터와 연결하도록 하였다.
국립중앙도서관의 서지데이터는 해외 도서관의 서지데이터 및 LC 주제명과 연결을 통해 보다 많은 정보들을 연계하고 확장할 수 있다. 또한 국립중앙도서관의 주제명은 LC 주제명과도 연결을 하여 확장할 수 있다. 서지데이터 연결은 ISBN과 ISSN을 통해 해외 도서관 서지와 동일한 개체인지를 식별하였다. 국립중앙도서관의 서지데이터 중 ISBN을 가지는 서지가 1,632,214건이고 ISSN을 가지는 서지가 6,224건으로 분석되었다.
해외 도서관과의 연결 방식은 크게 3가지로 구분된다.
첫 번째는 COMET, BNB, PODE와 서지데이터 연결방식으로서 이 3개의 해외도서관 Linked Data는 SPARQL Endpoint를 제공하고 있다. 이를 활용하여 데이터를 수집하였다.
두 번째는 LIBRIS와 서지데이터의 연결 방식으로서 LIBRIS에서 제공하는 Xsearch API를 활용하여 데이터를 수집하였다.
세 번째는 LC Subject와 주제명의 연결 방식으로서 국립중앙도서관 주제명과 LC의 주제명을 비교하여 동일한 주제명을 연결하도록 하였다.
외부 Linked Data와의 연결은 해외도서관 이외에도 국내 Linked Data와도 연결을 하였다. 현재 국내에서 운영/발행 중인 KDATA는 대한민국의 각종 공공데이터 및 개방 데이터를 Linked Data로 발행하고 있다. 이곳의 데이터와 국립중앙도서관의 데이터를 상호 연결하여 데이터의 확장성을 가져올 수 있다. KDATA의 국가, 대학교, 행정구역과 국립중앙도서관의 표준부호를 상호 매칭하여 연결이 가능한 데이터를 판단하고 총 616건의 연결을 생성하였다.
'O:::Linked Data' 카테고리의 다른 글
O_13. 국내 LOD 발행 현황 (2) | 2014.03.04 |
---|---|
O_12. MARC에서 RDF로 (0) | 2013.07.30 |
O_10. 국립중앙도서관 Linked Data 개발 사례_2011년 (0) | 2012.12.27 |
O_9. 해외 도서관의 URI 사용 체계 (0) | 2012.12.16 |
O_8. MARC to RDF 어휘 매핑 (0) | 2012.11.16 |
- Total
- Today
- Yesterday
- RDF 변환
- 트리플
- TBC
- property graph
- 트리플 변환
- stardog
- 온톨로지
- pyvis
- TDB
- 타임리프
- 장고
- LOD
- RDF
- sparql
- Ontology
- Neo4j
- neosemantics
- networkx
- 지식그래프
- 스프링부트
- Knowledge Graph
- cypher
- 그래프 데이터베이스
- Thymeleaf
- Linked Data
- 지식 그래프
- rdfox
- django
- TopBraid Composer
- 사이퍼
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |