티스토리 뷰


DBpedia Knowledge Extraction Framework은 Wikipedia로부터 RDF 형식의 데이터를 수집, 추출, 가공하기 위한 프레임워크이다. 흐름을 살펴보면 Wikipeida로부터 Infobox, category, geo-coordination 등을 DBpedia Knowledge Extraction Framework을 통해 수집, 추출, 가공하여 RDF 데이터를 생성하고 이를 DBpedia에서 활용하게 되는 구조이다.

DBpedia Knowledge Extraction Framework의 시스템 구조는 다음과 같다.



DBpedia Knowledge Extraction Framework에서는 데이터 업데이트 전달 등을 위해 OAI-PMH를 이용하고 있으며, 덤프 형식의 벌크 변환 방식, 실시간 변환 방식을 동시에 사용하고 있다. 또한 다양한 Extractor를 통해 RDF 데이터를 생산한다. 생산된 RDF 데이터는 OpenLink사의 트리플 저장소인 Virtuoso에 저장, 관리된다.

DBpedia Knowledge Extraction Framework의 주요 컴포넌트에 대한 역할을 살펴보면 다음과 같다.


컴포넌트역할
Page Collections- Wikipedia로부터 정보를 수집하여 데이터를 추출하는 역할
Destinations- 추출된 RDF 데이터를 트리플 저장소에 저장하거나 N-Triple Dumps를 위해 serialize 하는 역할
Extractors- Wikipedia 특정 타입을 RDF 속성으로 추출하는 역할
Parsers- 단위나 시간 등을 Extractors에서 사용할 수 있도록 데이터의 형식을 결정하고 제공해주는 역할
Extraction Job- Page Collections, Extractors, Destinations를 하나의 작업 흐름으로 묶는 역할
Extraction Manager- Wikipedia의 정보들이 Extractors로 전달되고, 이 결과를 Destinations로 전달하는 프로세스를 관리하는 역할- URI 관리 및 데이터 간의 연계 관리도 포함

DBpedia Knowledge Extraction Framework은 Wikipedia의 정보로부터 Linked Data를 위한 RDF 형식의 다양한 데이터를 추출한다. 이는 Extractors에 의해 수행되는데 각각의 Extractors별로 생성하는 RDF 형식은 다음과 같다.

Extractor설명표현 어휘
Labels- Wikipedia의 제목 추출rdfs:label
Abstracts- short abstract (첫번째 문단)- long abstract (테이블 이전의 글, 500 단어)rdfs:commentdbpedia:abstract
Interlanguage links- 다른 언어로 된 같은 주제의 정보를 연결- 다른 언어로 된 label과 abstract를 매칭
Images- Wikipedia commons 이미지를 연결foaf:depiction
Redirects- 유사 용어를 식별하기 위한 Wikipedia의 Redirect 추출- DBpedia Resource들 간의 참조를 해결하는 것에 사용
Disambiguation- Wikipedia의 Disambiguation 페이지를 표현dbpedia:disambiguates
External links- Wikipedia 정보가 포함하고 있는 외부 웹 자원 참조를 위한 표현dbpedia:reference
Pagelinks- Wikipedia 정보간의 모든 링크를 추출하여 표현dbpedia:wikilink
Homepages- 홈페이지 정보를 추출하여 표현foaf:homepage
Categories- Category별로 정의된 Wikipedia 정보를 SKOS 어휘로 표현skos:conceptsskos:broader
Geo-coordinates- Basic Geo(WGS84 lat/long) 어휘와 W3C Geospatial 어휘의 GeoRSS Simple encoding을 사용하여 좌표를 표현


DBpedia Knowledge Extraction Framework은 RDF 형식으로 데이터를 생성할 때 Wikipedia에서 추출한 정보를 균일화하기 위하여 매핑 정보를 이용한다. 매핑은 DBpedia ontology schema와 DBpedia infobox-to-ontology mappings으로 구성되며, 다양한 언어를 지원한다. 아래의 예시는 Infobox에서 Actor와 Actor의 Name, Actor의 출생지(birthPlace)를 추출해내는 매핑의 예시이다.









최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함