이번 글에서는 개념화를 통해 다양한 종류의 사물과 그 사물들 간의 관계를 표현하여 지식을 명시적으로 표현해 보도록 하겠습니다. 실세계의 다양한 사물들은 서로 다양하게 다른 사물과 관련되어 있습니다. 즉 서로 다양한 연결 관계를 가지고 있습니다. 우리는 그러한 관계를 개념적으로 알고 있습니다. 예를 들어 학술분야에서는 논문이 존재합니다. 논문은 그 논문을 쓴 저자가 있습니다. 논문은 하나 이상의 주제분야를 포함하고 있습니다. 또한 논문을 쓴 저자는 사람이라는 개념의 하위 개념입니다. 이러한 개념적인 관계를 표현할 수 있습니다. 사물의 유형과 사물들간의 관계를 잘 표현하는 지식 표현체계로 온톨로지를 사용하게 됩니다. 여기에서는 RDF라는 자원 기술 프레임워크를 사용하여 온톨로지를 구성합니다. 이 글에서는 아..
코로나19 로 인해 대부분의 사람들이 백신을 맞았을 것입니다. 그 백신 중 하나로 아스트라제네카가 있죠. 펍켐에 등록된 AstraZeneca compound 1 를 찾아보니 이 화합물의 이름은 4-({5-Bromo-4-[(4-methoxyphenyl)amino]pyrimidin-2-yl}amino)benzoic acid 으로 나옵니다. 이 화합물에 대한 스마일스코드를 취득하여 그래프 형태로 나타내보면 어떨까요.. 우선 분자식은 위 그림과 같습니다. 그래프 형태로 바꾸면 좀 더 다이나믹하게 살펴볼 수 있겠군요.
온톨로지 블로그에 그동안 기술한 내용을 토대로 오픈된 데이터를 수집하고, 이를 RDF 형태로 표현, 표현된 데이터를 스토어에 저장, SPARQL Endpoint를 연결한 결과를 사용하는 것에 대해 한번 살펴보겠습니다. 데이터는 국립국어원에서 제공하는 우리말샘 오픈 API의 데이터를 수집했습니다. 키발급 권한을 받아 데이터를 수집할 수 있는데 하루에 5만건 제한이 있어서 며칠동안 수집을 하였습니다. 라이선스는 CC-BY-SA 로 저작자표시-동일조건변경허락 으로 상업적 사용이 가능합니다. 수집 작업에 대한 간단한 코드는 https://github.com/joyhong85/OpenDictAPI.git 국립국어원 우리말샘 오픈 API를 활용한 데이터 수집 에 공개하였습니다. 위 github에서 수집된 데이터를 ..
개인적으로 매일 아침 9시에 어떤 사이트에 새글이 올라왔는지를 보여주는 원페이지 목록 메일을 받게 된다. 이 메일은 수십개의 하이퍼링크들이 그 안에 존재하고 있고, 사용자가 목록의 타이틀을 보다 호기심이 생기는 타이틀이 있으면 그 타이틀을 클릭하여 원문이 있는 사이트로 이동을 하게 된다. 이 글에서는 이러한 하이퍼링크를 얘기하는게 아니라 그 이면의 구조화된 데이터를 통해 정보를 획득하고 가공하는 과정을 살펴보려고 한다. 지난 글에서 RDF 데이터를 HTML에 임베딩하기 위해 RDFa를 사용한다고 했었다. 사실 각각의 하이퍼링크를 따라 웹페이지를 열어보면 그 안에 RDFa로 구조화시킨 정보들이 존재한다. 우선 데보션의 메일 2일치분을 수집하여 그 안에 있는 하이퍼링크 목록을 추출한다. 목록이 준비되면 RD..
- Total
- Today
- Yesterday
- 트리플
- stardog
- networkx
- 타임리프
- TDB
- 사이퍼
- Knowledge Graph
- Thymeleaf
- 트리플 변환
- pyvis
- RDF
- neosemantics
- rdfox
- TopBraid Composer
- TBC
- 스프링부트
- 장고
- LOD
- 지식그래프
- Linked Data
- property graph
- cypher
- RDF 변환
- 지식 그래프
- Ontology
- 온톨로지
- Neo4j
- django
- sparql
- 그래프 데이터베이스
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |