팔란티어 - 데이터통합과 온톨로지
이번 글은 팔란티어에 대한 세번째 글로서
팔란티어 플랫폼에서의 데이터통합과 온톨로지간의 연관성을 다뤄보려고 한다.
지난 글 목록
2025.02.05 - [N:::만지작 거리기] - 팔란티어 Platform overview
2025.02.10 - [N:::만지작 거리기] - 팔란티어 - 왜 온톨로지를 사용하는가?
Ontology는 Palantir 플랫폼에 포함된 디지털 자산(데이터셋과 모델) 위에 구축된 개념이다. 즉, 데이터를 단순히 저장하는 것이 아니라, 그 데이터가 실제 세계에서 어떤 의미를 가지는지 연결해 주는 역할을 한다. 여러 가지 데이터와 분석 모델을 모아 이를 현실 세계의 사물이나 개념(예: 공장, 제품, 주문 등)과 연관 짓는 체계라고 할 수 있다.

위의 그림과 같이 데이터와 모델을 다루는 계층 위에 온톨로지 라는 계층이 존재하며, 이를 통해 분석과 워크플로우가 운영된다. 조직의 데이터를 효과적으로 활용하려면 온톨로지 레벨까지 매핑되어야 한다는 것을 알 수 있다.
그렇다면, 팔란티어는 고객의 데이터를 어떻게 통합하고 이를 온톨로지로 구성하여 비즈니스 문제 해결을 돕는 데이터 플랫폼을 운영하는 것일까?
팔란티어에서 이야기하는 데이터 통합의 전반적인 목표는
“조직 내 객관적 현실(objective reality)을 디지털로 정확하게 반영하는 것” 이다.
객관적 현실이란 누구에게나 동일하게 적용되는 사실로서 개별 부서나 시스템에 따라 다르게 해석하는 데이터가 아니라 동일하게 해석되는 것을 뜻한다.
팔란티어는 이 목표를 실현하기 위해서 아래와 같은 작업들을 진행한다.
- 여러 시스템의 데이터를 동기화
- 공통된 스키마(데이터 구조)를 적용 - 각기 다른 형식의 데이터를 통일
- 데이터셋을 결합 - 여러 데이터를 하나로 통합
- 모든 팀이 공통된 데이터 기반을 활용할 수 있도록 지원 - 데이터를 바탕으로 다양한 활용 사례를 구축

물론 조직 내의 여러 시스템에 존재하는 데이터를 동기화 하기 위해서는 조직내의 여러 데이터 소스에 연결하는 작업이 선행되어야 한다. 접근하는 데이터 유형에 따라 다양한 방법으로 데이터를 연결할 수 있는데, 이는 일괄처리, 스트리밍, 미디어, CDC 동기화를 실행할 수 있고 가상 테이블을 사용할 수도 있다.
데이터 연결이 완료되면 파이프라인을 통해 데이터 통합 및 자동화를 구성하는데, 소스 시스템에서 데이터를 가져와 중간 데이터셋을 거쳐 고품질의 정제된 데이터셋(Curated Datasets)을 생성하는 전체 흐름을 의미한다. 이 데이터셋은 Ontology에 따라 구조화되거나, 머신러닝 및 분석 워크플로우의 기초로 활용될 수 있게 된다.
중간의 데이터셋이란 조직의 여러 시스템에 연결되어 데이터를 수집함으로서 팔란티어의 플랫폼에 데이터가 도착하여 온톨로지에 매핑될 때까지의 필수적인 데이터 표현을 나타낸다. 데이터셋은 모든 유형의 데이터(구조화, 비구조화, 반구조화)를 저장하고 표현하는데 사용한다.
데이터셋은 지정된 파일시스템의 기본 디렉토리 아래에 계층적인 폴더 구조로 저장이 된다. 지정된 파일시스템이란 것은 고객이 자체적으로 운영하는 HDFS 클러스터 또는 아마존 S3와 같은 클라우드 스토리지 서비스를 사용하는 것을 뜻한다. 그래서 “팔란티어 플랫폼(파운드리) 자체에 저장하지 않는다”라고 말하는 것으로 이해된다.
데이터셋 내에서 추적되는 파일들이 존재하는데 이는 실제 파일이 위치한 물리적 경로와 파운드리에서의 논리적 경로 간의 매핑이 유지되어 관리가 된다.
데이터셋의 유형이 구조적이면 parquet와 같은 오픈소스 형식의 표형식 데이터와 스키마를 각각 저장하고, 비구조적이면 이미지, 비디오, PDF 와 같은 파일로 구성된다. 마지막으로 XML이나 JSON 같은 반구조적인 파일 형식으로 저장하고 표현한다.
구성된 데이터셋은 온톨로지로 매핑이 되어 분석과 머신러닝의 기반이 되는 데이터로 활용된다. 그래서 서두에 언급한 디지털 자산 위에 구축된 개념이라고 한다.
다시말하면 온톨로지란 특정 영역이나 세계를 개념과 개념간의 관계로 표현한 것이며, 데이터셋이 온톨로지와 매핑됨으로 그 데이터가 실제 세계에서 어떤 의미를 가지는지 연결해 주는 역할을 한다. 온톨로지는 팔란티어의 플랫폼에 통합된 데이터셋과 모델을 객체 유형, 속성, 링크 유형, 작업 유형에 매핑함으로 조직의 세상을 디지털로 나타내게 된다.