KnowledgeGraph

메타데이터와 시맨틱레이어

joyHong 2025. 1. 16. 23:28

1. 전사 데이터 관리 (EDM, Enterprise Data Management)

1.1. 정의

- 기업의 목표를 달성하기 위해 각각의 업무를 수행하며, 그 가운데 여러가지 의사결정이 수반됨

- 올바른 의사결정을 위해 데이터가 반드시 필요한데, 이 데이터를 어떻게 체계적으로 관리하고 활용할 것인지에 대한 방법들 중에 하나로서 EDM이 존재

- EDM은 기업이 목표하는 바를 이루기 위해 데이터의 획득, 저장, 통합, 처리, 보호, 접근 및 활용 등을 포함한 데이터 전 생애 주기를 통합적으로 관리하는 체계적 접근 방식

1.2. 목적

- [의사 결정 및 목표 달성] 정확하고 신뢰할 수 있는 데이터를 기반으로 의사 결정 지원 및 조직의 전략 수립을 통한 성과 향상

- [효율성] 데이터 작업 프로세스 최적화, 시간 및 비용 절감, 데이터 중복 방지, 데이터 접근성, 쉽고 빠른 검색

- [규제 준수] 데이터 보호 및 개인 정보 보호와 관련된 법적인 규제 요건 충족

- [품질 보장] 데이터의 정확성, 일관성, 적시성

- [지식관리와 공유] 축적된 지식 보관 및 공유, 확장된 지식을 통한 통찰력 획득 및 기회 발견

1.3. 주요 구성 요소

- ETL

« 시스템의 데이터를 소싱 및 재생성하고, 데이터웨어하우스와 같은 대상 시스템에 복제

- 데이터 아키텍처

« 데이터가 수집, 저장, 전송, 사용되는 방식을 정의

- 데이터 통합

« 분산된 데이터 소스를 통합하여 조직 전체에서 일관된 데이터 뷰를 제공

- 마스터 데이터 관리

« 정확하고 유용한 버전의 데이터만 사용함으로써 통합된 다양한 데이터로부터의 일관성 보장

- 데이터 품질 관리

« 데이터 정리, 검증 및 지속적인 모니터링을  통한 정확성, 완전성, 신뢰성 및 사용가능성을 확보하고 유지

- 데이터 보안

« 데이터의 무단 접근, 변조, 손실로부터 데이터를 보호

- 데이터 거버넌스

« 데이터에 대한 정책, 소유권, 액세스 및 사용에 대한 절차, 표준을 정립

- 메타데이터 관리

« 데이터 사전 역할로서 데이터 자산에 대한 설명, 구조 및 의미 제공을 통한 데이터 검색/지식 공유

1.4. 전사 데이터 관리에 대한 인식 변화

- 공유 자원

« 데이터 그 자체로 가치를 가지고 있는 자원으로 공유 및 관리 (개인 자원보다 공유 자원에 가치 부여)

- 비즈니스에 맞는 데이터에 초점

« 데이터 생성, 보관하는 것보다 목적에 맞는 데이터를 찾거나 운영 (활용의 어려움 탈피)

« 데이터 전담팀 (IT부서)이 작업을 해주어야 하는 상황 최소화

- Self-service

« 비즈니스 사용자가 직접 데이터를 찾고, 연결하고, 조합하여 필요한 데이터셋 생성

- 데이터에 대한 태깅, 레이블링

« 메타데이터를 수동 태깅에서 자동 생성하여 활용할 수 있는 환경 구축

« 데이터를 사용하는 사용자들의 지식이 반영될 수 있는 환경

- 포괄적인 솔루션에 대한 수요

« 하나의 데이터 관리 통합 도구를 통하여 변화하는 요구사항에 대한 빠른 대처

 

2. 메타데이터

2.1. 정의

- 데이터를 설명하는 정보

- 데이터를 찾고, 관리하고, 사용하는데 도움이 되는 추가 정보

데이터의 가치는 “데이터를 잘 만드는 것”보다 “어떻게 효과적으로 사용하는 것”인지에 달려 있다.
모호한 데이터는 데이터를 활용하는 것과 관리하는 것 모두 어렵다.
따라서 맥락정보 즉, 메타데이터를 추가함으로 모호함을 제거하고 효과적으로 사용할 수 있도록 한다.

 

2.2. 종류

- 기술 메타데이터 : 테이블, 컬럼, 인덱스, 참조, 연결

- 운영 메타데이터 : 데이터를 누가, 언제, 어떻게 생성하고 업데이트 하는가에 대한 정보

- 비지니스 메타데이터 : 비지니스 관점에서 설명, 비지니스 가치와 활용 분야, 개인정보 보호 적용 여부 등

- 소셜 메타데이터 : 사용자 간의 협업과 커뮤니케이션을 지원하는 정보 (태그, 주석, 평가, 사용 경험 등)

 

3. 메타데이터 구분 및 특징

3.1. 수동(Passive) 메타데이터

- 메타데이터를 집계 및 생성하여 정적으로 일정하게 저장하여 사용하는 메타데이터

- 테이블 스키마, 데이터유형, 모델 등과 기술메타가 대표적

3.2. 활성(Active) 메타데이터

- 사용자 상호작용이나 시스템 이벤트에 따라 동적으로 변동이 되는 메타데이터

- 새로운 데이터 발생과 사용이력 (로그, 쿼리, 사용 통계 등)을 지속적으로 수집

- 단순 수집을 벗어나 지속적으로 처리하여 데이터 생성하고 연결함으로 데이터에 대한 이해력을 생성

- 수동적인 관찰자가 아니라 시스템이 추천 제시, 알림 생성 등을 수행하는데 활용

- , 메타데이터 자체/관리가 모두 능동적이고 지속성을 갖고 있음

 

4. 활성 메타데이터의 원칙

- 데이터가 지속적으로 사용, 생성, 변경됨에 따라 메타데이터도 지속적으로 생성, 수집, 색인 되어야 함

- 지속적이고 능동적인 메타데이터를 위해 FAIR 원칙을 준수해야 함

4.1. FAIR 원칙

- FAIR 원칙은 기계 실행 가능성(machine-actionability)을 강조하는 것으로, 컴퓨터 시스템이 데이터를 찾고(find), 접근하며(access), 상호 운용하고(interoperate), 재사용(reuse)할 수 있는 능력을 의미함

- 데이터의 양(volume), 복잡성(complexity), 생성 속도(creation speed)가 증가함에 따라 인간이 데이터를 처리하는 데 점점 더 컴퓨터의 지원에 의존하게 되기 때문에 이를 수행하는 과정에서 인간의 개입이 없거나 최소화되는 것을 목표로 함.

* 참고 : https://www.go-fair.org/fair-principles/

 

4.2. FAIR 원칙에 따른 활성 메타데이터 구축

- Findability

« 사람과 기계가 모두 쉽게 찾을 수 있어야 함

- Accessibility

« 수집, 생성된 활성 메타데이터는 신뢰할 수 있는 저장소에 저장되어 접근할 수 있어야 함

- Interoperability

« 다른 메타데이터와 통합이 되기 위하여 공식적이고 공유되어 적용 가능한 어휘를 사용

- Reusability

« 사용 라이선스나 출처 정보를 정확하고 풍부한 속성으로 제공

 

5. 활성 메타데이터의 활용

- 활성 메타데이터는 FAIR 원칙을 준수하여 생성됨으로 데이터의 가치를 부여함

- 주로 텍스트 마이닝이나 자동 추론을 통해 활성 메타데이터가 생성됨

5.1. 품질 검증

- 오류, 중복, 비정상적 패턴을 빠르게 감지하고 이 결과를 알림으로 조치를 취할 수 있도록 제공

- 발견된 품질 이상에 대한 이력 및 추적

- 사람의 개입이 최소화되어 품질 개선 활동 시작에 도움

5.2. 추천

- 관련성이 높은 자산이 검색에 더 자주 노출되도록 제공

- 동일 업무, 동일 조직 구성원들이 자주 찾는 대상군에 대해 우선적으로 검색 추천

5.3. 가변적 메타데이터 생성

- 데이터자원이 마지막으로 사용된 시기, 사용한 사용자수, 주로 사용하는 사람/부서 등을 계산하여 새로운 메타데이터를 주기적으로 생성

 

6. Semantic Layer

- 메타데이터의 목적은 데이터를 활용하기 위한 충분한 이해가 가능하도록 하기 위함

6.1. 시맨틱 레이어의 역할

- 서로 다른 메타데이터들의 의미를 공통의 언어로 설명하는 역할

- 다른 업무, 이해 관계가 상이한 사용자가 공통으로 이해할 수 있는 인터페이스 역할 수행

6.2. 시맨틱 레이어의 구성

- 쉽고 공통된 용어로 구성

« 사람들이 공통적으로 이해할 수 있는 쉬운 개념과 용어를 사용해 기본 모델을 생성

« 예를 들어, "고객"이나 "주문", "대출" 같은 일상적인 용어를 사용하여 데이터의 의미를 표현

- 지식그래프 기반으로 구조

« 기본 모델은 지식그래프를 기반으로 생성

« 메타데이터를 단순히 나열하는 것이 아니라, 메타데이터가 표현하는 의미들 간의 관계를 개념으로 표현

« "고객은 주문을 한다"처럼 데이터 간의 연결 관계를 명확하게 표현

« 메타데이터의 다양하고 복잡한 구조를 단순하고 직관적으로 이해할수 있도록 생성