메타데이터와 시맨틱레이어
1. 전사 데이터 관리 (EDM, Enterprise Data Management)
1.1. 정의
- 기업의 목표를 달성하기 위해 각각의 업무를 수행하며, 그 가운데 여러가지 의사결정이 수반됨
- 올바른 의사결정을 위해 데이터가 반드시 필요한데, 이 데이터를 어떻게 체계적으로 관리하고 활용할 것인지에 대한 방법들 중에 하나로서 EDM이 존재
- EDM은 기업이 목표하는 바를 이루기 위해 데이터의 획득, 저장, 통합, 처리, 보호, 접근 및 활용 등을 포함한 데이터 전 생애 주기를 통합적으로 관리하는 체계적 접근 방식
1.2. 목적
- [의사 결정 및 목표 달성] 정확하고 신뢰할 수 있는 데이터를 기반으로 의사 결정 지원 및 조직의 전략 수립을 통한 성과 향상
- [효율성] 데이터 작업 프로세스 최적화, 시간 및 비용 절감, 데이터 중복 방지, 데이터 접근성, 쉽고 빠른 검색
- [규제 준수] 데이터 보호 및 개인 정보 보호와 관련된 법적인 규제 요건 충족
- [품질 보장] 데이터의 정확성, 일관성, 적시성
- [지식관리와 공유] 축적된 지식 보관 및 공유, 확장된 지식을 통한 통찰력 획득 및 기회 발견
1.3. 주요 구성 요소
- ETL
« 시스템의 데이터를 소싱 및 재생성하고, 데이터웨어하우스와 같은 대상 시스템에 복제
- 데이터 아키텍처
« 데이터가 수집, 저장, 전송, 사용되는 방식을 정의
- 데이터 통합
« 분산된 데이터 소스를 통합하여 조직 전체에서 일관된 데이터 뷰를 제공
- 마스터 데이터 관리
« 정확하고 유용한 버전의 데이터만 사용함으로써 통합된 다양한 데이터로부터의 일관성 보장
- 데이터 품질 관리
« 데이터 정리, 검증 및 지속적인 모니터링을 통한 정확성, 완전성, 신뢰성 및 사용가능성을 확보하고 유지
- 데이터 보안
« 데이터의 무단 접근, 변조, 손실로부터 데이터를 보호
- 데이터 거버넌스
« 데이터에 대한 정책, 소유권, 액세스 및 사용에 대한 절차, 표준을 정립
- 메타데이터 관리
« 데이터 사전 역할로서 데이터 자산에 대한 설명, 구조 및 의미 제공을 통한 데이터 검색/지식 공유
1.4. 전사 데이터 관리에 대한 인식 변화
- 공유 자원
« 데이터 그 자체로 가치를 가지고 있는 자원으로 공유 및 관리 (개인 자원보다 공유 자원에 가치 부여)
- 비즈니스에 맞는 데이터에 초점
« 데이터 생성, 보관하는 것보다 목적에 맞는 데이터를 찾거나 운영 (활용의 어려움 탈피)
« 데이터 전담팀 (IT부서)이 작업을 해주어야 하는 상황 최소화
- Self-service
« 비즈니스 사용자가 직접 데이터를 찾고, 연결하고, 조합하여 필요한 데이터셋 생성
- 데이터에 대한 태깅, 레이블링
« 메타데이터를 수동 태깅에서 자동 생성하여 활용할 수 있는 환경 구축
« 데이터를 사용하는 사용자들의 지식이 반영될 수 있는 환경
- 포괄적인 솔루션에 대한 수요
« 하나의 데이터 관리 통합 도구를 통하여 변화하는 요구사항에 대한 빠른 대처
2. 메타데이터
2.1. 정의
- 데이터를 설명하는 정보
- 데이터를 찾고, 관리하고, 사용하는데 도움이 되는 추가 정보
데이터의 가치는 “데이터를 잘 만드는 것”보다 “어떻게 효과적으로 사용하는 것”인지에 달려 있다.
모호한 데이터는 데이터를 활용하는 것과 관리하는 것 모두 어렵다.
따라서 맥락정보 즉, 메타데이터를 추가함으로 모호함을 제거하고 효과적으로 사용할 수 있도록 한다.
2.2. 종류
- 기술 메타데이터 : 테이블, 컬럼, 인덱스, 참조, 연결
- 운영 메타데이터 : 데이터를 누가, 언제, 어떻게 생성하고 업데이트 하는가에 대한 정보
- 비지니스 메타데이터 : 비지니스 관점에서 설명, 비지니스 가치와 활용 분야, 개인정보 보호 적용 여부 등
- 소셜 메타데이터 : 사용자 간의 협업과 커뮤니케이션을 지원하는 정보 (태그, 주석, 평가, 사용 경험 등)
3. 메타데이터 구분 및 특징
3.1. 수동(Passive) 메타데이터
- 메타데이터를 집계 및 생성하여 정적으로 일정하게 저장하여 사용하는 메타데이터
- 테이블 스키마, 데이터유형, 모델 등과 기술메타가 대표적
3.2. 활성(Active) 메타데이터
- 사용자 상호작용이나 시스템 이벤트에 따라 동적으로 변동이 되는 메타데이터
- 새로운 데이터 발생과 사용이력 (로그, 쿼리, 사용 통계 등)을 지속적으로 수집
- 단순 수집을 벗어나 지속적으로 처리하여 데이터 생성하고 연결함으로 데이터에 대한 이해력을 생성
- 수동적인 관찰자가 아니라 시스템이 추천 제시, 알림 생성 등을 수행하는데 활용
- 즉, 메타데이터 자체/관리가 모두 능동적이고 지속성을 갖고 있음
4. 활성 메타데이터의 원칙
- 데이터가 지속적으로 사용, 생성, 변경됨에 따라 메타데이터도 지속적으로 생성, 수집, 색인 되어야 함
- 지속적이고 능동적인 메타데이터를 위해 FAIR 원칙을 준수해야 함
4.1. FAIR 원칙
- FAIR 원칙은 기계 실행 가능성(machine-actionability)을 강조하는 것으로, 컴퓨터 시스템이 데이터를 찾고(find), 접근하며(access), 상호 운용하고(interoperate), 재사용(reuse)할 수 있는 능력을 의미함
- 데이터의 양(volume), 복잡성(complexity), 생성 속도(creation speed)가 증가함에 따라 인간이 데이터를 처리하는 데 점점 더 컴퓨터의 지원에 의존하게 되기 때문에 이를 수행하는 과정에서 인간의 개입이 없거나 최소화되는 것을 목표로 함.
* 참고 : https://www.go-fair.org/fair-principles/
4.2. FAIR 원칙에 따른 활성 메타데이터 구축
- Findability
« 사람과 기계가 모두 쉽게 찾을 수 있어야 함
- Accessibility
« 수집, 생성된 활성 메타데이터는 신뢰할 수 있는 저장소에 저장되어 접근할 수 있어야 함
- Interoperability
« 다른 메타데이터와 통합이 되기 위하여 공식적이고 공유되어 적용 가능한 어휘를 사용
- Reusability
« 사용 라이선스나 출처 정보를 정확하고 풍부한 속성으로 제공
5. 활성 메타데이터의 활용
- 활성 메타데이터는 FAIR 원칙을 준수하여 생성됨으로 데이터의 가치를 부여함
- 주로 텍스트 마이닝이나 자동 추론을 통해 활성 메타데이터가 생성됨
5.1. 품질 검증
- 오류, 중복, 비정상적 패턴을 빠르게 감지하고 이 결과를 알림으로 조치를 취할 수 있도록 제공
- 발견된 품질 이상에 대한 이력 및 추적
- 사람의 개입이 최소화되어 품질 개선 활동 시작에 도움
5.2. 추천
- 관련성이 높은 자산이 검색에 더 자주 노출되도록 제공
- 동일 업무, 동일 조직 구성원들이 자주 찾는 대상군에 대해 우선적으로 검색 추천
5.3. 가변적 메타데이터 생성
- 데이터자원이 마지막으로 사용된 시기, 사용한 사용자수, 주로 사용하는 사람/부서 등을 계산하여 새로운 메타데이터를 주기적으로 생성
6. Semantic Layer
- 메타데이터의 목적은 데이터를 활용하기 위한 충분한 이해가 가능하도록 하기 위함
6.1. 시맨틱 레이어의 역할
- 서로 다른 메타데이터들의 의미를 공통의 언어로 설명하는 역할
- 다른 업무, 이해 관계가 상이한 사용자가 공통으로 이해할 수 있는 인터페이스 역할 수행
6.2. 시맨틱 레이어의 구성
- 쉽고 공통된 용어로 구성
« 사람들이 공통적으로 이해할 수 있는 쉬운 개념과 용어를 사용해 기본 모델을 생성
« 예를 들어, "고객"이나 "주문", "대출" 같은 일상적인 용어를 사용하여 데이터의 의미를 표현
- 지식그래프 기반으로 구조
« 기본 모델은 지식그래프를 기반으로 생성
« 메타데이터를 단순히 나열하는 것이 아니라, 메타데이터가 표현하는 의미들 간의 관계를 개념으로 표현
« "고객은 주문을 한다"처럼 데이터 간의 연결 관계를 명확하게 표현
« 메타데이터의 다양하고 복잡한 구조를 단순하고 직관적으로 이해할수 있도록 생성