2021년 11월 30일 화요일

Data Mesh 관점에서 효율적인 메타데이터 관리

이전 Data Mesh에 관한 글1이 데이터를 Data as-a-Service 형태로 제공하는 데이터 관리의 이상적인 그림을 표현했고, 다음 Data Mesh 사용시의 유의점2을 기술하였다. 이번 글에서는 Data Mesh나 이와 유사한 형태의 Data as-a-Service로 전환하기 위해서 가장 중요한 부분이고 시간이 많이 투자되는 메타데이터 관리에 대해서 설명한다.

데이터관점에서 메타데이터3란 데이터에 대한 데이터로서 어느 데이터가 어디에 위치하는 지에 대한 정보를 포함하고 있다. 비정형 데이터와 인공지능이 활성화되기 전에 기업들의 데이터가 대부분 정형 데이터이었을 때에는 Master Data Management (MDM)4제품들이 여러 데이터베이스들과 연결하여 특정 중요 데이터 (고객, 제품 등)들을 MDM 제품 내에서 관리하여 single source of truth (SSOT)5를 제공하였다. 하지만 비정형 데이터들이 많아짐에 따라서 데이터들이 기존 데이터베이스에 저장되지 않고, 데이터 양이 많아지며, 비정형 데이터들도 정형데이터로 변환이 됨에 따라서 기존 MDM 제품들로는 메타데이터 관리가 힘들어지는 상황이다. 추가적으로 Microservice Architecture (MSA)6와 같이 분산이 되어있는 경우, 더욱 어느 데이터가 어디있는지를 알기 힘들게 된다. 마지막으로 이런 문제점은 Data Scientist나 Data Analyst가 데이터 분석을 할 때의 생산성에 많은 문제를 야기한다. 이런한 상황을 탈피하고자 Data Mesh와 같이 Data as-a-Service로 전환을 하려고 하면 어디서부터 시작을 해야 효과적으로 전환을 할 수 있을지 막막하게 된다.

[관리되지 않은 메타데이터 (출처: OpenMetadata]

이러한 문제를 해결하기 위해서 Uber7도 오픈소스를 기반으로 해서 Uber내의 모든 데이터의 메타데이터를 한곳에서 관리하고 이를 통해 자체적으로 Data as-a-Service를 구축해서 사용하고 있다. Uber는 Databook을 만들었고, 이는 새로운 메타데이터가 생성될 때에 API를 이용하여 이 변경 혹은 추가되는 정보를 Databook에 반영하고, Databook내에서 각 메타데이터의 관계를 아래와 같이 나타내게 된다.

[메타데이터 관계 (출처: Uber)]

이와 유사한 개념으로 Airbnb는 Dataportal, Netflix는 Metacat, Linkedin은 Datahub, Lyft는 Amundsen, 그리고 Spotify는 Lexikon을 만들어서 사용하고 있다. 위의 개념을 확장하여 메타데이터 관리를 할 수 있는 오픈소스 프로젝트인 OpenMetadata8도 활성화되는 중이며, 위와 같은 메타데이터 관리를 손쉽게 할 수 있는 프로젝트라 많은 회사들이 기대감을 가지고 있다. 결국 기존의 정형 데이터를 처리하는 데이터베이스들과 MDM 제품들 가지고 쉽게 관리되던 메타데이터를 비정형 데이터를 처리하는 Data Scientist들이 효과적으로 이용하기에 한계가 있음을 보여준다.

[한곳에서 관리되는 메타데이터 (출처: OpenMetadata)

마지막으로 이 OpenMetadata에서 각 데이터에 대한 접근권한까지 관리를 할 수 있게 된다면, Data as-a-Service 내의 Data Owner들도 따로 권한관리를 할 필요없이 메타데이터와 권한관리를 한 곳에서 선언 및 설정을 한 후에 사용할 수 있게 되는 편리함도 있을 것으로 생각된다.

  1. Data Mesh – Part 1 개념 및 기존 Data Warehouse/Data Lake의 문제점
  2. Data Mesh – Part 2 사용시의 유의점
  3. 메타데이터
  4. 마스터 데이터 관리란
  5. 단일 진실 공급원
  6. 마이크로 서비스 아케텍쳐
  7. Turning Metadata Into Insights with Databook
  8. OpenMetadata

    Related Posts

    Data Mesh – Part 2 사용시의 유의점
    Data Mesh – Part 1 개념 및 기존 Data Warehouse/Data Lake의 문제점

    Leave a Reply