データカタログとは?目的や必要性、主な機能を詳しく解説!

データカタログとは

はじめに

データカタログとは、「データを説明するためのデータ(以下、メタデータ)を管理するシステム」です。メタデータを管理することで、

「データがいまどこにあるのか」

「データがどのように取得されたのか」

といったことが簡単にわかるようになります。これにより例えばデータ管理者が対象データの来歴を調べて品質を担保したり、現場のユーザー(以下、ビジネスユーザー)が業務で必要なデータにアクセスするまでの時間を短縮したりすることができます。

本記事ではデータカタログが必要になってきた背景と、データカタログの主な機能についてご紹介いたします。

データ活用の課題とその本質について

課題について

現在、データ活用を進めるにあたってどういったことが課題となっているのでしょうか。

(出典)総務省(2021)「デジタル・トランスフォーメーションによる経済へのインパクトに関する調査研究 ~パーソナルデータ以外のデータの取扱いや利活用に関して現在又は今後想定される課題や障壁~」

こちらの統計情報によると、以下の課題を感じている企業が多いことがわかります。

・データの収集・管理に係るコストの増大、データのサイロ化
・データを取り扱う(処理・分析等)人材の不足
・ビジネスにおける収集等データの利活用方法の欠如

私もお客様と会話した際に以下の様な課題をお聞きします。

「利用している業務システムが沢山あって、データの収集が大変…!」
本来はデータ活用担当ではないけど、一番詳しい人が社内にいるからその人が対応しています。」
「「BIツールを導入したけど、あまり使われなくて困ってます。。」

これらはデータ活用に積極的に投資している企業だけでなく、ビジネスユーザーの日々の業務でも発生しています。

課題解決に向けた取り組み

ではこの課題をどの様に解決していけばよいでしょうか。調べてみると、

・データ分析基盤の構築
・データの仮想化

・デジタル人財の育成

といったキーワードでの提案がトレンドとなっています。

データ分析基盤は、データ分析にまつわる全体的な課題解消に効果的なソリューションです。データの収集・蓄積・加工・分析という一連の流れを一貫して行うための基盤を構築し、社内のデータ活用を推進します。

参考URL: データ分析基盤(株式会社ジール)

データの仮想化は、データを連携するための手法でありサイロ化に対するソリューションです。 データを新しく生成するETLソリューションとは異なり、データをソース・システムから取り出すことなく仮想的にすべてのデータを連携することが可能です。ちなみにデータ分析基盤の「データの収集・蓄積」に該当しますので、データ分析基盤の1つのファクターとなっています。

参考URL: データ仮想化(Denodo Technologies株式会社)

デジタル人財の育成は、業務に詳しい社員にデジタル技術の教育を行うソリューションです。ITコンサルといった外部の人間よりもより業務に近い社員をデジタル人財として育てることで、より効果的な改革が可能になります。

参考URL: デジタル人財の育成(株式会社エヌ・ティ・ティ・データ)

どれも課題を解決する手段の1つとして有効ですので、まずは取り入れられそうなものを検討してみてください。

データ活用の問題の本質とは

前項で述べた取り組みについてですが、これらはあくまで解決の手段です。組織としての根本の解決には至らない可能性があるため、更に大きな視点での取り組みが必要になります。

もう少しデータ活用に関する課題を掘り下げてみると、それぞれの共通点が浮かび上がります。それは、

「データ活用において、明確な責任者が不在」

ということです。

例えばデータのサイロ化についてです。データのサイロ化が発生している原因は、ある1つのシステムで蓄積されたデータの活用はできていても、現場は複数のシステムから出力されているデータを横串で閲覧できるように整備する発想を持たないためです。仮に考えたとしても進んで取り組もうとはしないのが現状です。

問題の本質に対する取り組みを考える

上記の様な問題を解決するにはどの様にすべきでしょうか。実際には各システム担当者にデータの整備を依頼したり、統合するためのデータベースを用意したり、データ活用例を展開したり…といった部門を跨いだ作業依頼や調整が必要になります。

単純に分析基盤やシステムだけを構築するのではなく、システムから生成されたデータに対して誰が責任を負い、そこから会社全体でどういった利益を生み出すのか、を明確にしていくことが大切です。

こういった問題を解決するため、アメリカや欧州ではデータ活用に関する専門の部隊CDOといった役職を用意し対策を立てています。日本でもその重要性は変わりません。ただ手をこまねいているだけだとデータのサイロ化は更に加速しますし、後々もっと大変になることになるのは確実です。将来的なことも考えた対策を検討し、この先を見据えて取り組むこと、そして簡単に取り組めること、これらを並行して進めていくことが重要です。

データマネジメントとデータカタログ

データマネジメントの重要性

前項で述べたように、将来を見据えた対策としてはデータマネジメント専門の部隊を立ち上げる、または専属のメンバーを育成することをお勧めいたします。データマネジメントについては別のブログでも詳細に取り上げていますので是非見てください。

またデータマネジメント部隊は、

「具体的に、売上にいくら貢献できるのか」
「具体的に、コスト削減にどの程度貢献できるのか」

を明確にしていくことが重要です。企業にとってどれだけ有益な存在なのか、常に周りに発信していく必要があります。具体的には経営層には売上への貢献を、そして社内にはビジネスユーザーにどれだけ有用な改革を行ったか、どの程度コスト削減できたのかアピールしていく必要があります。積極的に部署を横断した活動を行うことが重要です。

組織の改革には時間がかかりますが、今後企業が生き残っていくためにはデータ活用による業務改革が必須です。そしてそのためにはデータマネジメントという概念が将来必ず必要になりますので、まだの方は是非一度検討してみてください。

データカタログによる課題解決

一方で短期的に取り組むべき対策としては、ビジネスユーザーを中心にデータ活用に関する課題を集めて、その課題を解決していく、といったことを推奨します。

弊社は純国産BIツールベンダーとして、約30年間お客様の声をお聞きしてきました。その中で「データ活用業務を効率化・簡便化したい」といった際のお悩みを非常によくお聞きしております。下記にその一例を紹介します。

「業務が忙しくて、データ活用にまで手が回らないです。」
「欲しいデータがどこにあるかわからないし、そもそも必要なデータは人からもらっているよ。」
「いつまでも情シスに聞いてばかりで、自分達でやろうとしないんですよね…」

この様に現場でのデータ活用を推進するには、これらの課題解決が必要になります。データを可視化・分析するためのBIツールも必要ですが、「手間がかからず、安心・安全に、そして誰でも簡単にデータを探せる環境」も必要です。そして、この環境を提供できるソリューションがデータカタログです。

データカタログについて

データカタログとは

まずデータカタログとは、メタデータを管理するシステムです。メタデータを管理することで、

「データがいまどこにあるのか」

「データがどのように取得されたのか」

といったことが簡単にわかるようになります。ビジネスユーザーのデータ活用に貢献することが可能です。また単にメタデータを管理するだけではありません。それぞれのメタデータに対して品質を担保することで、データ活用における精度を上げる効果も発揮します。

データ活用の課題でも記載した通り、現状多くの企業ではデータが分散管理されています。点在しているメタデータを収集・カタログ化してデータに関するナレッジを企業で共有し、データ探索の効率化とデータに関する理解を支援することがデータカタログの目的です。

データカタログの効果について

データカタログの最も大きな効果は、

「ユーザーがデータを手にするまでの時間が大幅に短縮される」

「社内に1人か2人いるデータのスペシャリストの代わりを務めることができる」

という2点です。

例えば A さんが「昨年の売上データが欲しいな」と感じた場合、その情報に触れるまでに以下の様なステップが必要になります。

  1. 欲しいデータがどこにあるか、知っている人を探して聞く
  2. データ取得の方法について、担当者に連絡する
  3. 担当者からデータが送られてくるのを待つ
  4. 送られてきたら、そのデータが正しいか確認する。間違っていたら担当者に再度依頼する
  5. データを使って業務を行う

データが欲しいだけなのに、非常に多くの時間と手間がかかるのがわかります。その中でも特に面倒なのが「欲しいデータがどこにあるか、知っている人を探して聞く」です。誰かわかっていても連絡が取れなかったり、そもそも誰が知っているのか知らなかったりすることもあります。

わからないとデータを活用したいと思う気持ちも薄れ、結果的にデータ活用が進まなくなります。

データカタログはこの手間を大幅に削減します。人ではなくシステムに聞くことでこれらの手間を削減し、データ取得から活用までのサイクルを改革することができます。

データカタログの主な機能について

データカタログには、主に以下の機能が搭載されています。

(1) データディクショナリー
(2) データエンリッチ
(3) データリネージュ
(4) ビジネスグロッサリー
(5) データスチュワードシップ

データディクショナリー

データディクショナリーは企業内の様々なメタデータを収集し、データとして蓄積・検索できる機能です。ビジネスユーザー自身が欲しいデータを探索するため、社内のデータ活用の促進に貢献することができます。またデータ品質の確認や修正、個人情報や機密情報のチェックも容易になるため、データガバナンスの様な管理業務を簡便化することも可能です。

データディクショナリーには、次のような情報が含まれます。

  1. 名前、略語、定義、データ型、長さ、デフォルト値、NULL許容性などの詳細な定義
  2. データ項目と他のデータ項目との関係、つまり、主キー、外部キー、参照整合性制約などの定義
  3. 作成者、作成日、変更者、変更日などの情報
  4. 機密度、保護レベル、データ所有者、アクセス権限、共有設定などの情報

データエンリッチ

データエンリッチはメタデータに対して評価やコメントを追記することができる機能です。データについては管理者よりもビジネスユーザーの方が詳しいケースもあり、利用者全体でメタデータの充実・アップデートを支援していく仕組みが必要になります。データエンリッチはデータ提供者とデータ利用者の双方でデータの利用方法や注意事項を共有し、社内の全員が同じ知識でデータ活用を推進していくことに貢献します。

データリネージュ

データリネージュは対象データの来歴(ソース、生い立ち、連携元)を表示することができ、目的のデータがどのシステムから連携され、どのシステムへと繋がっているのか、直感的に把握することができます。データの来歴がわかればデータの品質担保にも繋がるため、より精度の高いデータ活用を推進することができます。

ビジネスグロッサリー

お客様が社内で利用する用語と意味を定義できる機能です。定義された用語をデータと紐付けることで、関連用語によるデータ検索をより容易にします。

データスチュワードシップ

データスチュワードシップは対象のデータソース、またはメタデータに対して管理者を任命し、データライフサイクルに関する権限と責任を明確にする機能です。管理者を任命することで、誰がデータに関する意思決定やデータの品質、及び安全性の確保を行うのかを明確化できます。

データカタログの懸念点

ここまでデータカタログの主な機能についてご紹介しました。ここからはデータカタログを利用する上での懸念点について記載します。

・ユーザー毎にメタデータを検索できる範囲を検討する必要がある

メタデータを検索できるようになると、どのデータがどのテーブルやカラムにあるか判断できるようになります。これはセキュリティの観点からアクセスを制御する設計が必須です。データカタログを利用する場合は、どのユーザーやグループにどういった範囲でメタデータを公開するか、といった事を決定する必要があります。

・集めたメタデータが膨大になる可能性がある

テーブル上の明細データが増えていくのと同じように、メタデータも当然日々情報が増加していきます。データカタログの運用を続けていくとメタデータを収集して管理するデータベースも比例して肥大化していくことが懸念されます。データカタログには可能な限りデータを圧縮して情報を持つ仕組みが必要になります。

まとめ

以下、本記事のまとめとなります。

・データマネジメント専門の部隊は、将来的に必要になる可能性が高い
・ビジネスユーザーのデータ活用における課題解決の1つに、データカタログがある
・データカタログは、メタデータ、及びデータの品質を管理してデータ活用を促進する

データカタログについては日本ではまだ認知度が低く、ソリューションとして提供している企業は非常に少ないのが現状です。上記についてお悩みを抱えている方は、以下のホワイトペーパーを参考にしてみてください。

データマネジメント基礎知識

当ブログでは今後も引き続きデータ活用を中心に様々な情報発信をしてまいります。よろしければ他の記事もご確認いただけると幸いです。

参考:DMBOKについて

最後に参考情報となります。ここまでデータ活用の課題からデータマネジメントやデータカタログの重要性をお伝えしてきましたが、データ活用は考えるべき範囲が非常に広く、また業務も絡んで非常に深くなっていくことが多いため、対策を考えるのは大変な作業です。

その際に役立つのがDMBOKという考え方です。DMBOKは、データマネジメントの概念をいくつかの領域に分解し、それぞれに対しての考え方や知識を定義しています。抱えている課題がDMBOKではどの分野に属するのか、またそれに対する対策は何が最適なのかを考え、解決の道を探っていく手段もありますので参考にしてみてください。

ちなみに、現在DMBOKで定義されている知識領域は以下の通りです。

・データアーキテクチャ
・データモデリング&デザイン
・データストレージ&オペレーション
・データセキュリティ
・データ統合&相互運用性
・ドキュメント&コンテンツ管理
・参照データ&マスターデータ
・DWH&BI
・メタデータ
・データ品質
・データガバナンス

データマネジメントには多くの知識領域があるのがわかりますね。

弊社はこの中で「DWH&BI」の分野に対して30年以上取り組んでおり、非常に多くの実績があります。もしBIツールでお悩みの場合は、下記サイトをご覧ください。

BIツール「WebQuery」「Excellent」について

また、DWHの構築やデータベースの性能についてお悩みの場合は、下記サイトをご覧ください。

DWH移行について
データベース性能診断について

最後までお読みいただき、ありがとうございました。