論理データ統合を実現するデータ仮想化とは?市場動向とメリットを解説

データ利活用の課題を解決する次世代技術の詳細とは

論理データ統合を実現するデータ仮想化とは?市場動向とメリットを解説

近年、企業ではデータにもとづいたビジネス戦略、ひいてはデータの利活用が求められるようになりました。さまざまなデータを収集して分析に利用するために、データウェアハウスやデータレイクを導入する企業も増えています。しかし、従来のデータウェアハウスやデータレイクを用いたデータ統合手法では、サイロ化したデータソースからバッチ処理で物理的にデータを集めるため、データ利活用までに多くの時間やコストかかるという課題があります。そこで注目されているのが、一つの仮想データレイヤにデータを統合する「データ仮想化」の技術です。

データ仮想化では、データを物理的にコピーすることなく、オリジナルのデータにアクセスできます。鮮度の高いデータを必要なときにすぐ利用できるため、ビジネスにおける意思決定の迅速化に役立つでしょう。

本記事では、企業におけるデータ利活用の課題を踏まえて、データ仮想化のメリットや製品について解説します。

1. データ利活用における市場動向

近年では、企業においてデータ利活用がビジネスに必須の課題であるという認識が広まっています。総務省の「情報通信白書(令和4年)」※1 によると、デジタル化の目的として「データ分析・活用」と回答する日本企業は63.5%にのぼり、データの利活用に積極的な企業が増えていることがわかります。

データの収集はあくまで通過点であり、集めたデータを分析し、ビジネスでの意思決定に役立てることが求められます。そのために必要となるのが、鮮度が高いデータへ迅速にアクセスできる環境です。データウェアハウスやデータレイクのようなデータ収集のためのサービスが普及するなか、今後は集めたデータに対して、いかにスピーディーにアクセスし、利活用していくかが重要なポイントとなります。

また、近年注目されているDX(デジタルトランスフォーメーション)とデータ利活用にも深い関係があります。
DXの成果を得られない企業の多くは、組織全体でのデータ利活用に問題を抱えています。社内のデータを集めるだけ、社内の一部組織でデータを利活用するだけでは、DXは推進できません。企業全体で蓄積したデータを共有し、部署間や組織間で連携していくことが重要です。そのためには、必要なデータがどこにあるのか、どのように必要なデータにアクセスするのかを明確にするべきでしょう。DXを進めるにあたっても、データ利活用は切り離せない課題となっています。

市場の変化が激しい現代において、過去のデータをもとに分析するだけでは不十分です。今後は、現在のデータから未来の予測を行い、それにもとづいた意思決定を行うデータドリブンの考え方が求められます。企業の事業環境が変化するなか、意思決定の迅速化や、価値を創出する意思決定につなげるためには、データの利活用が必要不可欠です。

2. データ利活用の課題

市場調査からもわかるとおり、多くの企業でデータ利活用に向けた動きが活発化しています。しかし、データの利活用には以下のような課題もあります。


(1)データの多様化によるコスト増

企業が扱うデータは年々増加しており、分析に利用されるデータの種類も多様化しています。総務省が発表した「デジタルデータの経済的価値の計画と活用の現状に関する調査結果」※2 によると、POSやeコマースによる販売記録などのデータ、電話などの音声データの活用が進んでいるとのことです。さらに、IoTやAIのデータを活用する動きもみられます。

これらのデータを分析に活用するためには、利用目的に合わせてデータを抽出したうえで、データウェアハウスやデータレイクに書き出しやすいようにデータ形式などを加工し、書き出すプロセスが必要です。しかし、データ量の増加やデータの多様化によって、データの抽出や統合などの処理にも多くのコストと労力がかかることが大きな障壁となっています。


(2)データ活用までにかかる時間

データを利活用するまでに時間がかかることも、データ利活用における課題の一つです。企業が扱うデータは、データウェアハウスやデータレイク、データベース、クラウド、Webサイトなど、さまざまな場所に分断されており、データのフォーマットもバラバラです。

従来、これらの分断されたデータを統合するために使われてきたのがETLです。しかし、ETLによるデータの抽出、システム間の連携、データの複製や前処理などには多大な手間と時間がかかります。データの前処理は夜間バッチなどで進められますが、多くの時間を要するため、実際に利用するデータは最新ではないことも少なくありません。また、データを物理的に集めるのに膨大な時間がかかることで、業務に支障がでてしまい、データ利活用が限定的になるケースもあります。

データを活用した意思決定が、過去のデータにもとづいたものになってしまうと、ビジネスに活用するには不十分です。データを未来の意思決定に活用するためには、鮮度の高いデータへ迅速にアクセスし、データ分析などにつなげていく必要があります。


(3)データの鮮度

データの統合や保存を繰り返すなかで、データの鮮度が低下しやすいことも、データ利活用が進まない理由です。データを活用するためには、集めたデータを使えるように抽出や加工などの準備をする必要があります。しかし、データをデータウェアハウス、データレイク、データマートへコピーする過程でのバージョン管理が難しく、誤ったデータが分析などにそのまま利用されてしまう恐れがあります。


(4)データ統合コスト

データ活用の準備段階で多くのコストがかかることも課題として挙げられます。社内に分散するデータを統合するには、ETLを利用するのが基本です。しかし、ETLを使ってデータを集約する場合、システム間におけるデータ連携のためにデータの複製が必要となります。データ活用のたびにデータを複製するため、重複するデータが大量に発生し、データ活用コストがかさんでしまいます。

データ統合を繰り返すうちに同じようなデータが大量に蓄積されるほか、データの更新もそれぞれ必要となるため、運用の工数も増加します。さらに、複製したデータを保管するためのストレージも必要です。


(5)システムのサイロ化

個別のシステムごとに最適化されたデータは、結果的に全体で見るとサイロ化された状態になっていることが多くあります。そのような場合、たとえば、あるアプリケーションで集めたデータを別のアプリケーションで活用できないなどの問題が発生します。

利用するシステムが多くなればなるほど、サイロ化は深刻化します。サイロ化が進めば、企業内で利用しているシステムが組織内で連携できなかったり、必要なデータが社内に分散したりして、データの利活用を妨げてしまう恐れがあります。また、システムがサイロ化したままデータが増加することで、データの管理に多くの時間とコストがかかってしまいます。データ利活用のためには、業務システムごとにサイロ状態になったデータを集約することが必要不可欠です。

3. データ利活用を進めるための「データ仮想化」とは

ここまで解説したように、データウェアハウスやデータレイク、ETLなどの技術を導入する企業が増える一方、データ利活用には多くの課題もあります。それらの課題解決に役立つのが「データ仮想化」です。

データ仮想化とは

データ仮想化とは、一つの仮想データレイヤにデータを統合する技術です。データを物理的にコピーすることなく、仮想化されたすべてのデータにアクセスできます。

これにより、加工されていない最新のオリジナルデータを、ユーザーが利用したいタイミングで引き出すことが可能です。鮮度の高いデータを必要なときにすぐ利用できるため、ビジネスにおける意思決定の迅速化につながります。

データ仮想化の仕組み

データ仮想化では、「多様なデータソースへの接続」「さまざまなアプリケーションでデータ活用」という2つのステップでデータの利活用を実現します。

多様なデータソースへの接続

クラウド上のデータ、データベース、データウェアハウス、データレイク、パッケージアプリケーション、Webサービス、ファイルなど、あらゆる種類のデータに接続することができ、幅広いデータソースに対応可能です。

さまざまなアプリケーションでデータ活用

データ仮想化により、データをシームレスに統合することで、ビジネスニーズに対応するさまざまなアプリケーションを通じてデータを活用できます。たとえば、ダッシュボードやWebアプリケーションなどを通じてデータ分析を行います。

データウェアハウスとの併用

データドリブン経営などデータの利活用が求められるなか、多くの企業がデータ収集に取り組むようになりました。そうした状況のなか、集めたデータを蓄積するために登場したのがデータウェアハウスやデータレイクです。また、散在するデータを一つに集約するために、ETLも利用されるようになりました。

しかし、ETLやデータウェアハウス、データレイクを用いた従来のデータ統合手法では、データ抽出までに複数の工程が必要です。また、人が介在する箇所も多いため、不具合やデータの鮮度が低くなるといった新たな問題が発生しました。

ETLで抽出・加工したデータをデータウェアハウスやデータレイクに格納し、それをBIなどの分析ツールが参照する従来のデータ統合の方法では、必要な情報をリアルタイムで取得できません。データ仮想化はこれらの問題を解決し、データ利活用を促進します。

4. データ仮想化によるメリット

では、データ仮想化の導入には、具体的にどのようなメリットがあるのでしょうか。
データ仮想化の主なメリットを4つ解説します。

データ仮想化によるメリット1.鮮度の高いデータを必要なときにすぐ利用できる

データ仮想化では、データを物理的にコピーせずに実データを参照するため、鮮度の高いデータを得られます。元のデータに対して加工やコピーが行われないため、オリジナルのデータを損なうこともありません。また、単一のアクセスポイントで全データにアクセスが可能です。オンプレミスやクラウドなどあらゆる環境からアクセスして、必要なときにすぐデータを利用できます。

従来の物理的なデータ統合の場合、ETLでデータを抽出・加工したあと、データウェアハウス・データレイクに格納する必要がありました。ETLはバッチなどの定期間隔で実行するため、鮮度の高いデータにアクセスすることができません。一方、データ仮想化では物理的なデータ複製がないため、ETL処理は必要ありません。より短い時間で最新のデータにアクセスできます。これにより、これまでデータの取得や統合にかかっていた時間を、本来の目的であるデータ分析およびビジネスの意思決定に使えるようになるでしょう。

データ仮想化によるメリット2.データ活用のコストを削減できる

データ活用のコストを削減できることも、データ仮想化のメリットです。データ仮想化の場合、従来のような複製したデータを保管するストレージが必要ありません。データの複製が発生しないため、変更時の開発も最小限に抑えられます。

また、現行システムに影響を与えず、短期間で導入できる点も特徴です。従来のデータ活用基盤で課題となっていた設計がなく、コストを抑えた開発を実現できます。データを一元管理することで、管理者の負担も軽減されるでしょう。

データ仮想化によるメリット3.セキュリティを強化できる

データ仮想化によって、セキュリティの一括管理が可能です。さまざまな場所に分散するデータに対して、一貫したアクセス制限やポリシーを維持することは容易ではありません。

データ仮想化では、データウェアハウスやデータレイクなどのデータソースと、BIなどのデータ活用先との間に、単一のアクセスポイントとしてデータ仮想化レイヤを置くことにより、一元的なアクセスポリシーを適用できます。従来のように、データソースごとに細かなアクセスポリシーを設定する必要はありません。アクセス制限を付与することも可能であり、必要なユーザーだけにデータを公開できます。

データ仮想化によるメリット4.データを柔軟に拡張できる

従来のETLジョブを変更は、開発作業が必要となり、変更に伴う負荷が高くなります。しかし、データ仮想化を使用すると、作業はデータの定義を変更する程度に簡略化されるため、柔軟な拡張が容易に行えます。

また、データを簡単に検索できるデータカタログ機能や、データの履歴を記録するデータリネージュ機能によって、変更箇所の特定や影響範囲の確認も簡単に行えます。

5. データ仮想化を支援する製品

データをビジネスに利活用するためには、事業での活用を見据えたデータ基盤を構築することが重要です。ここからは、データ仮想化を支援する製品について解説します。

データ仮想化技術とは

データ仮想化技術は、分散しているさまざまなデータを仮想的に統合します。

ETL・データウェアハウス・データレイクを用いた従来のデータ統合手法の場合、ETLを使ってデータをデータウェアハウスにコピーする手順を踏むことで、はじめてデータを取得できます。一方、データ仮想化では、データウェアハウスやデータレイクからデータのコピーは行いません。データ仮想化では、データの説明情報となるメタデータを登録・公開することができます。メタデータは、データカタログに登録され、データを検索する際に参照されます。これにより、データを短時間で簡単に検出することが可能です。データを取得したい場合は、データ取得のリクエストを投げることで、最新のデータを取得できる仕組みとなっています。

また、統合したデータに対して、一元的にデータガバナンスの設定や管理を行うことも可能です。単一のアクセスポイントで、データの適切な利用とデータへのアクセスを実現します。

このようなデータ仮想化技術を取り入れた製品を導入することで、データ取得に必要な作業を大幅に削減でき、時間やコストをかけずにデータを活用できます。従来のデータウェアハウス、データレイクなどのデータ活用基盤のメリットを残しつつ、柔軟なデータ活用を低コストで実現する技術といえるでしょう。

データ仮想化製品の導入に必要なこと

データ仮想化製品を導入する際には、以下2つのポイントを確認しておきましょう。

  • データ活用方針の決定
  • 適切な製品の選択

まずは、目的の明確化や情報の整理を行い、データの活用方針を決めていきます。実際に活用したいデータが仮想化に適しているかどうかを見極めて、方針を定めることが重要です。

また、目的に合った製品を選ぶことも欠かせません。データウェアハウスのようなデータの格納先ではなく、データを動かす役割を持つのがデータ仮想化製品です。導入にあたっては、既存のデータウェアハウスや業務システムとの連携が可能かどうかを確認しておく必要があります。導入の目的や社内のニーズを考慮して、最適な製品を選択してください。

データ仮想化の導入ケース

これからデータ利活用に取り組みたいと考えている場合、データ仮想化製品を導入するのが一つのモデルケースです。データ仮想化の導入によって、データの移動を最小限に抑え、データを効率的に活用できます。

また、既存のデータウェアハウスやデータレイクを活用している場合でも、データ仮想化製品を導入して併用できます。従来のデータ活用基盤のメリットは残したまま、柔軟なデータ活用を低コストで実現できるでしょう。

さらに、データカタログ、アクセス制限やポリシーの適用、ログの一括管理などの機能を追加することで、データの利活用が進みます。実際のデータはデータウェアハウスやデータレイクに残し、仮想的にデータを統合するため、データの追加や変更にも柔軟に対応可能です。

6. まとめ

本記事では、企業におけるデータ利活用の課題や、データ仮想化のメリット、データ仮想化を支援する製品について解説しました。多くの企業で、事業環境の変化への対応やDXが進められるなか、価値を創出する意思決定のためにデータの利活用が求められています。

しかし、データの利活用には、時間やコストの問題、データの鮮度、システムのサイロ化などさまざまな課題があります。これらの課題を解決するのが、一つの仮想データレイヤにデータを統合する「データ仮想化」の技術です。データ仮想化の導入によって、鮮度の高いデータを必要なときにすぐ利用できる、データ活用のコストを削減できる、セキュリティを強化できる、データを柔軟に拡張できるなど、さまざまなメリットを得られます。

従来のデータウェアハウス、データレイクなどのデータ活用基盤のメリットを残しつつ、柔軟なデータ活用を低コストで実現するのが、日立ソリューションズが提供する「データ仮想化ソリューション」です。

構成要素の一つである「Denodo Platform」は、社内のシステムやクラウドサービスなど、さまざまなデータソースを各環境においたまま、仮想データレイヤにてデータを論理的に統合・管理・配信するソフトウェアです。データを加工する手間がなく、リアルタイムでデータにアクセスして活用できます。Denodoを利用することで、ビジネスユーザーは、データの場所、構造、ソースを気にすることなく、ビジネスに適した方法で簡単にデータを発見し、アクセスし利用することができます。これにより、組織内でのセルフサービスが可能になり、ユーザーは信頼できるソースから迅速に意思決定できるようになります。また、米国リサーチ会社であるForrester社は、データ管理に論理的アプローチを使用している多くの企業を対象に調査を行い、ETLよりも65%高速で、データ準備の労力が67%少なくて済み、6カ月未満で投資回収が可能であることを明らかにしています※3。日立ソリューションズでは、データ仮想化技術を用いたデータ統合管理製品「Denodo Platform」をはじめとしたデータ利活用に役立つソリューションを多数提供していますので、ぜひお問い合わせください。

※関連情報:データ仮想化ソリューション

最終更新日:2023年10月31日