ダイヤモンド社のビジネス情報サイト

全てのデータをビジネスのために
再統合する時代の幕開け

――マークロジックが作る新発想のデータベース

ダイヤモンドIT&ビジネス
【第171回】 2018年3月23日
著者・コラム紹介バックナンバー
previous page
2
nextpage

 「たとえば2つの業務システムに保管されているデータを見ても、何十もの項目があります。それを照合し、同一であればまとめる作業が必要になります。2つや3つのデータベースならなんとかなるかもしれません。しかし、140個のデータベースだったらどうしますか。それらのすべてについて、データをそろえていくのは、事実上不可能でしょう」と語る。

 全項目を使うのが困難であれば、データの共有は必要最低限な項目だけについて限定的に行われる。それでは360度の活用にはならないとパスクア氏は言う。

マークロジック・パスクア氏の説明スライドより。企業のデータベースは複数のシステムに散在しているため、データ統合にはそれぞれのデータの項目を選んで接続しなければいけない。左のスライドは「POS」と「財務」の2つのシステムから、顧客IDを突き合わせるイメージ。右は、それがもっと多くのデータベースになったイメージ。システムが増えれば増えるほど複雑で処理することは困難になる

「データハブ」にデータを
集めて必要に応じて活用する

 この問題を解決するために、マークロジックでは新しい考え方のスキーマを用いないデータベースを開発し、複数のデータベースから全てのデータを取り込む「データハブ」の考え方を提唱している。データハブの中では、元データの形式をそろえなくても必要に応じて取り出すことができるように、新たなラベルがつけられる。従来はデータの再統合自体に膨大な時間とコストがかかった巨大なデータベースでも、データハブを介すことで約6ヵ月あればデータ統合の準備が整うという。

 第2の問題は、複数のシステムに保存された各データの関連性を、簡単には判断できない点だ。パスクア氏は顧客データの以下のような問題点を指摘した。

 「同じ“顧客の名前”だと思われる項目でも、あるシステムはFirst Name(FNAME)と書かれてあるものもあれば、別のシステムではGiven Nameと書かれています。また、名前自体の呼び名も、パトリシアをパット呼ぶなど、一定ではありません。オペレーターによって打ち間違えが起きる場合もあるでしょう。それらの結果、名前が違っていると判断されても、実際は同一人物のこともあります。この問題を解決しない限り、データの統合は実現しないのです」

 この問題に関して、マークロジックでは、データ項目の意味を分析した項目の統合(セマンティックマップ)を作り、さらにAIによるファジーマッチング技術を用いて、データの統合を手助けできるとしている。

previous page
2
nextpage
IT&ビジネス
クチコミ・コメント

facebookもチェック

IT&ビジネス 業界ウォッチ

IT業界で話題の新サービス・新製品のニュース、これから話題になりそうな新ツール、知っておきたい各種の統計調査……などなど、経営効率化に寄与するIT業界の今のうごきをレポートします。

「IT&ビジネス 業界ウォッチ」

⇒バックナンバー一覧