データクレンジングを行うとどのような効果があるのだろうか。たとえば、先ほどのDMの例。DM発送に必要な情報といえば顧客の氏名と住所だ。氏名であれば、姓と名を区切る場所とスペース挿入の有無、漢字/かな/カナの表記などでゆれが生じる。住所の場合は、都道府県の省略、旧住所、入力ミスなど、表記ゆれのパターンはもっと多様だ。それがDMの重複発送につながる。

 そこでデータクレンジングの出番だ。氏名と住所をクレンジングすれば、標準化された表記方法でデータを統一できる。重複データを統合する「名寄せ」作業も、大幅に効率化される。DMの重複発送もなくなる。

図1 データクレンジングの例

 経営者が売上分析を行ったり、マーケティング部が市場調査をしたりする際にも、高品質なデータが欠かせない。たとえば顧客別の売上情報を分析するのに、重複登録が多いデータでは、正確な分析ができない。エリアマーケティングで顧客の地域分布を把握しようにも、品質の高いデータでなくては正しい状況はつかめない。クレンジングされていないデータでは誤った結論を下しかねないのだ。

 企業合併に伴ってシステム統合が行われたり、CRMの導入により部門ごとで保持していた顧客情報を一元管理したりする場合も、データクレンジングは必須だ。クレンジングしていないデータは単なる情報の寄せ集めに過ぎない。巨費を投入してシステムを整備しても、誰も使わない事態になる恐れもある。

大規模システム向けの性能を手軽に活用できる
データクレンジングツール「OUSIA Lite」

 データクレンジングには専用ツールを導入するのが速くて確実だ。ツールを選ぶなら、既存データのクレンジング性能の高さはもちろん、データ入力時にも、入力ミスを極力減らせる使い方ができるものを選んだほうがいい。その筆頭が「OUSIA Lite」だ。

 OUSIA Liteは、大規模システムにおける名寄せ機能の開発に実績のあるNTTデータの「OUSIA」の、中小規模システム向けデータクレンジングツール。住所、氏名、法人名、文字列のクレンジング機能を備え、その最大の特長はクレンジング性能の高さにある。

 たとえば住所なら、都道府県の省略、丁目以降の書き方のゆれ、新旧住所の混在などを、独自の解析技術で自動補正する。法人名なら、法人名称、種別((株)や株式会社)、部署名などを切り出して、補正してくれる。クレンジング成功率は業界トップレベルの97%というから驚きだ。
※所定の条件下での測定値

図2 独自の言語解析技術により高精度と高性能を両立