平本さんが今までに携わった仕事の中に「情報共有基盤」というものがあります。データに用いる文字や用語を共通化して、情報の共有や活用を円滑に行うための基盤で、平たく言えば「名寄せ」にあたるものです。異なる省庁や制度の間で、違う言葉で表現しているものが実は同じだったということが大変多かったので、同じものを名寄せし、用語の統一を図ったのが「共通語彙基盤」、同じ文字として解釈すべきところで使われている文字が違う場合に、文字の統一を図ったのが「文字情報基盤」です。
日本語には漢字が山ほどあります。その中で、古い言い方では「内字」「外字」と呼ぶのですが、JISでの規定外の漢字を使ってしまっているケースがたくさんあります。規定外の文字は字形(グリフ)を作って、個人や法人がコンピュータに登録して使うのですが、昔はコンピュータメーカー各社がそれを作っていました。それぞれのメーカーが自分の顧客にとって便利なように外字を作り、文字コードを割り当てていたのですが、相互運用はされていません。そこで、メーカーが異なれば別のメーカーのコンピューターで文書を読み取るときに、全然違う文字になってしまうということが頻発していました。
公的データには課題が山積み
法人データでも「名寄せ」ができない
これを少なくとも、公的サービスでは共通化するということを平本さんは行い、文字の統一と語彙の共通化が進みました。しかし平本さんによれば、法人情報の名寄せを行ってみて、共通化がまだ全然足りていなかったことが分かったといいます。
たとえば、2カ所に届け出があった法人が同一法人かどうかや、法人の真正性を確認したいときに、法人名の「株式会社」の後にスペースが入っていたりいなかったり、法人の所在地の記載が「〇〇番地〇号」だったり「〇〇−〇」だったり、「丁目」が入っていたり入っていなかったり、電話番号が代表電話だったり総務部の番号だったり、という具合で、全然名寄せができないというのです。現在は法人番号があるので、本来なら法人番号をキーに名寄せができるはずなのですが、すべての書類に法人番号が記載されるわけではないので、今でも「法人名と住所と電話番号で突き合わせ」といったことが行われているそうです。
個人の情報についていえば「よみがな」というものについて、国として定まった規定はなかったのだそうです。確かに戸籍にはよみがなの項目がありません。ですから、及川という私の名前も「おいかわ」と呼ぶかどうか、実は決まりがないわけです。そうしたところも含めて、データの扱いを整備していかなければならないと、平本さんは話していました。