訴訟や法律に関わるような高度な内容を含む文書は、豊富な背景知識、判例の積み重ねについての知識、経験、文脈を読む能力などがなければ解釈できない。もしAIにそれらを覚え込ませようとする場合、ネックになるのは、同じ単語を使っていても文脈や状況によって指し示す意味内容が異なるという点、あるいは逆に意味が同じでも無数に違う言葉に言い換えることが可能という点だ。
たとえば、冒頭の2つのメールの文面の違いを分からせるようなことである。上記の2つのメールにはほとんど同じ単語が使われているのに、一方は単なる親睦の意味合いしかなく、もう一方は談合のための会合を示唆するものになっている。
このような類語、文脈などについての情報を、いわば一つ一つ辞書登録していくような作業、「シソーラス(言葉を意味上の関係に基づき整理した辞書・ 辞典・語彙集)の登録を無限にやり続ける作業」(守本氏)は通常の機械学習では追い付かないのだ。
AIのメール監視によって
総務担当者を救える可能性も
では「KIBIT(R)(キビット)」の技術はなにが違うのか。言語法則や体系を学習させるアプローチではない点が開発に成功した理由だ。それは上記の例なら、不正のある文面だけを読み込ませ、AIに勝手にその差を判断して学習させるという方法である。しかもこの方法であれば、目的の文書を見つけるのに、A4サイズの数枚のリポート、30件程度の少量の正解のサンプル(教師データ)があれば可能だという。
ただし、読み込ませて解析させるのに、サイズは通常のPCほどの大きさで、スーパーコンピューターより高性能のエンジンを使用している。また探したいものの目的が極めて明確になっていること、正解のサンプルはそれぞれの分野のエキスパートがピックアップしたものであり、それをAIの技術と結び付けるノウハウを20年のリーガルテック分野での経験から蓄積していることが、同社、ひいてはキビットの強みとなっている。
この技術を用いて、たとえば、社内のメールを「監視」し、情報漏えいなどコンプライアンス違反になりそうなメールを見つけて管理者にアラートを出すことなどが可能だ。不正をしそうな人物をメールから特定することもできる。ただし、実際に不正を行うために、会社のアドレスではない個人アドレスでやりとりをするなど、不正行為に踏み切ってしまったあとでは不正を防ぐことはできない。