世界最古のビッグデータは、19世紀米国の国勢調査

 アベノミクスの成長戦略の柱として「ビッグデータ活用の推進」が盛り込まれました。今回はビッグデータについて考えてみます。

 ビッグデータの定義が、手持ちのITシステムで扱いきれないほど大量で多様なデータを指すのであれば、世界で一番古いビッグデータの事例の一つは19世紀末の米国の国勢調査でしょう。米国の国勢調査は、日本を含めて多くの国の国勢調査の原型であり、民主主義の最重要基礎データ、つまり有権者数を調べるための手段であり、米国では憲法で10年ごとの国勢調査を行うことが定められています。

 さて、1880年の米国の国勢調査では、集めた調査票の集計に7年以上かかったとされています(集計期間は文献により違いがあります)。当時の米国の人口は7000万人以下であり、仮に一人の国勢調査票のデータが100文字分100バイトだったとして、全データ容量は7ギガバイト。今考えると少ないデータ量といえますが、当時は手に余るデータ量であり、まさにビッグデータだったのでしょう。

 実は米国の国勢調査はビッグデータだけでなく、ITの誕生においても大きな意味を持ちます。当時の米国は移民が増えており、1890年の国勢調査では、人口増から集計に10年以上かかることが予測されました。つまり次の国勢調査までに集計が終わらないことになります。

 そこで米国政府は集計を速くする方法を公募し、そこで採用されたのがハーマン・ホレリス氏が発明したパンチカードによる集計機(タビュレーティングマシン、日本ではパンチカードマシンと呼ばれることも多い)でした。そのタビュレーティングマシンを使うことにより、集計作業は18ヵ月ほどで終わったとされます。

 これはパンチカードと呼ばれる細長い紙に穴を開けることで、1枚のカードで80文字までのデータを表せるようにして、機械でそのカードの穴を読み取り、データ内容によってカードを振り分けます。