その結果、35万9109ユーザ(性的虐待について言及したユーザの78.6%)のネットワークが得られました。さらに分析を明瞭にするために、細かなノードやエッジを除去し、3万840のユーザを残しました。
投稿者は3種のファン層と
2つの政治クラスタだった
次に、作成されたネットワークに対してクラスタリング(似た者同士を分類する教師なし機械学習)という手法を用いてユーザを分類します。
コミュニティ構造の検出に有効な手法を用いてクラスタリングを行った結果、最もノード数が多い5つのグループが抽出されました。この5つのクラスタはネットワークの84.5%を占めています。
このようなグループは通常、対立する視点を持ち、自分たちのクラスタ内で主にコミュニケーションをとる傾向があり、グループを超えた交流はほとんどありません。
ユーザグループの特徴を把握するために、各ユーザのプロフィール文を抽出し、Tf-Idfという統計的手法を用いて各グループのトピックを抽出しました。図表4-4では、Tf-Idfの上位10語から導き出されたユーザの分類を示しています。
拡大画像表示