Wikipediaマイニング

目次

知識獲得のためのWebコーパスとしてのWikipedia

密なリンク構造

筆者らは,予備実験として2006年9月の段階におけるWikipedia内におけるリンクの数をカウントした.約168万ページ(英語のみ)を解析したところ,約4,998万の内部リンク(リダイレクトリンクを除く)を抽出した.これは,一ページあたり平均29.62のリンクを持つ計算となる.また,Backwardリンクの分散を調査したところ,1万以上のBackwardリンクを持つ記事は196件,1,000以上のBackwardリンクを持つページは3,198件,100以上のBackwardリンクを持つページにいたっては67,515件も存在することを確認した.しかも,これらのリンクはサイト内に対するリンクのみをカウントしたものであり,サイト外へのリンクは含まれていない.これは,Wikipediaでは閉じられた語彙空間の中で密なリンク構造を持っており,リンク構造を解析することで有用な情報を抽出できる可能性を示している.

URLによる語彙の一意性確立

URLによって語彙の一意性が確立されている点は,Wikipediaの大きな特徴の一つである.電子辞書では,通常一つの見出し語が一つのページに割り当てられており,その中で複数の意味について詳述される(図\ref{fig:identification}左).一方,Wikipediaでは一つのURL(ページ)に一つの概念が割り当てられており,多義性がURLによって解決されている点が大きな特徴である.たとえば,「Football」は強いコンテキスト依存を持つ単語であり,アメリカンフットボールを示す場合もサッカーを示す場合もある.Wikipediaでは,これら二つの概念は別のページで管理されており,それぞれ「American_Football」「Football_(soccer)」という別々のURLが割り当てられている.

このように,概念とURLが一対一で対応していることは,概念の関連性を解析する際に多義性やコンテキストの依存性の影響を受けずに解析できることを示している.

即時性の高いコンテンツ管理体制

従来の辞書では,一般的な語からトップダウン的に追加されていくのが通常であり,一般的でない語や専門的な語は辞書に追加されるのが遅れる,もしくはいつまでも登録されないのが一般的である.しかし,Wikipediaでは,インターネットを通じてリアルタイムに記事が公開・アップロードされ,リンクが構築されていくため,極めて即時性が高い.例えば,ある企業から最新の技術の発表があった数時間後には,エントリが生成され,その説明や詳細なスペック,画像などが他の語へのリンク付きで公開されたというケースもある.このような新しい概念に対する網羅性の高さはWebコーパスとしてみたときの重要な特徴の一つである.

良質なリンクテキスト

Web コーパスと通常の文書コーパスの性質の最も大きな違いは,ハイパーリンクである.ハイパーリンクは,単に他ドキュメントへ移動するための機能を提供するだけでなく,トピックの局所性やリンクテキストなど重要な情報を豊富に有している.トピックの局所性とは,ハイパーリンクで繋がっているページ同士は,繋がっていないページ同士に比べて同じトピックに関する記述である場合が多いという性質である.Davison らの研究は,このトピックの局所性が多くの場合に正しいことを示している.また,リンクテキストもWebマイニングによるシソーラス辞書構築において重要な役割を果たす.リンクテキストとは,ハイパーリンク(A タグ)における内部テキスト部分を示す.例えば,以下のようなハイパーテキストを考えた場合,テキスト部分「Apple」がリンクテキストに相当する.

<a href="http://en.wikipedia.com/wiki/Apple_Computer">
Apple
</a>

リンクテキストは一般的に被リンクページの内容(要約)を表現していることが多いため,リンク先のページの情報を統計的に解析するときなどに利用できる.しかし,通常のWebページにおけるリンクは,「最新情報はこちらをクリック」といったようにリンク先の概念とは無関係の情報が多く含まれる場合が多い.このようにノイズの多いリンクテキストを解析し,リンク先のページの要約とする場合には,Chenらの手法のように,自然言語処理ツールを利用することにより,リンクテキストを解析し,統計的にリンク先の概念ラベルを抽出するのが一般的である.しかし,このように自然言語処理を利用してリンクテキストを解析した場合,シソーラス辞書の精度が低下することが予備実験によって判明している.

一方,Wikipediaにおいては,リンク内のテキストはリンク先の概念の要約を端的に表す語であり,多くの場合は慣例的に記事のタイトルが利用される.そのため,通常のWebコーパスと比較して,高い精度の解析結果が得られることが期待できる.

Wikipediaマイニング

以上のとおり,Wikipediaは知識獲得のためのWebコーパスとして見たときに多くの魅力的な特徴を持つ.また,Webブラウザを利用して誰でも更新が可能であるため,間違いが迅速に修正され,その結果信頼性が高いコンテンツが実現できていると主張するユーザも少なくない.これを裏付けるように,2005年12月に公開された英Nature誌の調査によれば,Wikipediaは世界最大の百科事典のブリタニカと同等の規模と精度を持つと報告されている.

Wikipediaマイニングとは,筆者らの造語で,Wikipediaに対してWebマイニングを行い,有益な情報を抽出する手法の総称である.筆者らは,Wikipediaが膨大なコンテンツ量を持っていながら,サイト内部で密なリンク構造ができていることに着目し,リンク構造を解析することで概念同士の関係を抽出できることを示してきた.研究成果は以下のリンクからアクセスできる.

Wikipediaシソーラス検索

案内

ツールボックス

検索