Wikipediaシソーラス

語と語の関連性の強さを定義するためのシソーラス辞書は,情報検索や自然言語処理,対話エージェントなどの研究領域において幅広くその有用性が実証されてきた.しかし,自然言語処理などによる従来のシソーラス辞書自動構築では,形態素への分割や同義語・多義語の処理など,語の関連性を解析する前段階の処理において精度低下を招く要因がいくつかある.

我々は,この問題を解決するために,リンク構造解析に着目し,Wikipediaマイニングによって語彙同士の関係性を解析することで精度の高いシソーラス辞書の自動構築を実現した.これは,WikipediaがWikiベースのコンテンツ管理体制であるために莫大な記事が登録されている点,記事(概念)同士がハイパーリンクで互いに参照されていることが有効に働いたためだと考えられる.研究成果は以下のURLからアクセスできる.

Wikipediaシソーラス検索

Wikipediaシソーラスでは,Wikipediaの約170万ページを解析し,7,800万の関係性ペアを抽出することで,世界最大規模のシソーラス辞書を構築した.

案内

ツールボックス

検索