WikipediaとWebの情報を用いた動作関係辞書

本研究では,WikipediaとWebの情報を組み合わせることにより,大規模な動作関係辞書を構築することを目的としている. 具体的には,Wikipediaシソーラスから強く関連している概念ペアを取り出した後,それらのペアについてWeb検索を用いて動作関係を抽出し,動作関係辞書を構築した. なお,Wikipediaの情報をある程度信頼できるものとして利用することが第一の狙いであり, Webから如何にして動作関係を抽出するかにおいては,自然言語処理や機械学習の手法を取り入れる予定である.

今回構築したプロトタイプの動作関係辞書では,抽出した情報を以下のようなcsv形式で表現している.

概念A  属性A  概念B  属性B  格助詞A  格助詞B  動詞  動詞(補)  出現回数  関連度

概念Aと概念Bは関連のある概念ペア,属性はPerson, Organization, Geography, Products_Worksのいずれかを持つ. 格助詞は「が,を」「が,に」「が,で」「で,を」「で,に」「から,に」「から,へ」「から,まで」「と,が」「が,と」の組合せのみを用いている. 動詞と動詞(補)は,便宜上,複合動詞を分割しているだけである. 関連度はWikipediaシソーラスにおける関連度である.

動作関係辞書プロトタイプのダウンロード

現時点で,延べ6万弱の動作関係を定義している. 今後,さらなる規模の拡大を検討している.

案内

ツールボックス

検索