従来,Web上で多くの翻訳辞書が公開されてきた.しかし,これらの辞書では一般的な言葉は網羅されているものの,新しい言葉や専門用語は比較的少なく,如何にこれらの単語をサポートするかが重要な技術的課題であった.そこで,我々はWikipediaのリンク構造を解析することで新しい単語や専門用語を十分にサポートする翻訳辞書を構築した.
Wikipedia Bilingual Dictionary
本研究では,Wikipediaの言語間リンクだけでなく,リダイレクトページやアンカーテキストなどの情報を利用し,再現率を向上させ,適合率を向上させるためのアルゴリズムを提案している.
実験ではパラレルコーパスを解析して作成された辞書と比較した場合,専門用語などに対する網羅性・精度が高く,新しい翻訳リソースとしてのWikipediaの可能性を示した.辞書は現在英語から日本語またその逆の翻訳もサポートしているが,近い将来他の言語ペアを加えることを計画している.
参考文献
- M.Erdmann, K.Nakayama, T.Hara, and S.Nishio: Extraction of Bilingual Terminology from a Multilingual Web-based Encyclopedia, 情報処理学会論文誌 (IPSJ Journal) (to appear)
- M.Erdmann, K.Nakayama, T.Hara, and S.Nishio: An Approach for Extracting Bilingual Terminology from Wikipedia, Proc. of International Conference on Database Systems for Advanced Applications (DASFAA) (Mar. 2008)
- M.Erdmann, K.Nakayama, T.Hara, and S.Nishio: A Bilingual Dictionary Extracted from the Wikipedia Link Structure, Proc. of International Conference on Database Systems for Advanced Applications (DASFAA), Demonstration Track (Mar. 2008)
- M.Erdmann, K.Nakayama, T.Hara, and S.Nishio: Wikipedia Link Structure Analysis for Extracting Bilingual Terminology, 情報処理学会研究報告(データベースシステム研究会2007-DBS-143) (Sept. 2007)

