all-words WSD システムの構築及び分類語彙表と岩波国語辞典の対応表作成への利用

プロジェクトリーダー
新納 浩幸 (茨城大学)

概要

研究目的

本研究の目的は,(1) 語義を岩波国語辞典の語義にした all-words WSD システム,(2) 語義を分類語彙表のコード番号にした all-words WSD システム,(3) 分類語彙表と岩波国語辞典の対応表,を作成し公開することです。word sense disambiguation (WSD) は,意味解析のプリミティブな処理でありながら,実際のシステムで利用されてはいません。これは通常の WSD が対象単語を限定しているからです。対象単語を限定しない all-words WSD システムが利用できれば,意味解析システムがより現実的なものとなり,同時に意味解析の研究も進展します。また分類語彙表のコードは概念であり,その説明が不足しています。岩波国語辞典の語義と対応させることで,その概念が何を意味しているかが明確になり,更に岩波国語辞典の語義と対応させることで,分類語彙表に不足している部分や岩波国語辞典よりも詳細になっている部分が判明し,この観点から分類語彙表の評価も可能になります。

研究計画・方法

all-words WSD システムは文中の全ての単語に対して,その語義を付与するシステムで,現実的な意味解析を行うための必須のシステムです。本研究では2種類の all-words WSD システムを作成します。1つは語義を岩波国語辞典の語義にしたものと,もう1つは語義を分類語彙表のコード番号にしたものです。前者のシステムは,基本的に,BCCWJ のコアデータに対して岩波国語辞典の語義を付与したデータを訓練データとして教師付き学習より構築します。また後者のシステムも,基本的に,上記データに対して分類語彙表のコード番号を付与したデータを訓練データとして構築します。この2つの all-words WSD を利用して,分類語彙表と岩波国語辞典の対応表を作成します。具体的には,文 s 内の単語 w に対して,w の岩波国語辞典の語義を g,w の分類語彙表のコード番号を h とし,P (g, h|s, w) を P (g|s, w) * P (h|s, w) * P (g, h) と近似します。P (g, h|s, w),P (g|s, w) および P (h|s, w) は上記2つの all-words WSD システムから推定できるため,結果として P (g, h) のモデルが学習できます。このモデルを基に,分類語彙表と岩波国語辞典の対応表を作成し,分類語彙表の整理拡充,および評価を行います。