統語・意味解析コーパスの開発と言語研究

略称
統語コーパス
プロジェクトリーダー
プラシャント・パルデシ (国立国語研究所 理論・対照研究領域 教授)
キーワード
統語・意味解析コーパス,アノテーション
関連サイト
プロジェクトのウェブサイト

概要

研究目的

現在利用可能なコーパスを使って検索すると,Google などでインターネット上のデータベースを検索するときと同様に膨大な検索結果が生じ,結局,人手による選り分けが必要なことが多くあります。また,通常のコーパスに与えられている形態素情報 (名詞,動詞など) だけでは,文構造の分析や意味解釈にあまり有効でないことがあります。そこで,本研究では,良質の統語解析情報 (主語,目的語など) を持つコーパスを開発し,構文パターンを使って種々の検索が容易にできるようにします。たとえば,「注目されている研究」という場合の「研究」は「研究が注目されている」のように「注目されている」の主語にあたり,また,「世界が絶賛する研究」という場合の「研究」は「世界が研究を絶賛する」のように「世界が絶賛する」の目的語にあたります。このような「主語」,「目的語」などの統語的情報 (アノテーション) を加えたコーパスは現代の言語研究には欠かすことができず,世界の主要な言語について整備が進められています。ところが,日本語に関しては今のところ,主語や目的語など,文の構造や意味解釈に必要な統語解析情報を伴うコーパスは公開されていません。

本研究がめざすのは,テキストに統語解析情報を付与するとともに,さらにはその情報を使って文の論理意味表示も自動意味解析システムで処理できるようなコーパスを開発・提供することです。この新機軸のコーパスにより,日本語の文法的・意味的研究が大きく伸展することが期待されます。また,コーパスに基づく研究で得られた成果を国内外に向けて発信することで,日本語と諸外国語の比較対照にも貢献します。

研究計画・方法

上記の研究目的の達成のために,コーパス構築の諸問題を様々な観点から検討する研究班と実際にコーパス開発を行う開発班を組織します。さらに,国内外の第一線の研究者からなる Advisory Board を設けてプロジェクトの方針を決定し,コーパス開発およびコーパスに基づく言語研究のグローバルネットワークを構築します。

研究班はコーパス構築に関わる理論・実際上の問題を様々な観点から検討し,アノテーションの質の向上を目指します。

さらに,「対照言語学の観点から見た日本語の音声と意味」プロジェクトの文法研究班と連携を図り,コーパスに基づく日本語と諸外国語の比較対照研究という新しい研究分野の創生を模索します。

コーパス開発班は現代日本語の書き言葉を中心とするテキストに対してアノテーションを施したコーパスを構築し,公開することを目的としています。統語解析情報付きコーパスの先駆けは米国のペンシルヴァニア大学で開発された英語の Penn Treebank であり,その方式は現在世界の様々な言語に適用されています。その一種に Penn Historical Treebank があり,語や句の統語情報を表す文法カテゴリーに対し機能情報を付け加えることを特徴としています。本プロジェクトは Penn Historical Treebank のアノテーション規約を採用し,コーパス開発を推進します。また,日本語に習熟しない研究者でも使用できるように,ローマ字版コーパスも作成し,コーパス利用者の便宜のために日英語のマニュアルを公開します。さらに,言語処理技術に通じていない一般の研究者や学生でもコーパスを利用できるようにするために簡便なインターフェースも公開します。

Advisory Board,研究班,開発班の有機的なインタラクションを通じて,これまでにないレベルの日本語コーパスを構築・公開およびコーパスに基づく日本語研究を行うとともに,世界における日本語研究の価値を高めることをめざします。