トップ> 共同研究> 共同研究プロジェクト> 基幹型> コーパスアノテーションの基礎研究

コーパスアノテーションの基礎研究

略称アノテーション
プロジェクトリーダー前川 喜久雄(まえかわ きくお)
国立国語研究所 言語資源研究系教授
研究分野言語学,知能情報処理
キーワードコーパス,アノテーション

概要

  1. 目標:既存のコーパスをより高度に活用するために必要とされる研究用付加情報(アノテーション) の基礎研究をおこなう。
  2. 方法:述語項構造,節境界,各種語義タグ,事実性(モダリティ),複合辞タグなどについてタグの仕様を検討するとともに,既存のコーパスを用いたタグ付与実験を行い,自動アノテーションの可能性についても検討する。基本的に書き言葉コーパスを対象とするが,話し言葉のアノテーションについても検討する。
  3. 期待される成果:日本語の高水準アノテーションの標準化をめざす。

共同研究者(所属)

乾健太郎(東北大学),松本裕治(奈良先端科学技術大学院大学),奥村学(東京工業大学),宇津呂武仁(筑波大学),竹内孔一(岡山大学),森信介(京都大学),小原京子(慶應義塾大学),小椋秀樹(国立国語研究所),丸山岳彦(国立国語研究所),小磯花絵(国立国語研究所) ,柏野和佳子(国立国語研究所)

研究目的

共同利用研国立国語研究所においては,コーパスの開発作業はコーパス開発センターにおいて実施するが,そのための基礎研究とコーパスを利用した応用研究は言語資源研究系において実施する。本研究では,コーパスの利用価値を高めるためのアノテーション(検索用情報付与)についての基礎研究を行う。

先に述べたようにコーパスの価値は代表性とアノテーションの積として定まるが,日本語コーパスの場合,形態素よりも上位の階層に属するアノテーションに関する研究を進展させる必要がある。アノテーションは基本的には言語学の範疇に属する知識に立脚した作業であるが,我が国ではこれまで言語学者(日本語研究者)がコーパスのアノテーションに関与することが少なく,主に自然言語処理研究者の手によってアノテーションの研究が進められてきた。そのため,言語学の観点からすると,仕様に一貫性が欠けていたり,単位の斉一性に問題が生じていたりすることがあった。一方、言語学者の考案する「理論」は品詞分類のような具体的な問題まで含めて、現実の用例をどの程度まで説明しうるかが不明であることが多かった。

本研究の目的は,自然言語処理研究者と言語学者とが協力して、現代日本語を対象とする各種アノテーションの仕様を考案し、検討することにある。

研究計画・方法

コーパスを利用した日本語研究は,狭義の言語学(日本語学)の世界ではこれから隆盛に向かおうとしているが,自然言語処理研究の領域においては20年程度の蓄積がある。そのため,コーパスへのアノテーションの重要性と付与作業における種々の困難の実態を最もよく理解しているのは,この領域の研究者である。本研究が自然言語処理研究者との共同研究の形をとっているのはそのためである。

メンバーは各自が対象とする言語事象に関するアノテーションを理論と実践の両面から研究するが,その際,メンバー間でデータを共有して,同一のデータに様々なアノテーションを施し,その相互関係も検討の対象とする。また,このデータを利用した機械学習などによって,どの程度まで自動アノテーションが可能であるかについても検討する。

年に3,4回、全員が集まってのミーティングを実施する他、年に2回程度は、言語資源研究系の他のプロジェクトと共同で公開研究発表会を開催して一般に研究成果を発信する。平成22年度までは、プロジェクトリーダーが領域代表者をつとめた科研費特定領域研究「日本語コーパス」の公開ワークショップが公開研究発表会の場として機能してきたが、平成23年度からは、言語資源研究系共同研究プロジェクト「コーパス日本語学の創成」が主催する公開ワークショップに発表の場を求める予定である。

共同研究発表会

開催日時 開催場所 開催案内 開催概要
平成23年9月27日(14:00-17:00) 国立国語研究所非公開
平成23年9月5日(13:40-16:40) 奈良先端科学技術大学院大学非公開
平成23年7月19日(14:00-17:00) NAIST東京事務所
平成23年6月21日(14:00-17:00) 国立情報学研究所
平成23年 3月18日(14:00-17:00) NAIST東京事務所
平成22年12月21日(14:00-17:00) NAIST東京事務所
平成22年 8月17日(13:30-15:30) NAIST東京事務所
平成22年 1月15日(13:30-15:30) 国立国語研究所