コーパスアノテーションの基礎研究 プロジェクトの詳細

研究目的

共同利用研国立国語研究所においては,コーパスの開発作業はコーパス開発センターにおいて実施するが,そのための基礎研究とコーパスを利用した応用研究は言語資源研究系において実施する。本研究では,コーパスの利用価値を高めるためのアノテーション (検索用情報付与) についての基礎研究を行う。

先に述べたようにコーパスの価値は代表性とアノテーションの積として定まるが,日本語コーパスの場合,形態素よりも上位の階層に属するアノテーションに関する研究を進展させる必要がある。アノテーションは基本的には言語学の範疇に属する知識に立脚した作業であるが,我が国ではこれまで言語学者 (日本語研究者) がコーパスのアノテーションに関与することが少なく,主に自然言語処理研究者の手によってアノテーションの研究が進められてきた。そのため,言語学の観点からすると,仕様に一貫性が欠けていたり,単位の斉一性に問題が生じていたりすることがあった。一方,言語学者の考案する「理論」は品詞分類のような具体的な問題まで含めて,現実の用例をどの程度まで説明しうるかが不明であることが多かった。

本研究の目的は,自然言語処理研究者と言語学者とが協力して,現代日本語を対象とする各種アノテーションの仕様を考案し,検討することにある。

研究計画・方法

コーパスを利用した日本語研究は,狭義の言語学 (日本語学) の世界ではこれから隆盛に向かおうとしているが,自然言語処理研究の領域においては20年程度の蓄積がある。そのため,コーパスへのアノテーションの重要性と付与作業における種々の困難の実態を最もよく理解しているのは,この領域の研究者である。本研究が自然言語処理研究者との共同研究の形をとっているのはそのためである。

メンバーは各自が対象とする言語事象に関するアノテーションを理論と実践の両面から研究するが,その際,メンバー間でデータを共有して,同一のデータに様々なアノテーションを施し,その相互関係も検討の対象とする。また,このデータを利用した機械学習などによって,どの程度まで自動アノテーションが可能であるかについても検討する。

年に3,4回,全員が集まってのミーティングを実施する他,年に2回程度は,言語資源研究系の他のプロジェクトと共同で公開研究発表会を開催して一般に研究成果を発信する。平成22年度までは,プロジェクトリーダーが領域代表者をつとめた科研費特定領域研究「日本語コーパス」の公開ワークショップが公開研究発表会の場として機能してきたが,平成23年度からは,言語資源研究系共同研究プロジェクト「コーパス日本語学の創成」が主催する公開ワークショップに発表の場を求める予定である。

共同研究員 (所属)

  • 飯田 龍
    (情報通信研究機構 ユニバーサルコミュニケーション研究所)
  • 乾 健太郎
    (東北大学)
  • 今田 水穂
    (文部科学省)
  • 宇津呂 武仁
    (筑波大学)
  • 奥村 学
    (東京工業大学)
  • 小椋 秀樹
    (立命館大学)
  • 小原 京子
    (慶應義塾大学)
  • 狩野 芳伸
    (静岡大学)
  • 佐野 大樹
    (グーグル株式会社)
  • 竹内 孔一
    (岡山大学)
  • 徳永 健伸
    (東京工業大学)
  • 松井 知子
    (統計数理研究所)
  • 松本 裕治
    (奈良先端科学技術大学院大学)
  • 松吉 俊
    (山梨大学)
  • 持橋 大地
    (統計数理研究所)
  • 森 信介
    (京都大学)
  • 淺原 正幸
    (国立国語研究所)
  • 柏野 和佳子
    (国立国語研究所)
  • 小磯 花絵
    (国立国語研究所)
  • 丸山 岳彦
    (国立国語研究所)