多様な様式を網羅した会話コーパスの共有化

プロジェクトリーダー伝 康晴 (でん やすはる)
国立国語研究所 言語資源研究系 客員教授
実施期間平成23年11月~平成26年10月
研究分野言語資源研究系
キーワードコーパス,共有化,多様性

概要

大きなサイズの画像を見る

本研究の目的は,様々な機関・研究者が所有する既存の会話コーパスを対象に,共通の基本情報を付与し,相互利用可能な形で共有することである。とくに,会話の諸現象の普遍性と多様性をとらえるために,参加人数・参加者間の関係性・内容などが様々に異なるコーパス群の集積を目指す。

そのため,以下のことを行なう。

  1. 共同研究員が所有する会話コーパスを調査し,共有化の上での問題点を洗い出す。
  2. 共通に付与する基本情報の仕様を策定する。
  3. この仕様に基づき共通の基本情報を付与し,共同研究員間で共有する。
  4. 共有されたコーパスの基礎的な分析を通じ,多様な様式のコーパス共有の有効性を確認する。
  5. 本プロジェクト外のデータを対象に,本手法で共有化できるデータがどの程度あるか調査する。

これらの活動を通じ,大規模な会話コーパス開発のための足掛かりとする。

投稿をシェアする
note