多様な様式を網羅した会話コーパスの共有化
プロジェクトリーダー | : | 伝 康晴 (でん やすはる) 国立国語研究所 言語資源研究系 客員教授 |
---|---|---|
実施期間 | : | 平成23年11月~平成26年10月 |
研究分野 | : | 言語資源研究系 |
キーワード | : | コーパス,共有化,多様性 |
概要

本研究の目的は,様々な機関・研究者が所有する既存の会話コーパスを対象に,共通の基本情報を付与し,相互利用可能な形で共有することである。とくに,会話の諸現象の普遍性と多様性をとらえるために,参加人数・参加者間の関係性・内容などが様々に異なるコーパス群の集積を目指す。
そのため,以下のことを行なう。
- 共同研究員が所有する会話コーパスを調査し,共有化の上での問題点を洗い出す。
- 共通に付与する基本情報の仕様を策定する。
- この仕様に基づき共通の基本情報を付与し,共同研究員間で共有する。
- 共有されたコーパスの基礎的な分析を通じ,多様な様式のコーパス共有の有効性を確認する。
- 本プロジェクト外のデータを対象に,本手法で共有化できるデータがどの程度あるか調査する。
これらの活動を通じ,大規模な会話コーパス開発のための足掛かりとする。