このプロジェクトは平成26年10月で終了しました。今後の更新予定はありません。
多様な様式を網羅した会話コーパスの共有化 プロジェクトの詳細
研究目的
近年の電子化文書の普及により,書き言葉コーパスの構築は飛躍的な発展を見せている。言語資源研究系・コーパス開発センターでは,1億語を超える規模の『現代日本語書き言葉均衡コーパス』を開発し,さらに100億語を超える規模のWebコーパスの開発を目指している。これに対して,話し言葉コーパスは,音声収録・転記など開発の初期段階での負担が大きく,学会講演や模擬講演などの独話を中心とする『日本語話し言葉コーパス』を除いて,大規模なものは存在しない。とくに我々の日常の言語行動の中心である会話に関しては,個々の研究プロジェクトごとに小規模なデータを独自に収集・利用している状態を脱していない。
これに対する一つの解決策として,本研究では,既存の会話コーパスの共有化という方式に着目する。小規模データを所有する研究プロジェクトは多くあり,それらは音声収録・転記の段階を終え,負担の大きい初期のハードルをクリアしているものがほとんどである。しかし,転記基準は不統一であり,韻律情報や発話機能など会話研究に必要な基本情報は必ずしも完備していない。そこで,これらの基本情報に関する共通のアノテーションを施し,相互利用可能な形でデータを共有する。
将来的には,より大規模な会話コーパスの開発を目指し,言語資源研究系・コーパス開発センターが推進している Kotonoha 計画の「対話・雑談」コーパスの構築へとつなげたい。
研究計画・方法
上記の目標を達成するため以下のことを行なう。
(1) 共同研究員が所有する会話コーパスの調査
本研究では,会話の諸現象の普遍性と多様性をとらえるために,参加人数・参加者間の関係性・内容などが様々に異なるコーパス群の集積を目指す。そのためまず,各共同研究員が所有するデータ (下表) を対象として,転記基準や音質・付加情報などを調査し,共有化の上での問題点を洗い出す。
名称 | 人数 | 関係性 | 内容 | 担当 |
---|---|---|---|---|
千葉大3人会話 | 3人 | 友人 | 雑談 | 伝 |
日本語話し言葉コーパス | 2人 | 初対面 (一方はプロ) | インタビュー | 小磯 |
NICT合意形成対話 | 2/3人 | 知り合い/初対面 | 課題指向 | 森本 |
NICT自由対話 | 2/3人 | 知り合い/初対面 | 雑談 | 森本 |
言語接触場面3人会話 | 3人 | 知人 (一人は非母語話者) | 雑談 | 大場 |
新聞販売店会話 | 2人 | 店員と顧客 | ビジネスコール | 鈴木佳 |
早稲田大自由対話 | 2人 | 友人 (ゼミ配属前/後) | 雑談 (対面/非対面) | 菊池 |
Pac Rimコーパス | 2/3人 | 友人/家族 | 雑談 | 鈴木亮 |
JPNコーパス | 2/3人 | 友人/家族 | 雑談 (方言あり) | 鈴木亮 |
宇都宮大音声対話DB | 2人 | 友人 | 課題指向 | 森 |
三重大地図課題対話 | 2人 | 知り合い/初対面 | 課題指向 | 吉田 |
タングラムパズル対話 | 2人 | 知り合い/初対面 | 課題指向 | 吉田 |
北大2人会話 | 2人 | 先輩後輩 (一方は非母語話者) | 雑談 | 山本 |
二重線より下は主要担当者以外の共同研究員・研究協力者のデータ
(2) 共通の基本情報の仕様策定
(1) の調査に基づき,共通に付与できる基本情報 (下表) の仕様を策定し,マニュアルとしてまとめる。
基本情報 | 説明 | 予想される問題点 | 主担当 |
---|---|---|---|
転記 | 発話内容の文字化 | 非流暢性の符号化や基本単位の不統一 | 伝・小磯 |
形態論情報 | 単語分割・品詞 | 自動解析の可否 | 伝 |
韻律情報 | 発話末音調など | 音質により主観的付与に限定される | 小磯 |
発話機能 | 談話行為・宛て先など | 従来は課題指向対話が主な対象 | 森本・伝 |
局所構造 | 隣接ペア・発話交換構造 | 多人数会話への拡張 | 大場・森本 |
連鎖構造 | 先行連鎖・修復連鎖など | これまで明確に策定された基準はない | 鈴木佳・大場 |
(3) 共通の基本情報の付与
(2) で策定された仕様に基づき,各コーパスに基本情報を付与する。発話機能・局所構造・連鎖構造は相互に深く関係しているため,これらの情報付与は熟練した非常勤研究員が集中して行なう。作成したデータはサーバ上で管理し,共同研究員間で共有する。
(4) 共有コーパスの基礎的分析
(3) の共有コーパスを用いて,各共同研究員がこれまで行なってきた研究テーマ (話者交替・あいづち・連鎖構造・成員カテゴリー化など) に関する基礎的分析を行なう。とくに,様式が異なるコーパス間の普遍性と多様性を明らかにする。これによって,多様な様式の会話コーパスを共有することの有効性を確認する。
(5) プロジェクト外の会話コーパスの調査
本プロジェクトの共同研究員が所有する以外の会話コーパスについて,(1) と同様の調査を行ない,本手法で共有化できるデータがどれくらいあり,どの程度の多様性を網羅できるか調査する。これによって,より大規模な会話コーパスを設計する際の指針とする。
これらの研究を進めるために,年3回 (23・26年度は年2回) の全体会合を行なう。それ以外に,伝は各担当者とのサブグループ会合を適宜行ない,進捗状況を確認する。
共同研究員/協力者 (所属)
平成26年10月時点の所属です。
共同研究員
- 大場 美和子(昭和女子大学)
- 菊池 英明(早稲田大学)
- 鈴木 佳奈(広島国際大学)
- 鈴木 亮子(慶應義塾大学)
- 長岡 千賀(追手門学院大学)
- 森 大毅(宇都宮大学)
- 森本 郁代(関西学院大学)
- 吉田 悦子(三重大学)
- 小磯 花絵(国立国語研究所)
研究協力者
- 遠藤 智子(日本学術振興会)
- 山本 真理(北海道大学大学院)
- 石本 祐一(国立国語研究所)
- 土屋 智行(国立国語研究所)