トップ> 共同研究> 共同研究プロジェクト> 独創・発展型> 多様な様式を網羅した会話コーパスの共有化

多様な様式を網羅した会話コーパスの共有化

プロジェクトリーダー伝 康晴(でん やすはる)
国立国語研究所国立国語研究所言語資源研究系 客員教授
研究分野言語資源研究系
キーワードコーパス,共有化,多様性

概要

本研究の目的は,様々な機関・研究者が所有する既存の会話コーパスを対象に,共通の基本情報を付与し,相互利用可能な形で共有することである。とくに,会話の諸現象の普遍性と多様性をとらえるために,参加人数・参加者間の関係性・内容などが様々に異なるコーパス群の集積を目指す。

そのため,以下のことを行なう。

  1. 共同研究者が所有する会話コーパスを調査し,共有化の上での問題点を洗い出す。
  2. 共通に付与する基本情報の仕様を策定する。
  3. この仕様に基づき共通の基本情報を付与し,共同研究者間で共有する。
  4. 共有されたコーパスの基礎的な分析を通じ,多様な様式のコーパス共有の有効性を確認する。
  5. 本プロジェクト外のデータを対象に,本手法で共有化できるデータがどの程度あるか調査する。

これらの活動を通じ,大規模な会話コーパス開発のための足掛かりとする。

共同研究者(所属)

森本郁代(関西学院大学),大場美和子(広島女学院大学),鈴木佳奈(広島国際大学),小磯花絵(国立国語研究所),菊池英明(早稲田大学),鈴木亮子(慶應義塾大学),長岡千賀(京都大学),森大毅(宇都宮大学),吉田悦子(三重大学)

研究協力者

土屋智行(国立国語研究所・言語資源研究系),山本真理(北海道大学大学院国際広報メディア・観光学院)

研究目的

近年の電子化文書の普及により,書き言葉コーパスの構築は飛躍的な発展を見せている。言語資源研究系・コーパス開発センターでは,1億語を超える規模の『現代日本語書き言葉均衡コーパス』を開発し,さらに100億語を超える規模のWebコーパスの開発を目指している。これに対して,話し言葉コーパスは,音声収録・転記など開発の初期段階での負担が大きく,学会講演や模擬講演などの独話を中心とする『日本語話し言葉コーパス』を除いて,大規模なものは存在しない。とくに我々の日常の言語行動の中心である会話に関しては,個々の研究プロジェクトごとに小規模なデータを独自に収集・利用している状態を脱していない。

これに対する一つの解決策として,本研究では,既存の会話コーパスの共有化という方式に着目する。小規模データを所有する研究プロジェクトは多くあり,それらは音声収録・転記の段階を終え,負担の大きい初期のハードルをクリアしているものがほとんどである。しかし,転記基準は不統一であり,韻律情報や発話機能など会話研究に必要な基本情報は必ずしも完備していない。そこで,これらの基本情報に関する共通のアノテーションを施し,相互利用可能な形でデータを共有する。

将来的には,より大規模な会話コーパスの開発を目指し,言語資源研究系・コーパス開発センターが推進しているKotonoha計画の「対話・雑談」コーパスの構築へとつなげたい。

研究計画・方法

上記の目標を達成するため以下のことを行なう。

(1) 共同研究者が所有する会話コーパスの調査

本研究では,会話の諸現象の普遍性と多様性をとらえるために,参加人数・参加者間の関係性・内容などが様々に異なるコーパス群の集積を目指す。そのためまず,各共同研究者が所有するデータ(下表)を対象として,転記基準や音質・付加情報などを調査し,共有化の上での問題点を洗い出す。

名称人数関係性内容担当
千葉大3人会話3人友人雑談
日本語話し言葉コーパス2人初対面(一方はプロ)インタビュー小磯
NICT合意形成対話2/3人知り合い/初対面課題指向森本
NICT自由対話2/3人知り合い/初対面雑談森本
言語接触場面3人会話3人知人(一人は非母語話者)雑談大場
新聞販売店会話2人店員と顧客ビジネスコール鈴木佳
早稲田大自由対話2人友人(ゼミ配属前/後)雑談(対面/非対面)菊池
Pac Rimコーパス2/3人友人/家族雑談鈴木亮
JPNコーパス2/3人友人/家族雑談(方言あり)鈴木亮
宇都宮大音声対話DB2人友人課題指向
三重大地図課題対話2人知り合い/初対面課題指向吉田
タングラムパズル対話2人知り合い/初対面課題指向吉田
北大2人会話2人先輩後輩(一方は非母語話者)雑談山本

二重線より下は主要担当者以外の共同研究者・研究協力者のデータ

(2) 共通の基本情報の仕様策定

(1)の調査に基づき,共通に付与できる基本情報(下表)の仕様を策定し,マニュアルとしてまとめる。

基本情報説明予想される問題点主担当
転記発話内容の文字化非流暢性の符号化や基本単位の不統一伝・小磯
形態論情報単語分割・品詞自動解析の可否
韻律情報発話末音調など音質により主観的付与に限定される小磯
発話機能談話行為・宛て先など従来は課題指向対話が主な対象森本・伝
局所構造隣接ペア・発話交換構造多人数会話への拡張大場・森本
連鎖構造先行連鎖・修復連鎖などこれまで明確に策定された基準はない鈴木佳・大場

(3) 共通の基本情報の付与

(2)で策定された仕様に基づき,各コーパスに基本情報を付与する。発話機能・局所構造・連鎖構造は相互に深く関係しているため,これらの情報付与は熟練した非常勤研究員が集中して行なう。作成したデータはサーバ上で管理し,共同研究者間で共有する。

(4) 共有コーパスの基礎的分析

(3)の共有コーパスを用いて,各共同研究者がこれまで行なってきた研究テーマ(話者交替・あいづち・連鎖構造・成員カテゴリー化など)に関する基礎的分析を行なう。とくに,様式が異なるコーパス間の普遍性と多様性を明らかにする。これによって,多様な様式の会話コーパスを共有することの有効性を確認する。

(5) プロジェクト外の会話コーパスの調査

本プロジェクトの共同研究者が所有する以外の会話コーパスについて,(1)と同様の調査を行ない,本手法で共有化できるデータがどれくらいあり,どの程度の多様性を網羅できるか調査する。これによって,より大規模な会話コーパスを設計する際の指針とする。

これらの研究を進めるために,年3回(23・26年度は年2回)の全体会合を行なう。それ以外に,伝は各担当者とのサブグループ会合を適宜行ない,進捗状況を確認する。

共同研究発表会

開催日時 開催場所 開催案内 開催概要
平成23年12月11日(13:00-17:30) 国立国語研究所
平成23年11月23日(13:00-18:00) 国立情報学研究所