| プロジェクトリーダー | : | 伝 康晴(でん やすはる) 国立国語研究所国立国語研究所言語資源研究系 客員教授 |
|---|---|---|
| 研究分野 | : | 言語資源研究系 |
| キーワード | : | コーパス,共有化,多様性 |
本研究の目的は,様々な機関・研究者が所有する既存の会話コーパスを対象に,共通の基本情報を付与し,相互利用可能な形で共有することである。とくに,会話の諸現象の普遍性と多様性をとらえるために,参加人数・参加者間の関係性・内容などが様々に異なるコーパス群の集積を目指す。
そのため,以下のことを行なう。
これらの活動を通じ,大規模な会話コーパス開発のための足掛かりとする。
森本郁代(関西学院大学),大場美和子(広島女学院大学),鈴木佳奈(広島国際大学),小磯花絵(国立国語研究所),菊池英明(早稲田大学),鈴木亮子(慶應義塾大学),長岡千賀(京都大学),森大毅(宇都宮大学),吉田悦子(三重大学)
土屋智行(国立国語研究所・言語資源研究系),山本真理(北海道大学大学院国際広報メディア・観光学院)
近年の電子化文書の普及により,書き言葉コーパスの構築は飛躍的な発展を見せている。言語資源研究系・コーパス開発センターでは,1億語を超える規模の『現代日本語書き言葉均衡コーパス』を開発し,さらに100億語を超える規模のWebコーパスの開発を目指している。これに対して,話し言葉コーパスは,音声収録・転記など開発の初期段階での負担が大きく,学会講演や模擬講演などの独話を中心とする『日本語話し言葉コーパス』を除いて,大規模なものは存在しない。とくに我々の日常の言語行動の中心である会話に関しては,個々の研究プロジェクトごとに小規模なデータを独自に収集・利用している状態を脱していない。
これに対する一つの解決策として,本研究では,既存の会話コーパスの共有化という方式に着目する。小規模データを所有する研究プロジェクトは多くあり,それらは音声収録・転記の段階を終え,負担の大きい初期のハードルをクリアしているものがほとんどである。しかし,転記基準は不統一であり,韻律情報や発話機能など会話研究に必要な基本情報は必ずしも完備していない。そこで,これらの基本情報に関する共通のアノテーションを施し,相互利用可能な形でデータを共有する。
将来的には,より大規模な会話コーパスの開発を目指し,言語資源研究系・コーパス開発センターが推進しているKotonoha計画の「対話・雑談」コーパスの構築へとつなげたい。
上記の目標を達成するため以下のことを行なう。
本研究では,会話の諸現象の普遍性と多様性をとらえるために,参加人数・参加者間の関係性・内容などが様々に異なるコーパス群の集積を目指す。そのためまず,各共同研究者が所有するデータ(下表)を対象として,転記基準や音質・付加情報などを調査し,共有化の上での問題点を洗い出す。
| 名称 | 人数 | 関係性 | 内容 | 担当 |
|---|---|---|---|---|
| 千葉大3人会話 | 3人 | 友人 | 雑談 | 伝 |
| 日本語話し言葉コーパス | 2人 | 初対面(一方はプロ) | インタビュー | 小磯 |
| NICT合意形成対話 | 2/3人 | 知り合い/初対面 | 課題指向 | 森本 |
| NICT自由対話 | 2/3人 | 知り合い/初対面 | 雑談 | 森本 |
| 言語接触場面3人会話 | 3人 | 知人(一人は非母語話者) | 雑談 | 大場 |
| 新聞販売店会話 | 2人 | 店員と顧客 | ビジネスコール | 鈴木佳 |
| 早稲田大自由対話 | 2人 | 友人(ゼミ配属前/後) | 雑談(対面/非対面) | 菊池 |
| Pac Rimコーパス | 2/3人 | 友人/家族 | 雑談 | 鈴木亮 |
| JPNコーパス | 2/3人 | 友人/家族 | 雑談(方言あり) | 鈴木亮 |
| 宇都宮大音声対話DB | 2人 | 友人 | 課題指向 | 森 |
| 三重大地図課題対話 | 2人 | 知り合い/初対面 | 課題指向 | 吉田 |
| タングラムパズル対話 | 2人 | 知り合い/初対面 | 課題指向 | 吉田 |
| 北大2人会話 | 2人 | 先輩後輩(一方は非母語話者) | 雑談 | 山本 |
二重線より下は主要担当者以外の共同研究者・研究協力者のデータ
(1)の調査に基づき,共通に付与できる基本情報(下表)の仕様を策定し,マニュアルとしてまとめる。
| 基本情報 | 説明 | 予想される問題点 | 主担当 |
|---|---|---|---|
| 転記 | 発話内容の文字化 | 非流暢性の符号化や基本単位の不統一 | 伝・小磯 |
| 形態論情報 | 単語分割・品詞 | 自動解析の可否 | 伝 |
| 韻律情報 | 発話末音調など | 音質により主観的付与に限定される | 小磯 |
| 発話機能 | 談話行為・宛て先など | 従来は課題指向対話が主な対象 | 森本・伝 |
| 局所構造 | 隣接ペア・発話交換構造 | 多人数会話への拡張 | 大場・森本 |
| 連鎖構造 | 先行連鎖・修復連鎖など | これまで明確に策定された基準はない | 鈴木佳・大場 |
(2)で策定された仕様に基づき,各コーパスに基本情報を付与する。発話機能・局所構造・連鎖構造は相互に深く関係しているため,これらの情報付与は熟練した非常勤研究員が集中して行なう。作成したデータはサーバ上で管理し,共同研究者間で共有する。
(3)の共有コーパスを用いて,各共同研究者がこれまで行なってきた研究テーマ(話者交替・あいづち・連鎖構造・成員カテゴリー化など)に関する基礎的分析を行なう。とくに,様式が異なるコーパス間の普遍性と多様性を明らかにする。これによって,多様な様式の会話コーパスを共有することの有効性を確認する。
本プロジェクトの共同研究者が所有する以外の会話コーパスについて,(1)と同様の調査を行ない,本手法で共有化できるデータがどれくらいあり,どの程度の多様性を網羅できるか調査する。これによって,より大規模な会話コーパスを設計する際の指針とする。
これらの研究を進めるために,年3回(23・26年度は年2回)の全体会合を行なう。それ以外に,伝は各担当者とのサブグループ会合を適宜行ない,進捗状況を確認する。
| 開催日時 | 開催場所 | 開催案内 | 開催概要 |
|---|---|---|---|
| 平成23年12月11日(13:00-17:30) | 国立国語研究所 | 非公開 | |
| 平成23年11月23日(13:00-18:00) | 国立情報学研究所 | 非公開 |