多世代会話コーパスに基づく話し言葉の総合的研究

プロジェクトリーダー
小磯 花絵 (国立国語研究所 教授)
実施期間
2022年4月~
関連サイト
多世代会話コーパスに基づく話し言葉の総合的研究

概要

研究目的

私たちが日常生活で用いる話し言葉は、乳幼児期だけでなく、幼少期、学童期、青年期、成人初期、壮年期、老年期と、年齢とともに変化していきます。こうした多世代に渡る話し言葉の実態を捉えるには、さまざまな話者の日常会話を収録した話し言葉のコーパスが不可欠です。

国立国語研究所で開発を進め、2022年3月に公開した『日本語日常会話コーパス』には、多様な話者による日常会話200時間が含まれています。このコーパスを活用することで、いろいろなことがわかります。

例えば、このコーパスを用いて、私たちが友人知人と話す場合に、どの程度の割合で丁寧体・普通体を用いるかを、年齢別に調べてみました (以下図参照)。図から、10代の未成年者はほとんど丁寧体を用いないのに対し、年齢が上がり社会に出て経験を踏むにつれ、丁寧体の使用率が上がって行くことが分かります。しかし60歳以上になると丁寧体の使用率は落ちます。高齢者の場合、話す相手が同世代か年下になること、また、新たな付き合いが減りこれまで付き合いのあった親しいもの同士での会話が多くを占めていることなどが関係していると考えられます。

このように言葉の使い方は、子どもの成長とともに変わるだけでなく、大人になっても、その人をとりまく社会環境などによって大きく変わっていきます。このプロジェクトでは、こうした多世代に渡る言葉の変化を、コーパスを活用して実証的に明らかにしていきます。

Usage rate of polite and non-polite forms by age
年齢別に見た丁寧体・普通体の使用率
(女性が友人知人を対象に会話した場合)

研究計画・方法

『日本語日常会話コーパス』には、延べ1500人以上の多様な話者による日常会話が含まれていますが、成人の調査協力者に会話の収録を依頼したため、未成年者、特に10歳未満の子どもの会話が少ないという問題があります。そこでこのプロジェクトでは、子どもを中心とする会話を収録したコーパスを新たに開発します。

これまで構築されてきた幼児・子どものコーパスは、母子間の会話など家族間の会話が中心でした。しかし子どもの成長とともに、親戚や友達、幼稚園での先生との会話など多様な場面・相手との会話が増えていきます。そこで、家庭での会話を中心としつつ、それ以外の場面・相手との会話も収録した映像付きのコーパスを構築します。また、幼稚園や小学校などでの会話も収録する予定です。こうして子ども中心の会話コーパスを拡充し、成人中心の『日本語日常会話コーパス』と合わせることによって、乳幼児、子どもから高齢者まで多世代に渡る言葉の発達・変化を分析していきます。

収録した会話音声は文字化した上で、自動で単語に区切り、品詞や読み、見出しの情報などを付与し、さらに人手による修正を加えます。コーパスは、コーパス検索アプリケーション「中納言」 (以下図参照) で公開します。品詞情報などを組み合わせた高度な検索ができ、検索対象の音声を視聴することができます。また、映像・音声を含む生のデータも別途公開して研究に利用します。

Chunagon
オンライン検索システム「中納言」の検索画面
Recording of conversations
会話収録の様子

プロジェクトの構成員

投稿をシェアする
note