現代日本語書き言葉均衡コーパス設計の基本方針

均衡コーパスの必要性
均衡コーパス設計の基本方針
汎用コーパス設計上の問題点
現代日本語書き言葉均衡コーパスの構成
3種類のサブコーパス

均衡コーパスの必要性

日本語学における従来のコーパス言語学的な分析には以下のような問題点がありました。

  • 新聞CD-ROMや電子化された文学作品など手近な資料の分析に偏りがちであること
  • その資料が日本語のどの部分を代表していて、どの部分を代表していないかが明確でないこと
  • 従って、資料から得た情報にどれくらい妥当性があるか、どれくらい普遍性があるかが不明であること
  • 資料が公開されていないため、第三者による検証ないし再現ができないこと

Page Top

均衡コーパス設計の基本方針

このような問題を解決するために以下の方針に沿ったコーパスを設計します。

  1. 現代日本語の実態のできるだけ正確な縮図となるコーパス、いわゆる均衡コーパス(balanced corpus)とします。そのために統計的母集団からのランダムサンプリングを実施します。
  2. 現代日本語の実態というからには、母集団が狭すぎてはなりません。国立国語研究所が従来実施してきた語彙調査では、新聞、雑誌九十種、中学・高校教科書、TV放送、などをそれぞれ別個に扱ってきましたが、今後は、それらの全体に一般書籍をくわえ、さらにインターネット上の文書までも加えて、現代日本語の書き言葉全体をひとつの母集団とみなす観点が必要です。そのような母集団を用いることによって、日本語の言語学的な多様性を幅広く把握できる汎用コーパスを設計することができます。
  3. せっかくコーパスを構築しても、それを公開できなければ意味がありません。著作権処理を実施して、公開可能なコーパスを構築します。
  4. 国立国語研究所がこれまでに公開したコーパスともできるだけ互換性を保持することが望まれます。そこで、『日本語話し言葉コーパス』の解析単位との互換性を図ります。

Page Top

汎用コーパス設計上の問題点

コーパスに汎用性を持たせようとすると、幾つか問題が生じます。

  1. コーパスの利用目的によってサンプリングの仕様も異なってきます。従来の国立国語研究所の語彙調査のように、語彙の多様性を追求するためには、数十字程度の小さなサンプルを大量に抽出するのが好適ですが、談話分析や意味分析に使うためには、文脈の理解が大切であり、数千字規模の大きなサンプルが望まれます。
  2. そもそも現代日本語の「実態」とは何かという点も問題になりえます。下の図のように書き言葉の「生産」「流通」「受容」の各過程に注目することがありえるからです。これらはいずれも書き言葉の実態を捉える上で積極的な意味を持つ過程です。
汎用コーパス設計上の問題点

Page Top

現代日本語書き言葉均衡コーパスの構成

上記の問題を多少なりとも解決するために、性質の異なる3つのサブコーパスを構築します。生産実態(出版)サブコーパス、流通実態(図書館)サブコーパス、非母集団(特定目的)サブコーパスです。以下、それぞれのサブコーパスについて解説します。

現代日本語書き言葉均衡コーパスの構成

Page Top

3種類のサブコーパス

生産実態(出版)サブコーパス

上図の左上、赤色の部分が生産実態(出版)サブコーパスです。出版目録から得た情報に基づき母集団を設定し、そこからランダムに選ばれたサンプルを収録しています。書き言葉の生産の側面を把握するためのサブコーパスです。

生産実態(出版)サブコーパス
  • サブコーパスの規模は約3500万語。
  • 書籍、雑誌、新聞を収録対象とする。
  • 個々のサンプルの長さは、固定長(1000字)及び可変長(1万字を上限とする章や節のまとまり)の2種類。
  • 収録する資料の刊行年代は、2001~2005年。
  • サンプリングに関しては、一定期間(例えば1年)に生産された総文字数を推定し、そこから一定の抽出比でサンプルをランダム抽出する。文字数の推定のためには、新聞ならば任意の1週間分の紙面に現れる文字を実際に数え、そこから1年分の文字数を推定する。書籍の場合は、国立国会図書館の蔵書目録などをもとに書籍の総ページ数を数え、1ページあたりに含まれる平均文字数から総文字数を推定する。推定の際は版型の違いや日本十進分類の違いを考慮する。

流通実態(図書館)サブコーパス

上図の右上、紫色の部分が流通実態(図書館)サブコーパスです。単に出版されただけでなく、ある程度広い範囲に流通したことが確認されているテキストを対象とします。実際には、東京都下の公共図書館の協力を得て、その収蔵図書を母集団とみなし、そこからランダムに選ばれたサンプルを収録します。書き言葉の「流通」実態を把握するためのサブコーパスです。

  • サブコーパスの規模は約3000万語。
  • 書籍を収録対象とする。
  • 個々のサンプルの長さは、固定長(1000字)及び可変長(1万字を上限とする章や節のまとまり)の2種類。
  • 収録する資料の刊行年代は、1986~2005年。
  • 図書館サブコーパスにおける母集団は、出版サブコーパスにおける書籍の母集団と量を合わせる。これにより、ほぼ同じ抽出比でサンプルを獲得することができる。出版サブコーパスにおける書籍の母集団は文字数にして485.4億字と推定される。これにもっとも近いのが、東京都下の13自治体以上の図書館で共通に収蔵されている書籍の文字数(478.8億字)である。

サンプリング手法についての詳しい説明はここにあります。

非母集団(特定目的)サブコーパス

上図の下側、灰色の部分が非母集団(特定目的)サブコーパスです。ここには、日本語にとって重要でありながら上記2つのサブコーパスには含まれにくいデータや、差し迫った言語問題の解決に向けて国立国語研究所をはじめとする関係機関が利用するためのデータを収録します。

  • サブコーパスの規模は約3500万語。
  • 書籍、広報紙、Web上の書き言葉などを対象とする。
  • 個々のサンプルの長さは、可変長(1万字を上限とする章や節のまとまり)。一部の資料は、固定長(1000字)及び可変長(1万字を上限とする章や節のまとまり)。
  • 収録する資料の刊行年代は様々。最長1976~2005年。
  • ランダムサンプリングによらずサンプルを取得するものがある。

具体的には以下のようなデータを格納します。

白書、国会会議録、法律、検定教科書、ベストセラー、Web掲示板(Yahoo!知恵袋)

Page Top / KOTONOHA HOME