国立国語研究所の言語コーパス整備計画KOTONOHA

言語コーパスとは何か、どのように役立つか
日本語コーパスの問題点は何か
KOTONOHA:国語研究所のコーパス開発計画
現代日本語書き言葉均衡コーパスの特徴

言語コーパスとは何か、どのように役立つか

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものを言語コーパス (language corpus)と呼びます。コーパスは1960年頃から言語研究のために構築されるようになりましたが、近年では狭い意味での言語学の領域を超えて、幅広い研究領域で利用されるようになってきました。また学術目的での利用だけでなく、産業界でも利用されています。下の表は、コーパスがどのように利用されるかをまとめたものです。もちろん、このほかに、日本語に興味をもつ個人が、言葉に関する疑問を解消するためにコーパスを利用することも考えられます。KOTONOHAの公開方式についてはここをご覧ください。

分 野 利用目的
言語研究 言語学、日本語学、国語学など個別言語の研究
複数言語のコーパスの比較による対照言語学
情報処理 音声自動認識のための言語モデル、音響モデルの構築
自然言語処理のための言語モデルの構築
音声素片の編集に基づく音声合成
言語教育 外国人のための日本語教材開発
日本人のための教材開発
言語政策 常用漢字表を検討するための基礎資料
公用文表記法の見直しの基礎資料
辞書編纂 用例の検索
語の共起関係の把握
心理学 言語に関する実験の設計、刺激の統制

Page Top

日本語コーパスの問題点は何か

日本語コーパスの最大の問題点は、日本語の全体をバランスよく反映したコーパスがないことです。例えば、新聞社の中には過去の記事を全文データベースとして有償で公開しているところがあり、その総量は数億語にのぼります。しかし、新聞記事だけでは、たとえ対象を書き言葉だけに限るとしても、日本語の全体像を把握することはできません。雑誌記事の日本語は新聞記事とはどこかで明らかに異なっていますし、文学作品の日本語については言うまでもありません。小説などの文学作品については「青空文庫」関係者の努力によって、数多くの作品が万人に利用可能な形で公開されています。しかし、これらはいずれも著作権が消滅した作品ですから、少なくとも50年以上昔の日本語です。

現代日本語書き言葉の全体を把握するためのコーパスには、私たちの生きているこの時代に生産され、流通している「現代」日本語の実態を、何らかの基準に基づいてバランスよく反映した形で記録する必要があります。そのようなコーパスのことを、現代日本語の書き言葉均衡コーパスと呼ぶことにしましょう。

Page Top

KOTONOHA:国語研究所のコーパス開発計画

以下の図はKOTONOHAの全体像とこれから構築を開始する書き言葉均衡コーパスの関係を示しています。横軸は時間軸で、明治から現代までを示しています。縦軸は言葉のジャンルを示しており、上半分が書き言葉、下半分が話し言葉に該当します。KOTONOHAは図中の全領域を対象としますが、全体を単一のコーパスとして一気に実現することはできませんので、適当なまとまりごとに要素となるコーパスを構築することによって、段階的に整備を進めます。

図中の楕円は既に構築を終了して一般に公開しているコーパスです。左上の「太陽」と右下の「CSJ」の二つがあります。「太陽」は戦前の日本で広く読まれた博文館の総合雑誌「太陽」の全文テキストコーパスで、総量は約700万語です(1895, 1901, 1909, 1917, 1925の5年分が対象となっています)。近代日本語の書き言葉が文語体から口語へと移行した時期の日本語を研究するための貴重なコーパスです。太陽コーパスの詳細はここをご覧ください。

「CSJ」とはCorpus of Spontaneous Japaneseすなわち「日本語話し言葉コーパス」を意味しており、モノローグを中心とする現代日本語の自然な話し言葉のコーパスです。CSJには 662時間、およそ752万語分の音声が記録されており、音声を提供している話し言葉コーパスとしては世界最大規模のコーパスとなっています。また研究用情報が非常に豊富に提供されていることもCSJの特徴です。CSJの詳細についてはここをご覧ください。

KOTONOHA:国語研究所のコーパス開発計画

さて、図の右上の赤い四角形が、現在構築中の現代日本語書き言葉均衡コーパスです。このコーパスはここ25~30年の間に出版された日本語の書き言葉を対象とするもので、規模としては1億語以上を目標にしています。実際には3種類のサブコーパスから構成されており、その合計で1億語を突破することを目標としています。現代日本語書き言葉均衡コーパスの設計についてはここをご覧ください。

現代日本語書き言葉均衡コーパスが完成しても、上の図にはまだ多くの空白部分が残されています。例えば、1925年までをカバーしている太陽コーパスと現代日本語書き言葉均衡コーパスとの間には50年以上の空白期間があります。またCSJは主にモノローグを対象としていますので、現代の話し言葉のうち、対話や雑談についても空白があります。これらの空白を埋めていくことは、書き言葉均衡コーパスを完成させた後の大切な課題です。また、書き言葉均衡コーパスも将来にわたって定期的に拡張していく予定です。

Page Top

現代日本語書き言葉均衡コーパスの特徴

以下では現代日本語書き言葉均衡コーパスの仕様を説明します。

  • 対象は出版物として刊行された現代日本語の書き言葉です。
    • 従来から語彙調査の対象となってきた新聞、雑誌に加えて、書籍全般を対象にします。白書や教科書も対象とします。
    • 非公開の日記や私信の類は対象としません。
    • WEB上の文書についてはQ&A掲示板のテキストなど一部を対象とします。
    • 収録対象の刊行年代は、最大30年間(1976~2005)です。メインとなる書籍の場合は、1986~2005年になります。これはサンプリングのために必要とされるISBN(国際標準図書番号)が普及するようになった時期を対象としているためであって、言語学的な基準によったものではありません。
  • 上記の対象から原則として無作為にサンプルを抽出します。サンプリングの方法としては、対象とする期間に出版された出版物全体を母集団とする方法と、公共図書館に収蔵されている出版物を母集団とする方法の二種類を併用する予定です。コーパスの設計方針についてはここサンプリングの方法についてはここをご覧ください。
  • コーパスの規模としては1億語を目標としますが、実際には予算の獲得状況に応じて可能な限り大規模なコーパスを構築し、できるだけすみやかに公開していきます。
  • 抽出したサンプルには形態素解析(テキストを語に区切って品詞に分類すること)を施し、他の情報とともにXML文書に整形します。形態素解析についてはここを、電子化形式についてはここをご覧ください。
  • 開発期間は2006年度から5年間を予定しています。この期間に最低でも5000万語分を構築して公開する予定です。
  • コーパスを公開して、どなたにでも利用していただけるようにするため、著作権処理を実施します。サンプルの著作権者には、サンプルを無償で利用させていただくことをお願いしています。データの公開方式と著作権処理の方針についてはここをご覧ください。現代語書き言葉均衡コーパスは、1億語の目標値を達成してから後も定期的に拡張していく予定です。例えば毎年100万語程度のサンプルを追加していくような方式が考えられます。

Page Top / KOTONOHA HOME