データ公開方式

オンライン公開A
オンライン公開B
DVD等によるデータ全体の公開
著作権者への謝礼
個人情報の保護

KOTONOHA計画で構築する現代日本語書き言葉均衡コーパスは、以下の方法で公開する予定です。

  1. オンライン公開A
  2. オンライン公開B
  3. DVD等によるデータ全体の公開

公開は、2011年(平成23年)4月以降を予定しています。

オンライン公開A

インターネット上でどなたでも利用していただける公開方法です。検索したい語やフレーズを入力すると、それを含む用例を検索して出力します。検索したいジャンル(新聞、雑誌、書籍など)や出版年代を指定する機能を提供しますが、以下のような制約も加えます。

  • 多数の用例が見つかっても、最大で500件までしか出力しません。
  • 出力する文脈の長さは検索対象語の前後それぞれ20文字程度で、収録するサンプルのごく一部にすぎません。
  • 正規表現を用いた複雑な検索文字列の指定はできません。

オンライン公開Aは、「オンライン試験公開」のサイトで体験できます。

無償オンライン公開

Page Top

オンライン公開B

日本語の研究者や辞書の作成者のように大量の用例を必要とするユーザーのための公開方式です。以下のような機能が利用できるようになります。

  • 利用時にユーザー認証を行います。登録者しか利用できません。
  • 多数の用例が見つかった場合でも、その全体をダウンロードできます。
  • 文脈を長めに(最大前後各100字程度まで)表示することができます。
  • 正規表現を利用して検索対象を詳細に指定することができます。
有償オンライン公開

Page Top

DVD等によるデータ全体の公開

情報処理技術研究者のように、書き言葉データベース全体を自力で解析したいユーザーのための公開方式です。すべてのデータをDVD等の媒体に記録して配布します。

  • すべてのデータにアクセスできます。
  • データの再配布はできません。
  • データの利用に先だって、著作権保護のために国立国語研究所との間に利用契約を締結していただきます。

Page Top

著作権者への謝礼

コーパスに含まれるテキストの大部分には著作権が存在します。著作権者の方々には無償での利用許諾をお願いしています。利用を承諾していただいた方には薄謝として図書カードをお送りしています。

Page Top

個人情報の保護

個人情報保護法に抵触する情報があればテキストの該当部分を伏せ字とします。場合によってはサンプル全体を除外することも行います。

個人情報保護法には抵触しなくても、著作権者からの希望があれば、情報の一部を伏せ字とします。例えば新聞社から要請があれば、新聞記事中の「~容疑者」「~被害者」等の実名部分を伏せ字にします。

Page Top / KOTONOHA HOME