モニター公開データの内容
モニター公開データの利用条件等
モニター公開データの申し込み方法
モニター公開データに関するQ&A
「コーパス日本語学ワークショップ」開催と研究発表募集のお知らせ
現在構築中の「現代日本語書き言葉均衡コーパス」のうち、著作権処理が済んだサンプルについて、学術研究利用に限定してデータを公開します。モニター公開の目的は、実際にデータを使ってもらうことにより、コーパスの構築や活用に有益なフィードバックを得ること、及び、コーパスによる言語研究の普及を促すことの二つです。
モニター公開データの受け付けは、2011年(平成23年)3月末で終了しました。
モニター公開データの内容
モニター公開データは、DVDディスクで提供します。その中には以下の1~4のファイルが納められています。
1. サンプルの種類とファイル形式
- 書籍
- 約3,000万語(10,423サンプル)(プレーンテキスト/XMLファイル)
- 白書
- 約480万語(1,500サンプル)(プレーンテキスト/XMLファイル)
- Yahoo!知恵袋
- 約520万語(45,725サンプル)(プレーンテキスト)
- 国会会議録
- 約490万語(159サンプル)(プレーンテキスト)
ファイルの形式は、プレーンテキスト(タグ無し)及びXMLファイル(タグ有り)です。書籍と白書は両方の形式のファイルがありますが、Yahoo!知恵袋と国会会議録は、プレーンテキストだけの提供です。また、書籍は、構築途中であるため、XMLファイルの数はプレーンテキストよりもやや少なくなっています。
2. 全文検索システム「ひまわり」
上記1のサンプルをまとめて検索することができます。検索結果には、検索対象語、前文脈、後文脈、書誌情報、著者情報等が表示されます。検索には正規表現が使えます。「ひまわり」の詳細については、以下のサイトをご参照ください。
3. 各種情報
サンプルの属性として、以下の3種類の情報を収録しています。
- 書誌情報(サンプルを抽出した原本のタイトル、著者、出版年、ISBN、NDC、Cコードなど)
- サンプル情報(サンプルID、原本におけるサンプルの抽出位置、著作権許諾状況等)
- 著者情報(著者ID、著者名、性別、生年代)
4. コアデータ
『現代日本語書き言葉均衡コーパス』の一部について、短単位による解析結果を人手で修正し、解析精度を99%以上にした「コアデータ」を収録しました。コアデータは、書籍(20万語)、白書(20万語)、新聞(30万語)、Yahoo!知恵袋(10万語)という構成になっています。
なお、「短単位」についてはこちらをご参照ください。
モニター公開データの利用条件等
- モニター公開データを配布する対象者は、研究機関(企業の研究開発部門を含む)あるいは大学等の教育機関に所属する個人研究者(名誉教授を含む。学生の場合は大学院生に限る)の方です。
- モニター公開データの利用は、研究目的に限ります。商用利用はできません。
- モニター公開データは、BCCWJの正式公開までの期間限定での利用になります。ただし、利用期限後にモニター公開データを利用した結果に基づく研究発表、論文執筆を行うことは差し支えありません。
- 利用に当たっては、利用条件等の詳細を記した誓約書を提出していただきます。
- モニター公開データは無償でお使いいただけますが、誓約書やDVDディスクの送付にかかわる費用(送料)は利用者がご負担ください。
- モニター公開データの配布を受けた方は、そのデータを利用した研究成果を積極的に発表してください。
モニター公開データの申し込み方法
- 「誓約書」を以下のリンクからダウンロードして、必要事項(氏名、ご所属、ご自宅住所、メールアドレス、記入した日付等)を書き入れ、押印したのち、以下のあて先に郵送してください(FAXは不可)。〔誓約書は両面印刷でお願いします。〕
■誓約書へのリンク(クリックして下さい)
誓約書の送付先:
〒190-8561 東京都立川市緑町10-2 国立国語研究所
「書き言葉コーパス」担当
(参考)
・誓約書の別添文書1「研究成果における再配布の制限」
・誓約書の別添文書2「Yahoo! 知恵袋データの利用条件」 - 誓約書受理後、モニター公開データを送料の着払いでお送りします(送料は申し込まれた方がご負担ください)。お申し込みが多い場合は、送付が遅れることがあります。なお、記載事項についてご確認させていただく場合がありますことをご了承ください。
- お申し込みいただいても、ご希望に添えない場合があります。あしからずご了承ください。
- 誓約書に記載いただいた連絡先等の個人情報は、国立国語研究所が適切に管理し、モニター公開データに関する連絡、及び、モニター公開データの利用実態の把握の目的以外には使用しません。
モニター公開データに関するQ&A
- Q.日本国外からの申し込みは可能ですか?
- A.可能です。国外へのモニター公開データの送付は着払いではなく、国語研究所が送料を負担します。
- Q.同一の組織に所属する複数の人が使用する場合、代表の一人が申し込めばよいでしょうか?
- A.お申し込みの単位は個人になっておりますので、お手数ですが、使用される方全員がそれぞれお申し込みください。科研費のメンバー間で利用するような場合も、利用する方それぞれがお申し込みください。
- Q.誓約書を送付してからどれくらいでデータが届きますか?
- A.誓約書の受理からデータの発送までは,約2週間~1か月程度かかります。1か月以上たってもデータが届かない場合はお問い合せ下さい。
「コーパス日本語学ワークショップ」開催と研究発表募集のお知らせ
国立国語研究所言語資源研究系では以下の日程で「コーパス日本語学 ワークショップ」を開催します。このワークショップは現在国立国語 研究所言語資源研究系で進められている各種共同研究プロジェクトの 成果を公開形式で報告するとともに,研究発表を広く一般公募するこ とによって,コーパス日本語学ないし日本語言語資源研究の開かれた 研究交流の場を提供しようとするものです。
■名 称:コーパス日本語学ワークショップ
■開 催 日:2012年3月5日(月)~6日(火)
■場 所:国立国語研究所(東京都立川市)
■アクセス:http://www.ninjal.ac.jp/utility/access/
■主 催:国立国語研究所言語資源研究系・コーパス開発センター
■参加費:無料
研究発表ご希望の方は以下をご参照下さい。
■応募資格:
どなたでも応募できます。
■発表内容:
『現代日本語書き言葉均衡コーパス』『日本語話し言葉コーパス』 『太陽コーパス』等のコーパスないし言語資源に依拠した調査研究, あるいは日本語に関連する言語資源の設計,実装に関する研究。 ※国立国語研究所が開発したコーパスを用いた研究に限定される わけではありません。
■発表形式:ポスター発表のみ(ただし予稿集を作成します)
■主要日程:
2011年12月29日(木) 応募締め切り
2012年 1月 5日(木) 採否の通知
2012年 1月31日(火) 予稿集用完成原稿締め切り
2012年 3月 5日(月)ないし6日(火),ポスター発表
■応募手続:
(1)(1)2011年12月29日(木)までに,発表タイトル,お名前,御所属,
肩書(教員,大学院生等の別),400字程度の発表要旨を以下の
受付メールアドレスに送って下さい。
・受付メールアドレス:kotonoha@ninjal.ac.jp
(@を半角に変えてください。)
(2)採択された場合は,2012年1月31日(火)までに予稿集用の完成 原稿を上記受付メールアドレスに添付ファイルで送って下さい。 ファイルはMSWordファイルとPDFの両方(TeXの方はPDFのみ)を作 成し,A4判で4~10枚(ただし偶数ページで)。PDFにはフォントを すべて埋め込んで下さい。書式は以下のファイル及び見本を参考 にして下さい。
■注意事項:
発表者に対し主催者側が旅費交通費等の費用を支給することはありません。
■お問い合せは,上記の受付メールアドレスまでお願いします。
