開かれた共同構築環境による通時コーパスの拡張

プロジェクトリーダー
小木曽 智信 (国立国語研究所 教授)
実施期間
2022年4月~

概要

研究目的

国語研で構築を行ってきた通時コーパスである『日本語歴史コーパス』には、これまでに万葉集の時代から明治・大正時代までの日本語の資料が収録されています。インターネット上で無償で公開されており、研究者をはじめとする多くの人々に利用されてきました。今では、日本語の歴史研究に欠かすことのできない資料となりつつあります。

主要な資料はすでにコーパスに含まれているものの、研究に必要とされる資料はまだまだたくさんあります。また、公開済みのコーパスにはまだ修正が必要な点も残されています。そこで、このプロジェクトでは、これまでの通時コーパスプロジェクトを継承して、まだ不足している資料を追加し、このコーパスを拡張していきます。

一方、さらに多くの資料を対象とするには、異なる時代のさまざまな資料の専門家の力が必要であり、国語研のプロジェクトの範囲で行うことには限界があります。そこで、このプロジェクトでは、国語研の外部の人達が作ったデータを国語研のコーパスと同様に利用できるようにするための、開かれた共同構築環境を整備します。

さらに、これまでに構築された通時コーパスを用いて、近年発展の著しい自然言語処理の方法を応用した日本語の歴史研究に取り組みます。

Corpus of Historical Japanese
『日本語歴史コーパス』

研究計画・方法

上記の3つの目的に対応して、3つの研究班を置いて研究に取り組みます。

一つ目は、『日本語歴史コーパス』拡張班です。 2021年度までの「通時コーパスの構築と日本語史研究の新展開」プロジェクトを引き継ぎ、『日本語歴史コーパス』の拡張を行って通時コーパスとしての完成度を高めていきます。特に、多くの資料が残されている江戸時代以降の資料から重要なものを選んでコーパスにしていく計画です。さらに、科研費プロジェクトと共同で中世の「抄物」のコーパス化に取り組むほか、昭和・平成時代のデータも収録していきます。オックスフォード大学と共同で NINJAL 上代日本語コーパス (ONCOJ) の整備も行います。

二つ目は、開かれたコーパス共同構築環境の下でコーパスの構築・整備を行う OpenCHJ 研究班です。これまでに国語研で行ってきたコーパス構築のノウハウを活かし、構築のために必要なツールや、標準となるデータ形式・ライセンスなどのコーパス構築のガイドラインを整備します。たとえば、さまざまな時代の日本語資料の形態素解析ができる「Web 茶まめ」を拡張して、自分が作ったデータをコーパスとして公開できる形にするためのサポートを行います。これによって、外部の研究者や通時コーパスに関心を持つ一般の方でも、『日本語歴史コーパス』と同じようなインターフェイスによりインターネット上で資料を公開することができるようにしていきます。また、コーパス検索アプリケーション「中納言」からコーパスの誤りを報告するシステムを運用し、利用者の力を集めてコーパスの精度の向上を進めます。これらの取組により、学界全体で日本語の通時コーパスを充実させていきます。そのための講習会の開催やガイドブックの刊行も計画しています。

三つ目は、日本語史研究への自然言語処理応用班です。統計数理研究所など異分野の研究者とともに、統計モデルを用いた言語変化のメカニズムの解明や、コーパスからの歴史的言語変化の抽出、さらにはニューラル機械翻訳の技術を用いた古文の現代語訳などの、通時コーパスを活用した新しい研究課題に挑戦します。このほか『日本語歴史コーパス』に対する分類語彙表に基づく意味情報の付与の研究を行います。

diachronic corpus
投稿をシェアする
note