通時コーパスの構築と日本語史研究の新展開

略称
通時コーパス
プロジェクトリーダー
小木曽 智信 (国立国語研究所 言語変化研究領域 准教授)
キーワード
『日本語歴史コーパス』,形態素解析

概要

研究目的

現在,言語の研究一般において,コーパスに基づく実証的な研究が進められて成果を上げています。コーパスとはコンピューターに蓄えられた大規模な言語資料のことで,どのように言葉が使われているかがわかる用例を組織的に大量に集め,研究に必要な情報を付けたものです。過去の言語を研究するには,残された文献とそこに残された言葉の用例をもとに議論を進めるしかありません。日本語の歴史研究もそのように進められてきましたが,そこで使われる資料は,主に過去の文献を活字化した本と,その本の中で用例がどこにどれだけあるかをまとめた総索引でした。こうした資料は専門性が高く,誰もが使えるものではありませんでした。

こうした紙の資料をコーパスに置き換えることができるなら,日本語の歴史研究を新しい手法で展開していくことが可能になります。コーパスによる日本語史研究は一面ではこれまでの研究の流れを受け継ぎ時代に合わせて効率化するものですが,それだけに留まらず,できることの幅が大きく広がります。たとえば,現代語や諸外国語の研究で使われている統計的な手法を取り入れた言語研究が可能になります。また,コーパスにより多くの時代の多様な資料を扱うことが容易になることから,全体を見渡したマクロな視点からの研究が可能になります。さらにコーパスをインターネット上で公開することで,海外や他分野の研究者が日本語の歴史研究に参入することを促し,広い視野から日本語の歴史を研究することが可能になるでしょう。

このようなコーパスに基づく日本語史研究のためには,何よりもまず日本語の歴史を研究できる資料を集めたコーパスを作ることが必要です。すでに国立国語研究所では『日本語歴史コーパス』という名称でコーパスの構築に着手していますが,このプロジェクトでは,奈良時代から明治・大正時代までの主要な日本語史資料をコーパス化し,最終的に日本語の歴史をたどることのできる「通時コーパス」として完成させます。また,古辞書などコーパス以外の日本語史情報を扱う「語誌データベース」を整備して,コーパスの情報と関連付けて,言葉の歴史をたどることができるポータルサイトを公開します。そして,できあがったコーパスを活用して,各時代・各分野の研究グループごとに日本語の歴史研究を展開していきます。

研究計画・方法

このプロジェクトでは,通時コーパスを作る「コーパス構築班」と,語誌データベースとポータルサイトを作る「語誌データベース班」,コーパスやデータベースを活用して日本語史の研究を行う「コーパス活用班」の3つに分かれて研究活動を展開します。

コーパス構築班では,奈良時代から明治・大正時代までの様々な資料をコーパス化していきます。すでに着手・公開しているもの以外にも資料を選定し必要性が高く可能なものからコーパスに追加する予定です。コーパスはテキスト化して文書構造をタグ付けした後,形態素解析技術を用いて本文を全て単語に区切り,読み・品詞・見出しなどの情報 (形態論情報) を付与し,さらに人手による修正を加えています

できあがったコーパスはコーパス検索アプリケーション「中納言」で一般公開します。このサイトでは,各種の形態論情報を組み合わせた高度な検索が可能で,用例データをダウンロードすることができます。また底本や原文画像など,Web 上の各種データにリンクし,当該箇所の原文を確認できるようにします。

語誌データベース班では,古辞書・言語地図・言語記事のデータベース整備に取り組み,これらのデータベースとコーパスから得られる統計情報とをあわせて語誌情報のポータルサイトを作って公開します。このサイトから各種の言語資料へのリンクを行い,語誌研究の窓口となるようにします。

コーパス活用班では,上代,中古・中世,近世・近代などの時代別グループ,文法,語彙,資料性と文体,アノテーションなどの分野別の研究グループを置き,それぞれが研究発表会を行ってコーパスを活用した日本語史研究を展開します。各グループにはコーパス構築班のメンバーも参加して研究成果をコーパス構築にフィードバックします。ワークショップやシンポジウムなどを年1回以上開催して研究成果を報告するほか,コーパス活用の講習会を開いて,コーパス活用の裾野を広げるための活動も展開します。