このプロジェクトは平成24年9月で終了しました。今後の更新予定はありません。

近代語コーパス設計のための文献言語研究 プロジェクトの詳細

研究目的

新国立国語研究所では,日本語の史的研究に幅広く活用できる通時コーパスを構築し,これを活用した日本語史研究を多彩に展開することが期待される。

基幹型 (Aタイプ) プロジェクトとして企画されている「通時コーパスの設計」が,古代から近世までの非常に長い期間を対象とした「通時コーパス」の設計を行うのに対して,本プロジェクトは,明治初年 (1868年) から第二次大戦終了 (1945年) までの比較的短い期間を扱う「近代語コーパス」の設計を行うための研究として位置付ける。「通時コーパス」に加えて「近代語コーパス」を設計するのは,(1) 「通時コーパス」及び「現代日本語書き言葉均衡コーパス」がカバーしない時代を補い,両者を接続する役割を担うこと,(2) 短い期間を濃い密度でとらえるタイプの史的コーパスも扱うことで,多様な方法による史的コーパス研究の発展に寄与すること,を目指すからである。

本研究は,言語資源研究系において3年計画で実施するが,本研究で設計した「近代語コーパス」は,次期計画において実際に構築に着手する予定であり,その構築プロジェクトは,コーパス開発センターで担当することを考えている。

研究計画・方法

本研究は,①コーパスを使えばどのような近代語研究が可能になるのか (コーパス近代語研究の開拓),②多種多様な近代語文献からどのような観点でコーパス化する文献を選定するのか (文献研究と文献選定),③コーパス化する文献の言語をどのように電子テキスト化し形態素解析を行うのか (文献言語の構造化と解析) の三点を中心に研究を進める。

①コーパス近代語研究の開拓は,国立国語研究所がすでに作成している雑誌等のコーパスや電子化テキストを用いて「近代語コーパス」の原型を試作し,これを使ってどのような新しい研究が可能になるのかを,国語研究所の研究者が事例を示し,議論する。なお,現有の言語資源には,「国定読本」 (1904~1949年,公開済み),「太陽コーパス」 (1895~1925年対象,公開済み),「近代女性雑誌コーパス」 (1894~1925年,公開済み),「明六雑誌」 (1874~1975年,未公開),「国民之友」 (1887~1888年,未公開)などがある。

②文献研究と文献選定は,重要な文献資料を分類してリスト化し,近代語の史的研究を行うコーパスに含めるべき文献をどのように選ぶかを研究する。文献の分類は,発行年,編著者,読者層,媒体,ジャンル,文体など多元的なものとし,日本語の変革期である近代語の実態が効果的にとらえられるコーパスを設計するための検討を重ねる。

③文献言語の構造化と解析は,「太陽コーパス」で試みた XML による構造化とタグ付けを検証するとともに,形態素解析辞書として公開済みの「近代文語Unidic」に語彙を増補するところから研究に着手する。現有の資源をコーパスとして利用し,近代文語Unidic による解析結果に基づいて語彙表などを作成する中で,近代語文献に対する適切な構造化の方法や形態素解析のあり方を議論していく。

共同研究員 (所属)

平成24年9月時点の所属です。

  • 岡島 昭浩(大阪大学)
  • 小野 正弘(明治大学)
  • 小島 聡子(岩手大学)
  • 島田 泰子(二松学舎大学)
  • 朱 京偉(北京外国語大学)
  • 張 元哉(韓国啓明大学)
  • 陳 力衛(成城大学)
  • 小木曽 智信(国立国語研究所)
  • 高田 智和(国立国語研究所)
投稿をシェアする
note