このプロジェクトは平成25年10月で終了しました。今後の更新予定はありません。

統計と機械学習による日本語史研究

略称統計日本語史
プロジェクトリーダー小木曽 智信
国立国語研究所 言語資源研究系 准教授
研究分野日本語史
キーワード日本語史,自然言語処理,コーパス

概要

自然言語処理の技術が発展し,電子化辞書の整備が進んだことにより,従来は不可能であった歴史的資料を対象とした形態素解析が可能になった。これにより日本語史の分野においてもコーパスと統計的手法を活用した新しいタイプの研究が可能になりつつある。

本プロジェクトでは,機械学習の手法をもちいて日本語通時コーパスの整備に必要となる各種の技術を開発し,多様な日本語史資料に対する高度なアノテーションを可能にする。同時に,既存のツールを応用して日本語史研究のためのコーパス利用環境を整備する。そして整備したコーパスとその利用環境を用いて,多変量解析などの統計的手法に基づく新しい方法による日本語史研究に取り組む。

開発したソフトウェアと研究成果は一般に公開するとともに,国語研で計画中の通時コーパスの構築に活用する。