トップ> 共同研究> 共同研究プロジェクト> 萌芽・発掘型> 統計と機械学習による日本語史研究

統計と機械学習による日本語史研究

略称統計日本語史
プロジェクトリーダー小木曽智信
(国立国語研究所 言語資源研究系)
研究分野日本語史
キーワード日本語史,自然言語処理,コーパス

概要

自然言語処理の技術が発展し、電子化辞書の整備が進んだことにより、従来は不可能であった歴史的資料を対象とした形態素解析が可能になった。これにより日本語史の分野においてもコーパスと統計的手法を活用した新しいタイプの研究が可能になりつつある。

本プロジェクトでは、機械学習の手法をもちいて日本語通時コーパスの整備に必要となる各種の技術を開発し、多様な日本語史資料に対する高度なアノテーションを可能にする。同時に、既存のツールを応用して日本語史研究のためのコーパス利用環境を整備する。そして整備したコーパスとその利用環境を用いて、多変量解析などの統計的手法に基づく新しい方法による日本語史研究に取り組む。

開発したソフトウェアと研究成果は一般に公開するとともに、国語研で計画中の通時コーパスの構築に活用する。

共同研究者(所属)

小町 守(奈良先端科学技術大学院大学 情報科学研究科),岡崎 友子(就実大学人文科学部),内元 清貴(情報通信研究機構 総合企画部企画戦略室),Stephen Wright Horn(オックスフォード大学 東洋学部日本語研究センター),竹内 史郎(成城大学文芸学部),須永 哲矢(国立国語研究所 言語資源研究系),小林雄一郎

研究目的

言語資源研究系で基礎研究を行っている通時コーパスの構築には、さまざまな技術開発や研究手法の発展が必要とされる。技術開発の面では、形態素解析辞書こそ開発が進んでいるものの文節・長単位の解析は全く手つかずとなっている。また、歴史的資料は現代語と異なり、表記や語法の面で極めて多様であるため、濁点の自動付与や仮名遣いの整備などの形態素解析前のテキスト処理が必要となるほか、形態素解析辞書の分野適応が必要になっている。本プロジェクトの目的の一つは、自然言語処理技術を用いてこのような通時コーパス構築に必要な基盤を整備することである。さらに進んで、Oxford VSARPJ Corpusのアノテーションを活用し機械学習による構文情報の自動付与の可能性を探る。

研究手法の面では、従来の手作業による用例収集をベースとした方法を超えて、タグ付きコーパスから引き出した大量の用例をもとに統計的な処理を行う新しい研究手法が必要とされている。「茶器」などのコーパス利用ツールを歴史的資料に対応させて人文系研究者に利用しやすくするとともに、多変量解析等の手法を用いて実際の記述研究の成果としてまとめていくのがもう一つの目的である。

研究計画・方法

計画完了年まで、年2回の研究発表と3回以上の打ち合わせ会を開催し、おおむね次の分担で行う(詳細な作業分担は打ち合わせで決定する)。

形態素解析前処理技術の開発:小町・小木曽ほか

歴史的資料のテキスト整備に必要な「無濁点資料に対する濁点の自動付与」「仮名遣いの正規化」等の前処理技術を開発する。これにより従来は解析できなかった多様な資料の利用を可能にする。

歴史的資料を対象とした形態素解析辞書の領域適応:小木曽

既存の辞書と少量のコーパスを用いて様々な歴史的資料を解析可能な形態素解析辞書を開発する。

長単位解析器の開発:内元・小木曽ほか

現代語の長単位解析器をベースに歴史的資料の長単位解析の手法を開発する。これにより形態素解析を超えたより高度な情報を日本語史研究に利用することを可能にする。

構文情報タグの自動アノテーションとその応用:Horn・小町ほか

Oxford VSARPJ Corpusに付与される構文情報タグの一部について、機械学習の方法による自動アノテーションの可能性を検討するとともに、タグ付けした情報を応用して述語項構造の研究を行う。

コーパス利用ツール「茶器」の通時コーパスへの対応:小町・小木曽ほか

奈良先端科学技術大学院大学松本研究室で開発されているコーパス管理・利用ツール「茶器」を通時コーパスのデータに対応させる。これにより高度な情報が付与された形態素解析済みの歴史資料コーパスを人文系研究者に利用可能しやすくする。

コーパスと統計的手法を用いた語彙・文法研究:岡崎・竹内・須永・小木曽

新しいツールと統計的手法を用いて語彙・文法・文体分野の日本語史研究に取り組む。

共同研究発表会

開催日時 開催場所 開催案内 開催概要
平成23年9月2日(13:30-17:30) 就実大学
平成23年3月4日(14:00-17:00) 国立国語研究所