このプロジェクトは平成25年10月で終了しました。今後の更新予定はありません。
統計と機械学習による日本語史研究 プロジェクトの詳細
研究目的
言語資源研究系で基礎研究を行っている通時コーパスの構築には,さまざまな技術開発や研究手法の発展が必要とされる。技術開発の面では,形態素解析辞書こそ開発が進んでいるものの文節・長単位の解析は全く手つかずとなっている。また,歴史的資料は現代語と異なり,表記や語法の面で極めて多様であるため,濁点の自動付与や仮名遣いの整備などの形態素解析前のテキスト処理が必要となるほか,形態素解析辞書の分野適応が必要になっている。本プロジェクトの目的の一つは,自然言語処理技術を用いてこのような通時コーパス構築に必要な基盤を整備することである。さらに進んで,Oxford VSARPJ Corpus のアノテーションを活用し機械学習による構文情報の自動付与の可能性を探る。
研究手法の面では,従来の手作業による用例収集をベースとした方法を超えて,タグ付きコーパスから引き出した大量の用例をもとに統計的な処理を行う新しい研究手法が必要とされている。「茶器」などのコーパス利用ツールを歴史的資料に対応させて人文系研究者に利用しやすくするとともに,多変量解析等の手法を用いて実際の記述研究の成果としてまとめていくのがもう一つの目的である。
研究計画・方法
計画完了年まで,年2回の研究発表と3回以上の打ち合わせ会を開催し,おおむね次の分担で行う (詳細な作業分担は打ち合わせで決定する)。
形態素解析前処理技術の開発 : 小町,小木曽ほか
歴史的資料のテキスト整備に必要な「無濁点資料に対する濁点の自動付与」「仮名遣いの正規化」等の前処理技術を開発する。これにより従来は解析できなかった多様な資料の利用を可能にする。
歴史的資料を対象とした形態素解析辞書の領域適応 : 小木曽
既存の辞書と少量のコーパスを用いて様々な歴史的資料を解析可能な形態素解析辞書を開発する。
長単位解析器の開発 : 内元,小木曽ほか
現代語の長単位解析器をベースに歴史的資料の長単位解析の手法を開発する。これにより形態素解析を超えたより高度な情報を日本語史研究に利用することを可能にする。
構文情報タグの自動アノテーションとその応用 : Horn,小町ほか
Oxford VSARPJ Corpus に付与される構文情報タグの一部について,機械学習の方法による自動アノテーションの可能性を検討するとともに,タグ付けした情報を応用して述語項構造の研究を行う。
コーパス利用ツール「茶器」の通時コーパスへの対応 : 小町,小木曽ほか
奈良先端科学技術大学院大学松本研究室で開発されているコーパス管理・利用ツール「茶器」を通時コーパスのデータに対応させる。これにより高度な情報が付与された形態素解析済みの歴史資料コーパスを人文系研究者に利用可能しやすくする。
コーパスと統計的手法を用いた語彙・文法研究 : 岡崎,竹内,須永,小木曽
新しいツールと統計的手法を用いて語彙・文法・文体分野の日本語史研究に取り組む。
共同研究員 (所属)
平成25年10月時点の所属です。
- 内元 清貴(情報通信研究機構)
- 岡 照晃(日本学術振興会)
- 岡崎 友子(東洋大学)
- 小林 雄一郎(日本学術振興会)
- 小町 守(首都大学東京)
- 須永 哲矢(昭和女子大学)
- 竹内 史郎(成城大学)
- Stephen Wright HORN
(オックスフォード大学) - 冨士池 優美(国立国語研究所)