コーパスアノテーションの拡張・統合・自動化に関する基礎研究

プロジェクトリーダー
浅原 正幸 (国立国語研究所 コーパス開発センター 教授)

概要

形態論情報つきコーパスの整備が進む中,より高次の情報を付与することが言語研究において求められている。コーパス開発センターは,統語・意味・音声の三つの班により,既存のアノテーションの拡張手法,複数のアノテーションの統合手法,またその自動化の基礎研究を行う。

統語班は,文節係り受け・述語項構造・節境界に関する研究と,統語アノテーションの国際化プロジェクトである Universal Dependencies プロジェクトに参画し,言語資源整備を進める。意味班は,『分類語彙表 (増補改訂版) 』を中心とした拡張として,UniDic 語彙素番号-分類語彙表番号対応表 (現代・古典) や『現代日本語書き言葉均衡コーパス』 (BCCWJ),『日本語歴史コーパス』 (CHJ) に対する分類語彙表番号アノテーションを行う。音声班は,『日本語話し言葉コーパス』 (CSJ) に対する声質情報自動付与,調音運動データベースの設計,音声・テキスト自動アライメントの精度向上とともに,形態論情報と同期した音声ブラウジング環境の開発を行う。