このプロジェクトは平成24年9月で終了しました。今後の更新予定はありません。
テキストの多様性を捉える分類指標の策定 プロジェクトの詳細
研究目的
コーパスに収録されるテキストに付与する,適切で有用な分類指標を設け,書籍テキスト10,000例以上に,分類指標の付与を行い,体系的に検証を行う。
- 『現代日本語書き言葉均衡コーパス』 (BCCWJ) 収録書籍テキストを対象に,「難易,主観・客観性,硬軟,丁寧さ,直接的な語り性」という,5観点の人手分類が重点課題。
- 難易度に関しては,機械処理と比較分析をし,難易度の基準の分析を行うとともに,自動付与の精度向上を目指す。
研究計画・方法
- 『現代日本語書き言葉均衡コーパス』の収録書籍テキストに対し,人手により下記,分類指標を付与する。
- 対象読者 (←難易)
1 専門家向き 2 やや専門的な一般向き 3 一般向き 4 中高生向き 5 小学生・幼児向き - 主観・客観性
1 とても客観的 2 どちらかといえば客観的 3 どちらかといえば主観的 4 とても主観的 - 文章の硬軟
1 とても硬い 2 どちらかといえば硬い 3 どちらかといえば軟らかい 4 とても軟らかい - 文章の丁寧さ
1 とても丁寧 2 どちらかといえば丁寧 3 どちらかといえばくだけている 4 とてもくだけている - 直接的な語り性
1 直接的な語り性あり 2 直接的な語り性なし
- 対象読者 (←難易)
- 約1,000字のテキストの4つ組に対する難易度の順位付けを人手で行い,機械処理判定と比較分析する。
共同研究員 (所属)
平成24年9月時点の所属です。
- 飯田 龍(東京工業大学)
- 大塚 裕子(はこだて未来大学)
- 奥村 学(東京工業大学)
- 佐藤 理史(名古屋大学)
- 佐渡島 紗織(早稲田大学)
- 椿本 弥生(はこだて未来大学)
- 徳永 健伸(東京工業大学)
- 沼田 寛(はこだて未来大学)
- 丸山 岳彦(国立国語研究所)