このプロジェクトは平成24年9月で終了しました。今後の更新予定はありません。

テキストの多様性を捉える分類指標の策定 プロジェクトの詳細

研究目的

コーパスに収録されるテキストに付与する,適切で有用な分類指標を設け,書籍テキスト10,000例以上に,分類指標の付与を行い,体系的に検証を行う。

  1. 『現代日本語書き言葉均衡コーパス』 (BCCWJ) 収録書籍テキストを対象に,「難易,主観・客観性,硬軟,丁寧さ,直接的な語り性」という,5観点の人手分類が重点課題。
  2. 難易度に関しては,機械処理と比較分析をし,難易度の基準の分析を行うとともに,自動付与の精度向上を目指す。

研究計画・方法

  1. 『現代日本語書き言葉均衡コーパス』の収録書籍テキストに対し,人手により下記,分類指標を付与する。
    • 対象読者 (←難易)
      1 専門家向き 2 やや専門的な一般向き 3 一般向き 4 中高生向き 5 小学生・幼児向き
    • 主観・客観性
      1 とても客観的 2 どちらかといえば客観的 3 どちらかといえば主観的 4 とても主観的
    • 文章の硬軟
      1 とても硬い 2 どちらかといえば硬い 3 どちらかといえば軟らかい 4 とても軟らかい
    • 文章の丁寧さ
      1 とても丁寧 2 どちらかといえば丁寧 3 どちらかといえばくだけている 4 とてもくだけている
    • 直接的な語り性
      1 直接的な語り性あり  2 直接的な語り性なし
  2. 約1,000字のテキストの4つ組に対する難易度の順位付けを人手で行い,機械処理判定と比較分析する。

共同研究員 (所属)

平成24年9月時点の所属です。

  • 飯田 龍(東京工業大学)
  • 大塚 裕子(はこだて未来大学)
  • 奥村 学(東京工業大学)
  • 佐藤 理史(名古屋大学)
  • 佐渡島 紗織(早稲田大学)
  • 椿本 弥生(はこだて未来大学)
  • 徳永 健伸(東京工業大学)
  • 沼田 寛(はこだて未来大学)
  • 丸山 岳彦(国立国語研究所)
投稿をシェアする
note