トップ> 共同研究> 共同研究プロジェクト> 萌芽・発掘型> テキストの多様性を捉える分類指標の策定

テキストの多様性を捉える分類指標の策定

略称テキスト分類指標
プロジェクトリーダー柏野 和佳子(かしの わかこ)
(国立国語研究所 言語資源研究系准教授)
研究分野日本語学
キーワードテキスト分類,文体,コーパス

概要

一般に利用可能な書籍のテキスト分類指標は,NDCによるジャンルや,日本図書コード(Cコード)による販売対象,発売形態と限られており,テキスト研究やコーパスの活用において不十分である。そこで,テキスト研究や,コーパス活用のために必要となる,書籍テキストの多種多様な形式,内容,表現に関する特徴を捉えるための分類指標の設計と検証を行う。

第一に,構造的に単純な文章タイプ(例:章節構造)であるか,そうではなく,特徴的なスタイルの文章タイプ(例:対談,Q&A形式,図解,用語解説)であるかを分類する指標を定める。

第二に,主に構造的に単純な文章に対し,難しいか易しいか,主観的か客観的か,硬いか軟らかいか,丁寧かくだけているか,直接的な語り性が強いか弱いか,といったテキストの内容や表現の特徴を分類するための指標を定める。

そして,実際に『現代日本語書き言葉均衡コーパス』に収録される書籍テキスト10,000例以上に,分類指標の付与を行い,体系的に検証を行う。

また,難易度の付与に関しては,機械処理と比較分析をし,難易度の基準の分析を行うとともに,自動付与の精度向上を目指す。

共同研究者(所属)

徳永健伸(東京工業大学),佐藤理史(名古屋大学),佐渡島紗織(早稲田大学),奥村学(東京工業大学),大塚裕子(はこだて未来大学),椿本弥生(はこだて未来大学),沼田寛(はこだて未来大学),飯田龍(東京工業大学),丸山岳彦(国立国語研究所)

研究目的

コーパスに収録されるテキストに付与する,適切で有用な分類指標を設け,書籍テキスト10,000例以上に,分類指標の付与を行い,体系的に検証を行う。

  1. 『現代日本語書き言葉均衡コーパス』(BCCWJ)収録書籍テキストを対象に,「難易,主観・客観性,硬軟,丁寧さ,直接的な語り性」という,5観点の人手分類が重点課題。
  2. 難易度に関しては,機械処理と比較分析をし,難易度の基準の分析を行うとともに,自動付与の精度向上を目指す。

研究計画・方法

①『現代日本語書き言葉均衡コーパス』の収録書籍テキストに対し,人手により下記,分類指標を付与する。

  • 対象読者(←難易)
    1 専門家向き 2 やや専門的な一般向き 3 一般向き 4 中高生向き 5 小学生・幼児向き
  • 主観・客観性
    1 とても客観的 2 どちらかといえば客観的 3 どちらかといえば主観的 4 とても主観的
  • 文章の硬軟
    1 とても硬い 2 どちらかといえば硬い 3 どちらかといえば軟らかい 4 とても軟らかい
  • 文章の丁寧さ
    1 とても丁寧 2 どちらかといえば丁寧 3 どちらかといえばくだけている 4 とてもくだけている
  • 直接的な語り性
    1直接的な語り性あり  2直接的な語り性なし

②約1,000字のテキストの4つ組に対する難易度の順位付けを人手で行い,機械処理判定と比較分析する。

共同研究発表会

開催日時 開催場所 開催案内 開催概要
平成23年8月30日(09:40-12:00) 公立はこだて未来大学
平成22年11月18日(15:00-18:00) 国立国語研究所
平成22年9月29日(10:00-15:00) 計量計画研究所
平成21年12月11日(13:30-17:00) 国立国語研究所