テキストの多様性を捉える分類指標の策定

略称テキスト分類指標
プロジェクトリーダー柏野 和佳子 (かしの わかこ)
国立国語研究所 言語資源研究系 准教授
実施期間平成21年10月~平成24年9月
研究分野日本語学
キーワードテキスト分類,文体,コーパス

概要

大きなサイズの画像を見る

一般に利用可能な書籍のテキスト分類指標は,NDCによるジャンルや,日本図書コード (Cコード) による販売対象,発売形態と限られており,テキスト研究やコーパスの活用において不十分である。そこで,テキスト研究や,コーパス活用のために必要となる,書籍テキストの多種多様な形式,内容,表現に関する特徴を捉えるための分類指標の設計と検証を行う。

第一に,構造的に単純な文章タイプ (例 : 章節構造) であるか,そうではなく,特徴的なスタイルの文章タイプ (例 : 対談,Q&A形式,図解,用語解説) であるかを分類する指標を定める。

第二に,主に構造的に単純な文章に対し,難しいか易しいか,主観的か客観的か,硬いか軟らかいか,丁寧かくだけているか,直接的な語り性が強いか弱いか,といったテキストの内容や表現の特徴を分類するための指標を定める。

そして,実際に『現代日本語書き言葉均衡コーパス』に収録される書籍テキスト10,000例以上に,分類指標の付与を行い,体系的に検証を行う。

また,難易度の付与に関しては,機械処理と比較分析をし,難易度の基準の分析を行うとともに,自動付与の精度向上を目指す。

投稿をシェアする
note