| 略称 | : | テキスト分類指標 |
|---|---|---|
| プロジェクトリーダー | : | 柏野 和佳子(かしの わかこ) (国立国語研究所 言語資源研究系准教授) |
| 研究分野 | : | 日本語学 |
| キーワード | : | テキスト分類,文体,コーパス |
一般に利用可能な書籍のテキスト分類指標は,NDCによるジャンルや,日本図書コード(Cコード)による販売対象,発売形態と限られており,テキスト研究やコーパスの活用において不十分である。そこで,テキスト研究や,コーパス活用のために必要となる,書籍テキストの多種多様な形式,内容,表現に関する特徴を捉えるための分類指標の設計と検証を行う。
第一に,構造的に単純な文章タイプ(例:章節構造)であるか,そうではなく,特徴的なスタイルの文章タイプ(例:対談,Q&A形式,図解,用語解説)であるかを分類する指標を定める。
第二に,主に構造的に単純な文章に対し,難しいか易しいか,主観的か客観的か,硬いか軟らかいか,丁寧かくだけているか,直接的な語り性が強いか弱いか,といったテキストの内容や表現の特徴を分類するための指標を定める。
そして,実際に『現代日本語書き言葉均衡コーパス』に収録される書籍テキスト10,000例以上に,分類指標の付与を行い,体系的に検証を行う。
また,難易度の付与に関しては,機械処理と比較分析をし,難易度の基準の分析を行うとともに,自動付与の精度向上を目指す。
徳永健伸(東京工業大学),佐藤理史(名古屋大学),佐渡島紗織(早稲田大学),奥村学(東京工業大学),大塚裕子(はこだて未来大学),椿本弥生(はこだて未来大学),沼田寛(はこだて未来大学),飯田龍(東京工業大学),丸山岳彦(国立国語研究所)
コーパスに収録されるテキストに付与する,適切で有用な分類指標を設け,書籍テキスト10,000例以上に,分類指標の付与を行い,体系的に検証を行う。
①『現代日本語書き言葉均衡コーパス』の収録書籍テキストに対し,人手により下記,分類指標を付与する。
②約1,000字のテキストの4つ組に対する難易度の順位付けを人手で行い,機械処理判定と比較分析する。
| 開催日時 | 開催場所 | 開催案内 | 開催概要 |
|---|---|---|---|
| 平成23年8月30日(09:40-12:00) | 公立はこだて未来大学 | > | > |
| 平成22年11月18日(15:00-18:00) | 国立国語研究所 | > | > |
| 平成22年9月29日(10:00-15:00) | 計量計画研究所 | > | > |
| 平成21年12月11日(13:30-17:00) | 国立国語研究所 | > | > |