コーパス日本語学の創成(語彙・文法・文体・歴史グループ)(略称:コーパス日本語学)
前川喜久雄(言語資源研究系・系長,教授)
平成23年9月3日(土) 14:00~17:00
国立国語研究所・セミナー室
「美しいです。」のように形容詞の終止形に助動詞「です」が後続してそのまま文が終了する形容詞文(「A+です。」述語と呼ぶ)は規範性に欠けるとされている。しかし実際には頻繁に用いられており,「中納言」を用いてBCCWJを検索すると1万例を超える用例が見つかる。
「A+です。」述語をとりやすい形容詞とそうでない形容詞を比較すると,「嬉しい」「悲しい」「うざい」など書き手の主観を表出する形容詞群は「A+です。」述語をとることが多く,反対に「大きい」「広い」「長い」など対象の属性を表現する客観性の強い形容詞群は「A+です。」述語をとることが少ないことがわかる。この傾向はBCCWJに記録されている多数のレジスターのいずれにおいても例外なく観察される。ただし「A+です。」述語生起率のベースラインはレジスターによって大幅に変動する。ベースラインが図抜けて高いのはネット掲示板のデータ(知恵袋)であり70%以上ある。ブログと広報誌のデータが20%代でこれに次ぐ。
形容詞の意味特性(主観的,客観的,中間的の3値)とレジスター(13種)を主効果とするロジスティック回帰分析を実施すると,ふたつの主効果に加えて,客観的形容詞と知恵袋およびブログの2レジスター間の交互作用が有意という結果が得られた。以上をまとめると,現代日本語で「A+です。」述語の生起を促す要因には,①形容詞の意味特性(主観性)と,②テキストのレジスターのふたつがあるが,後者は部分的には意味特性上の制約を乗り越えることのできる強力な要因であることが判明した。
文章の中のある見出し語を基準として,その語の前文脈及び後文脈での位置をもとに決定する語集合の特性を計量的に記述した。使用したデータは,『現代日本語書き言葉均衡コーパス』のうち図書館サブコーパスの10073サンプルである。分析の観点は次の3つである。(1)短単位で計った場合の前文脈1~3語及び後文脈1~3語について見ると,概ね,基準となる語の直前1語目に位置する語の集合と直後の1語目に位置する語の集合とにおいて,異なり語数の値がそれら以外の語集合より低い値を示すことが分かった。また,この傾向は,調査した品詞(動詞,名詞,形容詞,副詞,接続詞)の間でそれぞれ異なる型を示すことが確認された。(2)それぞれの語集合の品詞の割合の推移は助詞と名詞の比率が直前2語目~直後1語目に掛けて大きく変動することが観察された。この変動の型においては,動詞と形容詞が似た分布になっている。(3)それぞれの語集合の間の類似度を宮島のC及び水谷のDで計測した結果,どちらの指標においても,直前2語目~直後1語目の語集合の値がそれ以外の語集合とは異なる傾向を示した。
ただし,ここで調査した言語単位は短単位であり,これを長単位した場合にどうなるか,また,この調査では助詞・助動詞や句読点も含めているが,それらを外して観察した場合にどうなるかという課題を残した。
コーパスの利用の(発表者にとって)新しい試みとして,作家の表現の初歩的な比較を行ってみた。異なる作家の小説に共通して現れる文字列を網羅的に調査することにより,作家間の表現の借用や模倣の証拠を効率的に見出すことができる。そのことを具体的な分析に基づいて示し,今後の課題について考察した。例えば「そう云う事実をあからさまに見せつけられることはとにかく余り愉快ではない」(芥川龍之介「文章」)と「このやうな記録をあからさまに見せつけられ,哀愁を通り越して何か,わけのわからぬ憤怒さへ感ぜられて」(太宰治「津軽」)のように偶然の類似とは考えがたい表現の組の存在がコーパスの分析により明らかになる。こうした手法は作家間の影響,作品成立過程の解明といった文学の研究に有用であろう。
あわせて,注目に値するコロケーションの特別な種類に関する考察と,現代日本語の表現の近年の変化について調べてみた事例についても報告した。