研究室から:「太陽コーパス」の構築と活用

1.「コーパス」とは?

近年の情報技術の進展によって,日本語研究の方法にもいくらか変容が見られます。なかでも,研究を大きく進展させる可能性をもつものとして,コーパスを用いて,精度の高い調査を行う方法が,期待されています。コーパスとは,ことばの用例を大量にコンピュータに蓄えておき,目的に応じてデータを引き出したり,集計したりすることができるようにした,ことばのデータベースです。

2.「太陽コーパス」の構築

私たちの研究グループでは,現代語が確立した20世紀初期の書きことばを代表する資料として,月刊の総合雑誌『太陽』(博文館刊)を対象に,博文館新社の理解を得て,コーパスを構築しています。『太陽』は,当時非常によく読まれ,記事のジャンルやことばの層も広く,国民文化の形成に多大な影響を与えたメディアです。

図1 『太陽』7巻9号(1901年8月)の表紙と本文
図1 『太陽』7巻9号(1901年8月)の表紙と本文

「太陽コーパス」は,20世紀のはじまりの1901年を起点に,8年刻みで,1909,1917,1925年の各12冊に,創刊年1895年12冊と,終刊年1928年(2号で終刊)2冊を加え,計62冊の全文を対象にしており,全体で1500万字を超える規模になります。当時の書きことばの多様性と,時代による流れを映し出し,現代語の確立に向かう時期の変化の実態を,ダイナミックにとらえることが期待できるコーパスです。

コーパスの中心をなすデータは,コンピュータで処理できる電子テキストです。この電子テキストは,利用目的に合わせた表示形式に変換したり,必要な情報を自在に引き出したりすることができるように,規格化された形式(XML)で,さまざまな情報を付加して作ります。

図2 「太陽コーパス」の電子テキストの例
図2 「太陽コーパス」の電子テキストの例

図2は,左の写真に示した頁を電子テキストにした一部です。黒字が原文の本文,色をつけたところは,研究に生かすために付加した情報です。灰色は振り仮名(原文にあるもの),茶色は原文での頁や行の番号です。紫色は原文に手を入れたことを示す注記で,この例では,仮名遣いを歴史的仮名遣いに改めたことを示しています。赤色は,この記事の題・著者・著作権の保護期限,文体・ジャンル等の情報,青色は会話の引用部分を示すものです。このようにして,ことばの研究に役立つ情報を,コンピュータで扱うことができるようにしておくわけです。電子テキストの作成の詳しい手順は,参考文献1を参照してください。

こうして作成した電子テキストは,コンピュータで処理されますが,人間が操作するのに便利な装置も,同時に開発する必要があります。なかでも,ことばの研究にとっては,ことばを検索し,そのことばの使用状況に関する情報を,自在に引き出すことが重要になります。図3は,現在開発中の検索装置の一つで,後述する「みたようだ」ということばを検索した結果の一部です。一つ一つの用例とともに,年・号,記事名,著者名のほか,ジャンルや文体などの情報を瞬時に取得でき,ことばの分析をさまざまな角度から進めることができます。

図3 「太陽コーパス」で「見たやう」を検索した結果
図3 「太陽コーパス」で「見たやう」を検索した結果

3.「太陽コーパス」で「…みたいだ」を調べる

「太陽コーパス」の簡単な活用例として,「…みたいだ」ということばを調べてみます。「みたいだ」は,江戸時代から使われていた「みたようだ」が変化して,明治時代に生まれたことばです。このこと自体は,もっとも詳しい国語辞典である『日本国語大辞典』(小学館)などにも記されていますが,変化の過程を具体的にとらえるには辞典では限界があります。

「太陽コーパス」で,「みたようだ」と「みたいだ」を検索し,それぞれの現れ方を観察してみましょう。表1は,ことばの出現回数を,年次別にまとめたものです。時代を追って「みたようだ」と「みたいだ」の勢力関係が,ゆるやかに逆転しており,「みたようだ」から「みたいだ」への交替が,この時期に進行していることがわかります。

表1 出現回数
表1 出現回数

表2 地の文・会話文別の出現回数
表2 地の文・会話文別の出現回数

表2は,それぞれのことばが,地の文に現れるか,会話の引用部分に現れるかを整理してまとめたものです。「みたようだ」は,はじめ,地の文・会話文ともに用いられていたところから,次第に地の文に限定されていく方向にあります。これに対して「みたいだ」は,最初は会話文に出てきますが,次第に地の文に進出していく方向が明らかです。一般に,地の文は保守的なことばづかいになりがちで,会話文はくだけたことばづかいが出やすいものです。衰退していく「みたようだ」と,定着していく「みたいだ」の,変化の過程を詳しくあとづけることができます。このように,「太陽コーパス」を活用することで,精度の高い調査が可能になります。参考文献2に活用例をいくつか記しました。

「太陽コーパス」は,2003年度公開の予定ですが,一部について,試験公開版(CD-ROM)を無料で提供しています。

参考文献
  1. 田中牧郎「XMLを利用したコーパスの構築-「太陽コーパス」を中心に-」(『日本語学』20-13
    2001年12月,明治書院)
  2. 田中牧郎「「太陽コーパス」の構築による確立期現代語の研究」(平成13年度国立国語研究所
    公開研究発表会予稿集,2001年12月,国立国語研究所)

(田中 牧郎)

  太陽コーパス:/corpus_center/cmj/taiyou/