通時コーパスの設計 プロジェクトの詳細
研究目的
日本語の史的研究に用いることができる本格的な「通時コーパス」を構築する準備段階として,コーパスの設計にかかわる諸問題について研究する。①コーパスの対象に含める文献資料をどのようにして選定するか,②選定した資料をどのように電子化しどのような情報を付与するか,③古典テキストに対応した形態素解析をどのように行うかなど,通時コーパス設計のための重要問題を中心に,基礎的な研究を展開する。こうした研究は,日本語史上のいくつかの時点の主要資料についてコーパスを試作し,これを活用した日本語史研究を実践することを通して行う。また,コーパスの構築作業における他機関との連携の可能性を探り,コーパス公開のために不可欠な著作権処理の問題についての検討も行い,通時コーパスの構築・公開に向けた諸課題に見通しを付ける。
言語資源研究系の現代語コーパスにかかわる研究と連携を取り,コーパス開発センターで実施中の現代語コーパスの構築作業,著作権処理業務などとも関連付けて研究を進めていく。
研究計画・方法
平安時代和歌,平安時代物語,鎌倉時代軍記,江戸時代洒落本などを対象とした,「通時コーパス」のモデルを試作することを通して,通時コーパス設計における重要問題について研究する。具体的には,①どのような観点で資料を選定するか,②古典本文をどのように電子化しどのような情報 (異文,原文表記,異体字,引用,文体など) を付与するか,③各時代の文法・語彙に対応した形態素解析をどのように行うか,などについて,コーパスの試作と活用を通して明らかになる諸問題を解決するための検討を行うことで,通時コーパス構築のための理論的な検討を十分に重ねていく。試作したコーパスを共同研究員が活用してどのような日本語史研究が実施できるかを持ち寄って発表する研究会を重ね,コーパスを評価しつつ,本格的に構築するコーパスの設計を固めていく手順を採る。
試作する「通時コーパス」のモデルに採る古典作品の本文は,他機関が作成して公開しているものを積極的に利用し,将来的に,これらの機関と共同で研究や事業を展開していく方向を探るものとする。共同研究や共同事業の内容は,古典の本文研究,古典本文へのタグ付与や活用法の研究,著作権の処理と管理,コーパスの公開事業などを想定している。他機関としては,当面,英国オクスフォード大学を主とする。
これまで,近藤・山元・田中・小木曽は,特定領域研究「日本語コーパス」の分担者・協力者として,現代語コーパスについて共同研究を実施してきている。また,田中・小木曽は国立国語研究所で「太陽コーパス」「近代女性雑誌コーパス」など,明治・大正期のコーパスを構築し活用する研究を進めており,これに関連する科学研究費 (基盤研究C,2006~2007年度) では,岡部も共同研究に参加した。
おおよその研究分担は次の通りとする (近藤は全体を統括する) が,密に連携を取り合いながら進める。
- コーパスに含める文献選定の研究 (田中,川村,高山,山田)
- 本文電子化と情報付与の研究 (小木曽,田中,村上,FRELLESVIG,HORN,RUSSEL)
- 古典テキストに対する形態素解析の研究 (山元,小木曽,岡部,岡崎)
- コーパスを活用した日本語史研究領域の開拓 (全員)
共同研究員 (所属)
- 新井 紀子
(国立情報学研究所) - 上野 英子
(実践女子大学) - 内元 清貴
(情報通信研究機構) - 岡 照晃
(日本学術振興会特別研究員) - 岡崎 友子
(東洋大学) - 岡部 嘉幸
(千葉大学) - 郭 木蘭
(中国 華僑大学) - 狩野 芳伸
(静岡大学) - 川添 愛
(国立情報学研究所) - 川村 大
(東京外国語大学) - 小澤 俊介
(株式会社はてな) - 小島 聡子
(岩手大学) - 小林 正行
(群馬大学) - 小林 雄一郎
(東洋大学) - 小町 守
(首都大学東京) - 近藤 泰弘
(青山学院大学) - 高山 善行
(福井大学) - 竹内 史郎
(成城大学) - 永澤済
(東京大学) - Bjarke FRELLESVIG
(オックスフォード大学) - Stephen Wright HORN
(オックスフォード大学) - 松崎 拓也
(名古屋大学) - 松本 裕治
(奈良先端科学技術大学院大学) - 宮尾 祐介
(国立情報学研究所) - 村上 謙
(埼玉大学) - 山田 昌裕
(恵泉女学園大学) - 山元 啓史
(東京工業大学) - 横野 光
(国立情報学研究所) - Kerri RUSSELL
(オックスフォード大学) - 小木曽 智信
(国立国語研究所) - 高田 智和
(国立国語研究所)