多様な語彙資源を統合した研究活用基盤の共創

プロジェクトリーダー
小木曽 智信 (国立国語研究所 教授)
実施期間
2022年4月~
サブプロジェクト
課題名 サブプロジェクトリーダー 実施期間
学習者の辞書資源使用の実態調査 石黒 圭 2022.4 -
言語資源の空間接続 大西 拓一郎 2022.4 -
学習者用辞書資源の構築 柏野 和佳子 2022.4 -
語彙資源ポータル拡張 高田 智和 2022.4 -
学習者用「日本語機能語バンク」の構築 プラシャント・パルデシ 2022.4 -

概要

研究目的

国立国語研究所では、日本語の各種のコーパスを開発してこれを用いた実証的な研究を行ってきました。これらのコーパスは今日では日本語研究に欠かせないものとなっています。また、国語研では『分類語彙表』や『UniDic』などの日本語の語彙に関する多くの研究用データ (語彙資源) の構築も行ってきました。これらの研究資源は、学術的な研究の基礎資料として広く利用されているだけでなく、産業界でも活用されています。

本プロジェクトの目的は、これらに加えて新たに多様な語彙資源を開発し、それらをコーパスと結びつけて研究を行うことです。これにより、コーパスそのものも含めた研究資源全体の価値を高め、研究・応用の幅を大きく広げることができます。

lexical-resources

研究計画・方法

このプロジェクトでは、下記の5つの班で分担して、多様な語彙資源を開発し、それを活用した調査・研究を行います。

  • 学習者の辞書資源使用の実態調査
    学習者による辞書ツール使用の実態調査を行い、使用実態とその困難点を明らかにする。そのうえで、問題解決につながる学習者用辞書ツールの開発に必要なデータを試作し公開する。
  • 言語資源の空間接続
    言語地図データベース・古典籍地名データベース・方言古辞書に対し空間情報を付与することで、言語情報と地理空間とを接続する。これを通して語彙資源に空間情報を付与する。
  • 学習者用辞書資源の構築
    学習者用辞書の構築に必要なデータとして、学習目的に応じたレベル別の語彙リストを作成、『分類語彙表』に学習者用辞書構築に必要な情報を付与する。
  • 語彙資源ポータル拡張
    『日本語歴史コーパス』等から得られる語彙素統計情報、辞書類のデータベース、言語地図データベース、言語記事データベース、語彙研究文献情報を集積し、日本語語彙の歴史を一望できるような「語彙資源ポータル」を整備拡張する。
  • 学習者用「日本語機能語バンク」の構築
    和語動詞の用例データの格成分に意味役割を付与した「日本語格助詞データベース」、および1200件規模の「日本語文型バンク」を構築・公開する。
lexical-resources
プロジェクト構成図

そのうえで5つの班が一体となって、構築するデータ全体とコーパスを結びつけるキーとなる語彙資源統合 ID を整備し、国語研の言語資源を包括的に活用できる環境を整備します。その基礎となるデータとして日本最大の国語辞典である小学館『日本国語大辞典』の見出し語を活用します。また、各班で連携してシンポジウム・チュートリアルを開催し、研究成果の刊行を行って、語彙資源を活用した研究とその応用を推進します。

投稿をシェアする
note