文化庁委託事業「信頼できる言語資源としての現代日本語の保存・活用のためのデジタル基盤整備事業」
- 実施期間
- 2024年4月~
- 関連サイト
- 【文化庁委託事業】BCCWJ2 -現代日本語書き言葉均衡コーパス
概要
国立国語研究所は、令和6年度に文化庁の委託事業「信頼できる言語資源としての現代日本語の保存・活用のためのデジタル基盤整備事業」を受託しました。
本事業では、現代日本語書き言葉の多様性を把握するために、国立国語研究所が中心となって開発した、約1億語からなる日本語に関する初めての大規模均衡コーパス『現代日本語書き言葉均衡コーパス (Balanced Corpus of Contemporary Written Japanese)』 (以下、「BCCWJ」) を、2億語規模のコーパスへと拡充します。
BCCWJは現在、書籍、雑誌、新聞、白書、Web、法律などから無作為に抽出した約1億語のテキストに形態論情報、文書構造タグを付与し、オンラインおよびオフライン有償版データで公開しています。今回の事業では2006年から2025年までの20年分の書籍、新聞等から、現代日本語の縮図となるように統計的に適切な文のサンプルを選択・特定し、著作権処理をした上で、日本語の品詞、意味、文構造等の情報を付与し、電子データ化を図ります。1年間に2千万語を整備し、現行のBCCWJに5年間で1億語を追加する予定です。