コーパス

国立国語研究所で構築したコーパス (言語を分析するための基礎資料として,書き言葉や話し言葉の資料を体系的に収集し,研究用の情報を付与したもの) です。

  • 現代日本語書き言葉均衡コーパス (BCCWJ)

    現代日本語の書き言葉の多様性を把握するために構築したコーパスで,書籍,雑誌,新聞,白書,Web,法律などから無作為に抽出した約1億語のテキストに形態論情報,文書構造タグを付与し,オンラインおよびDVDで公開しています。

  • BCCWJ 全文検索サイト『少納言』

    国立国語研究所で開発されたWeb アプリケーションで,初心者でも簡単に BCCWJ 内の文字列を検索することができます。

  • NINJAL-LWP for BCCWJ (NLB)

    『現代日本語書き言葉均衡コーパス』 (Balanced Corpus of Comtemporary Written Japanese: BCCWJ) を検索するために,国語研と Lago言語研究所が共同開発したオンライン検索システムです。

  • 日本語話し言葉コーパス (CSJ)

    『日本語話し言葉コーパス (Corpus of Spontaneous Japanese: CSJ) 』は,日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースであり,国立国語研究所,情報通信研究機構 (旧通信総合研究所),東京工業大学が共同開発した,質・量ともに世界最高水準の話し言葉データベースです。
    本コーパスは,音声言語情報処理,自然言語処理,日本語学,言語学,音声学,心理学,社会学,日本語教育,辞書編纂など幅広い領域で利用されています。

  • 日本語歴史コーパス (CHJ)

    日本語の歴史を研究するための資料を集めたコーパスです。将来的に上代から近代までをカバーする通時コーパスとすることを目標に開発が進められており、現在は構築済みの部分を公開中です。

  • 国語研日本語ウェブコーパス

    3か月間にわたり1億 URL をクロールして構築した200億語規模の Web テキストのコーパス。形態素解析・係り受け解析済みテキストからなる。

  • 学習者コーパスに基づく第二言語としての日本語の習得研究

    (1) 『中国語・韓国語母語の日本語学習者縦断発話コーパス』 (C-JAS)
    日本語学習者6名の3年間の縦断的発話データを公開しています。

    (2) 『多言語母語の日本語学習者横断コーパス』 (I-JAS)
    2016年5月,12言語の母語の学習者210名および日本語母語話者15名の第一次データを公開しました。
    発話データ (ストーリーテリング,ロールプレイ,対話,絵描写),作文データ (ストーリーライティング,エッセイとメール文 (任意) ),発話の音声データを所収。
    完成時には,学習者1000名,日本語母語話者50名のデータが公開されます。

  • 近代語のコーパス

    明治・大正時代の日本語を研究するために構築されたコーパスです。『太陽コーパス』『近代女性雑誌コーパス』『明六雑誌コーパス』『国民之友コーパス』を公開しています。

  • コーパス検索アプリケーション『中納言』

    国立国語研究所で開発されたコーパスを検索することができる Web アプリケーションで,短単位・長単位・文字列の3つの方法によってコーパスに付与された形態論情報を組み合わせた高度な検索を行うことができます。

  • アイヌ語口承文芸コーパス ―音声・グロスつき―

    木村きみさん (1900-1988,沙流川上流域のペナコリ出身) がアイヌ語で語った物語10編 (ウエペケㇾ (散文説話) 8編,カムイユカㇻ (神謡) 2編) 約3時間分の音声に,日本語と英語による訳とグロスや注解を付けた初めてのアイヌ口承文芸デジタル集成。

  • 日本語学習者による,日本語・母語対照データベース

    国立国語研究所日本語教育センターが作成した「作文対訳データベース」および「発話対照データベース」を掲載しています。いずれも日本語学習者が同一の課題に基づき,日本語および自分の母語によって行った言語表現を対照可能な形でデータベース化したものです。

  • 統語・意味解析情報付き現代日本語コーパス (NPCMJ)

    現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報をタグ付けしたものです。どなたでも簡単にコーパス内のツリー (統語構造付き文) を検索,閲覧,ダウンロードしていただけるウェブインターフェースとともに公開しています。