コーパス

国立国語研究所で構築したコーパス (言語を分析するための基礎資料として,書き言葉や話し言葉の資料を体系的に収集し,研究用の情報を付与したもの) です。

  • 現代日本語書き言葉均衡コーパス (BCCWJ)

    現代日本語の書き言葉の多様性を把握するために構築したコーパスで,書籍,雑誌,新聞,白書,Web,法律などから無作為に抽出した約1億語のテキストに形態論情報,文書構造タグを付与し,オンラインおよびDVDで公開しています。

  • BCCWJ 全文検索サイト『少納言』

    国立国語研究所で開発されたWeb アプリケーションで,初心者でも簡単に BCCWJ 内の文字列を検索することができます。現在サービス休止中です。詳細はリンク先をご覧ください。

  • NINJAL-LWP for BCCWJ (NLB)

    『現代日本語書き言葉均衡コーパス』 (Balanced Corpus of Comtemporary Written Japanese: BCCWJ) を検索するために,国語研と Lago言語研究所が共同開発したオンライン検索システムです。

  • 日本語話し言葉コーパス (CSJ)

    『日本語話し言葉コーパス (Corpus of Spontaneous Japanese: CSJ) 』は,日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースであり,国立国語研究所,情報通信研究機構 (旧通信総合研究所),東京工業大学が共同開発した,質・量ともに世界最高水準の話し言葉データベースです。
    本コーパスは,音声言語情報処理,自然言語処理,日本語学,言語学,音声学,心理学,社会学,日本語教育,辞書編纂など幅広い領域で利用されています。

  • 日本語歴史コーパス (CHJ)

    日本語の歴史を研究するための資料を集めたコーパスです。将来的に上代から近代までをカバーする通時コーパスとすることを目標に開発が進められており、現在は構築済みの部分を公開中です。

  • 国語研日本語ウェブコーパス

    3か月間にわたり1億 URL をクロールして構築した200億語規模の Web テキストのコーパス。形態素解析・係り受け解析済みテキストからなる。

  • 学習者コーパスに基づく第二言語としての日本語の習得研究

    (1) 『中国語・韓国語母語の日本語学習者縦断発話コーパス』 (C-JAS)
    日本語学習者6名の3年間の縦断的発話データを公開しています。

    (2) 『多言語母語の日本語学習者横断コーパス』 (I-JAS)
    2016年5月,12言語の母語の学習者210名および日本語母語話者15名の第一次データを公開しました。
    発話データ (ストーリーテリング,ロールプレイ,対話,絵描写),作文データ (ストーリーライティング,エッセイとメール文 (任意) ),発話の音声データを所収。
    完成時には,学習者1000名,日本語母語話者50名のデータが公開されます。

  • 近代語のコーパス

    明治・大正時代の日本語を研究するために構築されたコーパスです。『太陽コーパス』『近代女性雑誌コーパス』『明六雑誌コーパス』『国民之友コーパス』を公開しています。

  • コーパス検索アプリケーション『中納言』

    国立国語研究所で開発されたコーパスを検索することができる Web アプリケーションで,短単位・長単位・文字列の3つの方法によってコーパスに付与された形態論情報を組み合わせた高度な検索を行うことができます。

  • アイヌ語口承文芸コーパス ―音声・グロスつき―

    木村きみさん (1900-1988,沙流川上流域のペナコリ出身) がアイヌ語で語った物語10編 (ウエペケㇾ (散文説話) 8編,カムイユカㇻ (神謡) 2編) 約3時間分の音声に,日本語と英語による訳とグロスや注解を付けた初めてのアイヌ口承文芸デジタル集成。

  • 統語・意味解析情報付き現代日本語コーパス (NPCMJ)

    現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報をタグ付けしたものです。どなたでも簡単にコーパス内のツリー (統語構造付き文) を検索,閲覧,ダウンロードしていただけるウェブインターフェースとともに公開しています。

  • 名大会話コーパス

    129会話,合計約100時間の日本語母語話者同士の雑談を文字化したコーパスです。

  • オックスフォード・NINJAL上代語コーパス

    「オックスフォード・NINJAL上代語コーパス」は単語情報・統語情報などの包括的なアノテーションを施した上代日本語のフルテキストコーパスです。現在のバージョンは「万葉集」など上代の全ての和歌のテキストを収録しています。

  • 『BTSJ日本語自然会話コーパス』 (日本語学習者の日本語使用の解明プロジェクト)

    シナリオのない自発的な自然会話を,場面,年齢や性別を条件統制して収集した会話データ (トランスクリプトと音声・動画) をまとめた世界最大規模の母語話者・学習者双方を含む相互作用研究・話し言葉研究のための自然会話コーパスです。現在,377会話,754名分が2020年版として公開されていますが,2021年度には,1000名を超えるインフォーマントの会話が含まれる『BTSJ 1000人日本語自然会話コーパス』として完成します。

  • NPCMJ Child Language Development Timeline

    NPCMJ Child Language Development Timeline (NPCMJ-CLDT) はそよごツリーバンク (子供の日本語の統語解析情報付きコーパス) を時系列に沿って対話的に表示するインターフェースです。このインターフェースの大きな特徴は,子供の言語の形態・統語的分析を年齢・月齢フィルターを通じて,検索・精査することを可能にしている点です。このインターフェースを利用することで,特定の語彙や構文に関して個人の習得過程に容易に焦点をあてることができ,日本語を習得しつつある子供の形態・統語的発達のパターンを発見するチャンスにつながります。