「通時コーパス」シンポジウム2020オンライン

主催
国立国語研究所共同研究プロジェクト 「通時コーパスの構築と日本語史研究の新展開」
リーダー : 小木曽 智信 (国立国語研究所 言語変化研究領域 教授)
共催
国立国語研究所共同研究プロジェクト 「現代語の意味の変化に対する計算的・統計力学的アプローチ」
リーダー : 持橋 大地 (統計数理研究所 数理・推論研究系 准教授)
科研費 基盤研究 (A) 19H00531 「昭和・平成書き言葉コーパスによる近現代日本語の実証的研究」
研究代表者 : 小木曽 智信 (国立国語研究所 言語変化研究領域 教授)
開催期日
2020年9月13日 (日) 10:00~
開催場所
Web開催 (Zoom)
事前申し込み
参加には事前の申し込みが必要です (参加無料)。
申し込みは締め切りました。お申し込みありがとうございました。

いただいた個人情報は,個人情報保護ポリシーに則り厳正に取り扱います。

プログラム

10:00~11:40 口頭発表 (Zoom)

  • 「『日本語歴史コーパス』ver.2020.3 通時コーパス構築進捗報告」
    小木曽 智信 (国立国語研究所)

    『日本語歴史コーパス』の2020年3月の公開バージョンでは,新たに「奈良時代編Ⅱ宣命」として続日本紀宣命が,「江戸時代編Ⅲ近松浄瑠璃」として近松の世話物浄瑠璃24作品が公開される。いずれのサブコーパスでも同一箇所に多重の単語情報を付与する「多重形態論情報」機能を活かした検索を可能にしている。このようなコーパスの最新の構築状況や今後の計画について報告するほか,プロジェクト外でのコーパス構築の支援やコーパスへのアノテーション共有のための取り組みについて述べる。

  • 「近世における従属句の階層性」
    北﨑 勇帆 (高知大学)

    日本語の従属句は内包できる要素に差異があり,一種の階層性をなすことが知られているが,順接仮定条件を表す中古語の「未然形+バ」と現代語の「ナラ」がどちらも意志・推量の「ム」「ウ」を包含しないという汎時的な共通点を持つ一方で中近世には「~ウ+ナラバ」の例が見られるなど,その階層のあり方は常に一定であったわけではないようである。こうした前提のもと,本発表はコーパスによる文法史研究の一事例として,近世の従属句における助動詞の生起の可否についての調査を行い,併せて,階層構造の通時的変化を示すことを目的とする。「任意の助動詞+任意の接続形式」といった任意要素同士の連接のあり方を整理する際に,形態論情報の付されたコーパスは絶大な威力を発揮するためである。

  • 「近世近代における「あて字」と熟字訓 ―人情本の漢字表記を中心に―」
    銭谷 真人 (鎌倉女子大学)

    人情本の漢字表記においては「息災 (たっしゃ) 」や「弱官 (わかうど) 」など,字音や字訓に基づかない種々の「あて字」が見られる。これらの「あて字」であるが,現在一般的に用いられている「白粉 (おしろい) 」や「時雨 (しぐれ) 」のような熟字訓として,当時は通用していたことも考えられる。人情本コーパスを用い,「小児 (こども) 」や「侍女 (こしもと) 」など,複数の人情本において使用が確認されているものについて,現在一般的に用いられている表記 (子供,腰元) との出現回数の比較を行い,その可能性を検証する。さらにそれらの表記について,洒落本コーパスおよび太陽コーパスを用いて同様の調査を行い,その発生と伝播についても考察を加える。

  • 「中世アスペクト体系の変遷」
    野村 剛史 (東京大学名誉教授)

    古代から中世にかけて,日本語のアスペクト体系は,「古代」< (動詞の) 不完了相 (無標形) >⇔<「動作性完了相,ツ・ヌ」↔「状態性完了相,タリ (リ) 」>のような体系から,「中世」<「動作性不完了相 (無標形) 」↔「動作性完了相,タリ (タ) 」>⇔<状態相,テアル・テイル>のような体系に移行した。今回は特に,「たり」が次第に「つ・ぬ」を凌駕してゆく様相,及びその過程が,タリの「状態辞」から「完了辞」への移行に相関していることを示す。「源氏物語」「今昔物語集」「宇治拾遺物語」「平家物語延慶本」「平家物語覚一本」「太平記」「天草本平家物語」などのコーパスを使用する。

11:40~13:00 ポスター発表 (Remo)

ポスター発表はオンライン会議システム Remoで行います。利用にはGoogleアカウントまたはRemoのアカウントが必要ですので事前にご準備ください。また,こちらのページでビデオ・音声のチェックをお願いします。

  • 「近代小学校国語教科書の語彙における「教育的配慮」」
    浅野 萌花 (明治大学大学院生)
  • 「同音衝突と類音牽引 ―庄川流域における「桑の実」と「燕」の方言分布と変化―」
    大西 拓一郞 (国立国語研究所)
  • 「『日本語歴史コーパス奈良時代編Ⅰ万葉集』から『オックスフォード・NINJAL 上代日本語コーパス』『万葉集校本データベース』へのリンクについて」
    小木曽 智信 (国立国語研究所)
  • 「国語教育用UI「ことねり」の開発と活用」
    小木曽 智信 (国立国語研究所),河内 昭浩 (群馬大学)
  • 「『日本語歴史コーパス江戸時代編Ⅲ近松浄瑠璃』の特徴と活用」
    片山 久留美 (国立国語研究所)
  • 「『日本語歴史コーパス奈良時代編Ⅱ宣命』の公開と活用」
    呉 寧真 (国立国語研究所),池田 幸恵 (中央大学),須永 哲矢 (昭和女子大学)
  • 「明治初期理科教科書『物理階梯』『小学化学書』『初学人身窮理』のコーパス作成について」
    田中 牧郎 (明治大学),髙橋 雄太 (明治大学),仲村 怜 (国立国語研究所 / 明治大学大学院生)
  • 「古辞書コーパス 広本『節用集』所載『文選』文句,語について」
    萩原 義雄 (駒澤大学)
  • 「国定教科書における口語文 ―明治・大正期の口語文典と比較して―」
    服部 紀子 (国立国語研究所)
  • 「中古日本語における助動詞の『き』 ―テンス・アスペクトの類型論の観点からみた日本語歴史コーパスからの用例―」
    フェデリコ・マングラービーテ (オックスフォード大学大学院生)
  • 「『万葉集』と「八代集」に見られる地名の分布とその傾向」
    松崎 安子 (国立国語研究所)
  • 「近代の新聞・雑誌に見られるルビの実態 : 形態論情報アノテーションとの関わり」
    間淵 洋子 (国立国語研究所)
  • 「日本古辞書研究資料の利用について ―和名類聚抄と日本語歴史コーパスとの連携を例に―」
    劉 冠偉 (北海道大学大学院生 / 日本学術振興会)

13:00~14:00 休憩 / ランチミーティング (Remo)

14:00~16:30 テーマセッション (Zoom)『統計と日本語史研究』

コーディネーター:持橋 大地 (統計数理研究所)

  • 「平安時代の文学作品における『源氏物語』の特徴語の抽出 ―『日本語歴史コーパス 平安時代編』を用いて―」
    土山 玄 (お茶の水女子大学 文理融合AI・データサイエンスセンター)

    『日本語歴史コーパス 平安時代編』には『源氏物語』などの物語文学が8作品,『土佐日記』などの6作品の日記文学が含まれている。そこで,本発表ではこの『日本語歴史コーパス 平安時代編』を使用し,他の13作品に比べ『源氏物語』に偏って頻出する単語,すなわち特徴語の抽出を試みる。抽出においては機械学習の手法の1つであるランダムフォレストを用いる。ランダムフォレストはデータを分類するための分析手法であるが,データを分類した際の変数の重要度を求められる。本研究ではこの変数重要度を用い『源氏物語』の特徴語を抽出する。このような計量的な分析を通じ,『源氏物語』における単語の出現傾向の特徴について検討を加える。

  • 「単語分散表現の結合学習による単語の意味の通時的変化の分析」
    相田 太一 (東京都立大学大学院生),小町 守 (東京都立大学),小木曽 智信 (国立国語研究所),高村 大也 (産業技術総合研究所 / 東京工業大学),坂田 綾香 (統計数理研究所),小山 慎介 (統計数理研究所),持橋 大地 (統計数理研究所)

    言語は時代とともに変化するものであり,現代社会においても,日々新しい単語が生まれている。既存の単語についても,ある単語が時間の経過とともに,全く異なる意味で使われる場合も少なくない。そこで,我々はまず従来の共起行列を用いた単語分散表現学習手法を拡張して,従来手法に多く見られた線形変換による対応付けを用いることなしに各時期の単語分散表現を同時に学習させた。次に,学習した分散表現を用いて単語ベクトルの通時的な変化を算出し,ベクトルの変化が大きい単語を中心に意味が変化したとされる単語を,言語学の側面から網羅的に分析した。

  • 「短単位の頻度列から見た古典文学作品の特徴」
    山崎 誠 (国立国語研究所)

    本発表は,『日本語歴史コーパス』の中古の文学作品を対象にして,文を構成する各短単位について,当該作品における出現頻度の値に置き換えた,「頻度列」を用いて,各作品の語彙の量的特徴,特に,ジャンルとの関係を探るものである。分析に用いた統計量は,文ごとの (相対化した) 平均頻度の分布,文頭と文末の短単位の頻度,各文における高頻度語列と低頻度語列の割合等である。文ごとの平均頻度の分布は,どの作品もほぼ正規分布を示したが,「古今集」と「枕草子」が低頻度の位置に分布の山が出来ているのが特徴的である。文頭と文末の短単位の頻度では,文末の低頻度語と高頻度語との割合から歌物語と作り物語が対照的な値を示すことが分かった。また,高頻度語列と低頻度語列の割合からも同様に,歌物語と作り物語とがそれぞれ近い値を持つグループとして分類された。これらのジャンルとの関係については,言語学的解釈などにおいて不明な点が多く,今後さらなる解明が俟たれる。

  • 「歴史的に見た日本語の文節長について」
    近藤 泰弘 (青山学院大学)

    日本語は,特に,述語文節において,長さが長くなる傾向がある。自立語動詞のあとに,ヴォイス・アスペクト・テンス・モダリティの助動詞が連接し,そのあとに各種の助詞がさらに連接する。理論的には十数個あるいはそれ以上の単語が連接する可能性がある。「動詞-られ-ぬ-べかり-し-なり-けり-と-なむ」など,どんどんと接続していく形が想定できる。コーパスでは,短単位の連接を容易に調べることが可能なので,それによって,通時的な文節長の推移や,実際の最大文節長 (単語数) を計算可能である。今回の発表では,歴史コーパスと,BCCWJ とを用いて,以上の問題についての記述と解釈を行った。その結果,現実的には,最大の文節長は10単語 (短単位) 程度に留まることが明らかになり,予想よりも小さい価であった。また,時代的に見ると,平安時代の方が短く,近代文語文などでは長くなる傾向もある。その他,古代語と現代語との短単位の性格の差などについても述べていきたい。

16:45~19:00 懇親会 (Remo)

ポスター発表と同じくオンライン会議システムRemoで行います。