「統語・意味解析コーパスの開発と言語研究」研究発表会 (平成31年1月27日)

プロジェクト名・リーダー名
統語・意味解析コーパスの開発と言語研究
プラシャント・パルデシ (国立国語研究所 理論・対照研究領域 教授)
開催期日
平成31年1月27日 (日) 10:30~16:00
開催場所
東北大学 川内北キャンパス 川北合同研究棟 1階 101室 (宮城県仙台市青葉区川内41)
アクセス
参加申し込み
どなたでも参加可能ですが,参加人数を確認するため,事前に n.nomura[at]ninjal.ac.jp 宛にお申し込みください。[at]を@に変えてください。
プロジェクトWEBサイト
http://npcmj.ninjal.ac.jp/?page_id=459

プログラム

10:30~11:30 "Changing the morphological base of the NPCMJ" NAGASAKI Iku, Alastair BUTLER

This talk describes changes being made to the morphological base of the NPCMJ, a corpus of Japanese parsed for syntax. The old morphological base consisted of segmentation decisions on Japanese script to isolate word units together with the classification of each unit's part-of-speech (noun, verb, etc.). This old segmentation corresponded closely to, but also deviated from, the LUW (Long Unit Word) standard of the Corpus of Spontaneous Japanese (CSJ; Maekawa 2003) and the Balanced Corpus of Contemporary Written Japanese (BCCWJ; Maekawa et al. 2014). The replacement morphological base uses the JMOR system (Miyata & Naka, 2014) and is carried out with Romaji (Hebon) rather than the Japanese script. With this change it becomes possible to encode information about the internal makeup of words. Notably stem information is isolated and accompanied by an English gloss that acts as a partial lemmatisation. In addition, the grammatical functions of prefixes and suffixes are clearly distinguished. This change in morphological base brings significantly richer word information into the corpus, as well as a clear concept of what a word is for Japanese. But this change is also a massive undertaking, requiring major alterations to every annotated tree. In the talk we detail how we have used tools of automation to make the change feasible. This serves as an example of how it is possible to harness the power of a parsed corpus to improve and further supplement the contained analysis.

11:30~13:00休憩

13:00~14:00 「統語・意味情報付きコーパスの開発に関する研究 : 中国語名詞句の解析について」 周 振

本発表は,統語・意味情報付きコーパスを開発するに当たって,中国語名詞句の解析を考察するものである。名詞句の解析をめぐっては,二つの課題がある。それは,名詞句の内部構造を明らかにし形式的に解析することおよび名詞句の担う類似した統語的役割を区別することである。名詞句の解析は,コーパス構築作業および構築できたコーパスを基にする言語研究の基本的かつ重要な一環を成しており,それを明らかにすることによって,研究の基盤を固めることができると考えられる。

14:00~15:00 「名詞句と述語の共起関係から見たコーパス研究」
三好 伸芳

本発表では,統語情報付きコーパスであるNPCMJを用いて,文中における名詞句と述語の結びつきがどのように分布しているのかを明らかにする。名詞句には,普通名詞,固有名詞といったバリエーションがあるが,それらがテキスト内においてどのような述語 (動詞述語,形容詞述語,名詞述語) と結びついているのかは,従来のコーパスでは明らかにすることができなかった。本研究により,従来品詞等の分布と結びつけられていた文体論研究や量的研究に,項構造や格関係の分布といった,文法的な関係性を導入することが可能になる。

15:00~16:00全体討論