2種類の言語単位
長単位の概要
文節の認定規定
長単位の認定規定
短単位の概要
最小単位の認定規定
短単位の認定規定
解析用辞書
2種類の言語単位
現代日本語書き言葉均衡コーパスは、次の2種類の言語単位に分割され、品詞などの情報が付与されます。
- 用例収集を目的とした短単位
- 言語的特徴の解明を目的とした長単位
この短単位・長単位は、いずれも『日本語話し言葉コーパス』(CSJ)で採用した言語単位です。また、短単位は国立国語研究所が行った現代雑誌九十種調査のβ単位を、長単位はテレビ放送の語彙調査の長い単位を基に設計したものです。CSJとの互換性の保持と、国立国語研究所の持つ語彙調査の知見の活用の両立を図っています。
長単位の概要
長単位は文節を基にした単位です。長単位の認定は、文節の認定を行った上で、各文節の内部を規則に従って自立語部分と付属語部分に分割していくという手順で行います。
長単位では、複合語を構成要素に分割することなく全体で一つとして扱います。このような長単位を使うことによって、各分野の特徴的な語を把握することができます。
文節の認定規定
文節は、一般に付属語又は付属語連続の後ろに境界があります。
BCCWJでは、日本語教育等での活用を想定し、複合辞も付属語として認めました。文節を認定する上で問題となることの一つに、固有名、動植物名、連語の扱いがあります。これらについては、内部にある助詞・助動詞の後ろで文節を切らないこととしました。
|源=頼朝| |虎の=門交差点| |タツノ=オトシゴ| |ユキノ=シタ|
|案の=定| |万が=一|
長単位の認定規定
長単位は、上記の文節を規則に基づいて分割する、あるいはしないことによって得られた各要素を1単位とするもので、文節を超えることはありません。
以下、長単位認定規定の概略を示します。
記号
- 区切り符号は1長単位とする。
|湾岸戦争後|、|英|、|仏|など|と| - 語と同じ働きをする記号・記号連続及びそれらを含む結合体は、全体で1長単位とする。
|2,000=m2| |WHO| |PHS|
付属語
付属語(複合辞を含む。)は1長単位とする。
|公害紛争処理法|における|公害紛争処理|の|手続|は|、|原則|として|紛争当事者|から|の|申請|によって|開始さ|れる|。|
サ変動詞
体言及び副詞に形式的な意味の「する」「できる」「なさる」「いたす」が直接続く場合、体言及び副詞と「する」「できる」「なさる」「いたす」とを切り離さない。
|往復運動=し|ている| |きちんと=できる|
並列
並列の関係にある語は切り離す。
|公正|妥当|な|実務慣行|
ただし並列の関係にある体言連続のうち、並列された体言全体を受ける、又はそれら全体に係る体言的な形式や接辞がある場合及び形式的な意味の「する」「できる」「なさる」「いたす」がある場合は切らない。
|英語=日本語-間| |芸術家=、=文化人等| |新-学年=・=学期| |在学=・=在校する|
同格
同格の関係にある体言連続は切り離さない。
|機関誌=計量国語学|が|発刊さ|れ|
数量表現
- 数を表す要素は、単位の変わり目の後ろで切る。
|平成|15年|9月|15日|午後|7時|33分| - 数を表す要素の前で切る。
|延べ|23時間|30分|
短単位の概要
短単位は、言語の形態的側面に着目して規定した言語単位です。短単位の認定に当たっては、まず現代語において意味を持つ最小の単位(以下、最小単位と呼びます)を規定します。
その上で、最小単位を文節の範囲内で短単位の認定規定に基づいて結合させる(又は結合させない)ことにより、短単位を認定します。短単位は、基準が分かりやすく、作業上のゆれが少ないという特徴があります。
最小単位の認定規定
最小単位は、現代語において意味を持つ最小の単位であり、和語・漢語・外来語・記号・人名・地名の種類ごとに、次のように認定します。 / は、最小単位の分割位置を表します。
漢語: /国/語/ /研/究/所/
外来語: /コール/センター/ /オレンジ/色/
人名: /星野/仙一/ /ジェフ/・/ウィリアムス/ /林/威助/
地名: /大阪/府/豊中/市/待兼山町/ /六甲/山/ /琵琶/湖/
記号: /図/A/ /JR/
上記のように認定した最小単位を短単位認定の必要上、下表のように分類します。
| 分 類 | 例 | |
|---|---|---|
| 一 般 | 和 語: 豊か 大 雨 ... 漢 語: 国 語 研 究 所 ... 外来語: コール センター オレンジ ... |
|
| 数 | 一 二 十 百 千 ... | |
| そ の 他 |
付属要素 | 接頭的要素: 相 御 各 ... 接尾的要素: 兼ねる がたい 的 ... |
| 助詞・助動詞 | う だ ます か から て の ... | |
| 人名・地名 | 星野 仙一 大阪 六甲 ... | |
| 記 号 | A B ω イ ロ ア JR ... | |
短単位の認定規定
短単位の認定規定は、上の表の分類ごとに定められています。その規定に基づいて最小単位を結合させる(又は結合させない)ことによって、短単位を認定します。
以下、「一般」・「数」・その他に分けて、短単位認定規定の概略を示します。
[1] 一般
《原則》
- 和語・漢語は、2最小単位の1次結合体を1短単位とする。
|母=親| |食べ=歩く| |言=語|資=源| |研=究|所| |本=箱|作り| - 外来語は、1最小単位を1短単位とする。
|コール|センター| |オレンジ|色|
《例外規定》
- 省略された外来語の最小単位の扱い
- 省略された外来語の最小単位は、和語・漢語の最小単位と同様に扱う。
|パソ=コン| |塩=ビ| |ピン=ぼけ| - 省略された外来語の最小単位と省略されていない外来語の最小単位との1次結合体は1短単位とする。
|エア=コン| |マス=コミ|
- 省略された外来語の最小単位は、和語・漢語の最小単位と同様に扱う。
- 1最小単位を1短単位とするもの
- 最小単位が3個以上並列した場合の各最小単位。
|衣|食|住| |松|竹|梅| |都|道|府|県| - 類概念を表す部分と名を表す部分とが結合してできた固有名詞のうち、類概念を表す部分と名を表す部分とが共に1最小単位の場合の、それぞれの最小単位。
|さくら|屋| |歌舞伎|座| |のぞみ|号|
- 最小単位が3個以上並列した場合の各最小単位。
- 最小単位の3個以上の結合体を1短単位とするもの
- 3個以上の最小単位からなる組織名等の略称。
|日経連| |通総研| - 切る位置が明確でないもの、あるいは切った場合と一まとめにした場合とで意味にずれがあるもの。
|大統領| |不可解| |明後日| |殺風景|
|輸出入| |国内外| |原水爆| |市町村長|
|大袈裟| |大丈夫| |二枚目| |十八番|
ただし二つ以上の漢語の最小単位が並列して、1短単位と結合している場合は、次のように短単位を認定する。
|中|小|企業| |小|中|学校| |都|道|府|県|知事|
- 3個以上の最小単位からなる組織名等の略称。
[2] 数
「数」以外の最小単位と結合させない。「数」どうしの結合は、一・十・百・千のとなえを取る桁ごとに1短単位とする。「万」「億」「兆」などの最小単位は、それだけで1短単位とする。小数部分は1最小単位を1短単位とする。
|十|二|月|二十|三|日| |七百|五十|二|万|語| |五|分|の|二|
|二三十|回| |〇|. |四|五|
[3]その他
1最小単位を1短単位とする。
付属要素: |筒|状| |扱い|兼ねる|
助詞・助動詞: |豊か|な|暮らし|に|つい|て|
人名: |星野|仙一| |ジェフ|・|ウィリアムス| |林|威助|
地名: |大阪|府|豊中|市|待兼山町| |六甲|山| |琵琶|湖|
記号: |図|A| |JR|
解析用辞書
短単位には、代表形、代表表記、品詞、活用型、活用形を与えます。代表形は、国語辞典の見出しに、代表表記はその見出しに与えた漢字等の表記に相当するものです。
短単位への分割及び情報付与を大量に行うためには、自動解析システムが必須のものとなります。現代日本語書き言葉均衡コーパスでは、千葉大学の伝康晴氏を中心に開発中のUniDicという解析用辞書を使用しています。UniDicへの見出し語の追加など整備拡充を行い、解析精度の向上を図っています。最新版のUniDic は、以下のURLで公開されています。
http://download.unidic.org/
