home edit page issue tracker

This page pertains to UD version 2.

Morphology: General Principles

UDは通言語的に適用される形態統語論の標示を備えている.これは,文法的概念が語形 (形態論) もしくは依存関係 (統語論) によって示されることを意味しており,UDのスキームにおいて,語の形態論的な指定は3つの表示レベルから成る:

基本語は典型的に当該言語の辞書や語彙目録から決定される.対照的に.品詞 (part-of-speech) タグと文法的な性質は,以下に定義される2つの普遍的なリストから示される.

言語特有のさまざまなタグセットとは異なり,普遍的なタグと素性は 融合語 (fused words) (2語を合成することで作らる,統語的に独立していて異なる品詞に属するような語) を表示する方法を持たない: チェコ語 dělals (dělal + jsi … 主動詞 + 助動詞); proň (pro + něj … 前置詞 + 代名詞); ドイツ語 zum (zu + dem … 前置詞 + 冠詞); スペイン語 dámelo (da + me + lo … 動詞 + 接語 (clitics) ) など. UDで融合を扱う唯一のアプローチは,トークンと (統語的) 語を区別づけ,必要ならばトークンを統語的な語に分割するような言語特有の処理を適用することである. 全ての統語的な語は,それ自身の品詞タグと素性を持つ.詳しくは,トークン化 (Tokenization) および フォーマット (Format) を参照のこと.

Lemmas

LEMMA フィールドでは,辞書に典型的に記載されている形式である,標準的もしくは基体 (base) の語形を含むべきである. 膠着語 (agglutinative) であれば,これは屈折接辞 (inflectional affixes) を持たない形式である; 融合語では,基本語は言語固有の慣習に従う. 基本語が存在しない場合,アンダースコア (“_”) を用いて存在しないことを表す.

現在のところ,ツリーバンクには何が”標準形式”であるかを表すための余地が多く残っている. 補充形 (suppletion) の稀な例を除き,一つの形式は動詞,名詞,限定詞,もしくは前置詞のパラダイムにおける基本語として選択されることが望ましい. 形容詞と副詞の基本語は原級 (positive) の形式を表す (比較級 (comparative) や最上級 (superlative) の形式を持つ言語において). 基本語は派生形態論 (derivational morphology) を除外しないため,[英] organizations の基本語は organization であって,organize (もしくは organ) とはならない. 一般的に,標準の形式は屈折や書記/綴りによる変異 (格,アクセント/発音区別記号やタイポなど) をひとまとめにしている. 語彙素フィールドにおいて,いくつかのツリーバンクでは方言や書き手の文体を示す綴りの変異を厳密に標準化することがある.

基本語の綴りの標準化に加えて,ツリーバンクでは任意の形態論的素性 Typo=Yes を採用することが推奨され,語の意図的でない綴り間違い (e.g. ltaketakeを,tootoを) を明示するのに用いられる. 語のタイポの閉じたクラスは,それぞれのクラスについて,語の頻度をコーパスで検出することで明らかになる. ツリーバンクの管理者は,方言,文体や非母語話者の文法といった,実際の言語変異を反映するような語に対してTypo=Yesを使用しないように注意されたい.

省略された (abbreviated) 形式は,完全な綴りが単一の語である場合,素性 Abbr=Yes を伴って,基本語の完全な綴りと対応づけられる. 複数の語を省略したものについては,それを基本語として保持すべきである.

時には,タイポや省略語が屈折した語 (e.g. haddhadを) にも適用されることがあり,その基本語では綴りを標準化して,屈折要素を除去する. ツリーバンクでは,MISCフィールドを用いて,標準化されつつも基本語の形式が存在しないような形式を収納しておくように.

(明らかに間違いである臨時語,不足している語,誤って分割された語の基本語に関する,UD全体のポリシーは現在のところ存在しない.)

LEMMAフィールドは素性や,類似した語の特性をエンコードするのに用いるべきではない (代わりに FEATSMISC を使うように; format を参照).

いくつかのコーパスでは同音意義の基本語を区別するのに数字を付与することがある (e.g. [en] can-1 vs. can-2). UDでは,そのような記法は標準形式の一部ではないことから,LEMMAフィールドに現れない. そのような記法で基本語を特定できる場合,MISCのカラムである任意の属性LIdに数字を付与する (LId=can-1).

Part-of-Speech Tags

普遍的なPOSタグ のリストは,17つのタグを含む固定のリストである. いくつかの言語では,いくつかのタグが使用できない場合がある.しかし,このリストは言語特有のものに拡張することはできない.代わりに 素性 を用いることで,より詳細な語の分類が可能となる.

さらに,CoNLL-U形式 は追加のXPOSタグを許容し,これは言語固有 (もしくはコーパス特有) のタグセットから取ったものである. そのような言語固有のXPOSタグは固有のデータカラムを有するため,普遍的なPOSタグとは混じらない. 普遍的なPOSタグは,英字の[A-Z] で記されたものに限られる. 一つの語につき一つのタグが想定される場合,タグを空白にすべきではない (他のタグが使用可能でない場合,アンダースコアを用いる代わりに X タグを使用せよ).

Using a word vs. mentioning it

普遍的なPOSタグは,可能であれば形態論的特性と同様に規則的な統語的ふるまいを捉え,文に特有の例外的なふるまいを反映すべきではない.特に,POSタグでは語の使用 (use) と言及 (mention) を区別しない.そのため,以下の例にある_yes_は両方とも間投詞 (interjection) としてタグ付けされる

類似したものとして,以下の例では_precede_が両方とも動詞としてタグ付けされる:

Pronominal words

代名詞句 (pronominal words)は,pronouns, determiners (冠詞と代名詞的形容詞), 代名詞的 adverbs (where, when, how)_であり,,いくつかの伝統文法では代名詞的 numerals _(how much) も代名詞句となる.

See also

以下の特別な事項に関するガイドラインは.特定のPOSタグについて記した補足ページに記録してある:

Features

素性 (features) は語,品詞および形態統語論的特性についての追加の情報である.あらゆる素性はName=Valueの形式をとり,全ての語はいずれかの素性を持っており,Gender=Masc|Number=Singのように縦棒によって区別が示される.

素性の目録 は複数のコーパスで観察されたものであるため,それに従い統一的にエンコードすることが望ましい. リストはおそらく完全でなく,後のバージョンでは,新たな言語,コーパスやタグセットで検出した素性や値 (value) を含むことがある. 必要に応じて,利用者が普遍的な素性のリストを拡張したり言語特有の素性を加えることができる. そのような素性は言語特有のドキュメンテーションに記載してあり,ここでの一般原則に従うこととなる. 語の普遍的もしくは言語特有の素性はFEATSカラムにリストしてある.

Lexical Features

語彙的素性は (個々の語形よりも) 語彙素 (lexeme) や基本語 (lemmas) の属性と考えられ,語の詳細な下位分類を表示する.

Inflectional Features

屈折素性は,大抵の場合基本語ではなく語形の素性であるが,例外もある: 例えば,名詞の性は語彙的素性であることが通常である (一つの基本語における全ての語形は同一の性を持つ). しかし,他の品詞 (形容詞,代名詞,動詞) では名詞との一致によって性が屈折する場合がある.

Layered Features

いくつかの言語では,いくつかの素性が同一の語に複数回付与されることがある. そのとき,素性には_レイヤー (layers)_があると言え,個々のレイヤーの正確な意味は言語に依存する.

例えば.所有形容詞,限定詞や所有代名詞は素性 u-feat/Gender および u-feat/Number に関して2つの異なるレイヤーを持つことがある.値の一つは修飾された (所有される) 名詞との一致から決定され,これは名詞の性と数に関して一致する,他の (所有を表さない) 形容詞や限定詞と並列に扱うことが可能である. 他方の値は語彙的に決定され,これは,所有者の特性を反映している.

レイヤー化した素性の詳細な例については,レイヤー化した素性 を参照されたい.

ある言語で素性がレイヤー化した場合,素性の名称はレイヤーを示す必要がある.レイヤーを区別するには,例えば所有者の性をGender[psor]と表すように,角括弧が追加の識別子として使用される. レイヤーの識別子は英字の小文字[a-z]か数字の[0-9]から構成することが推奨される. レイヤー,レイヤーの意味および識別子は本ドキュメンテーションにおける言語特有の拡張子によって定義される必要がある.レイヤー化した各々の素性については,一つのレイヤーがデフォルトとして定義され,例えばGender=Masc|Gender[psor]=Femのように,対応する素性が識別子なしで現れることがある.