Universal features
For core part-of-speech categories, see the universal POS tags. The features listed here distinguish additional lexical and grammatical properties of words, not covered by the POS tags.
Abbr
: abbreviation
Values: | Yes |
これはブール素性 (Boolean feature) であり,省略語 (abbreviation) か否かを判別する.省略を受けた語の品詞は,基本的に u-pos/X から定義される品詞以外に属する.
注意: この素性はUDv2が初出である.UDv1のツリーバンクで言語特有のものとして追加された.
Yes
: it is abbreviation
例: [en] etc., J., UK
AbsErgDatNumber
: number agreement with absolutive/ergative/dative argument
Number[abs], Number[erg], Number[dat]
印欧諸語の多くで,定動詞 (finite verbs) は人称 (person) と数 (number) に関して主語と一致 (agree) する.バスク語 (複数人称言語 (polypersonal language)) では,特定の動詞が最大3つまでの項 (arguments) との一致を標示する: 絶対格 (case),能格 (ergative),与格 (dative).
よって,dakarkiogu “we bring it to him/her” _の_akar_は語幹 (stem; _ekarri = “bring”) を表し,_d_は“it”を表す (絶対格項は他動詞の直接目的語). そして,_ki_は与格,_o_は“he”,_gu_は“we”を表す (能格項は他動詞主語).
Number[abs]
は動詞の絶対格項の数 (number) を表す.Interset 2.041で対応する素性はabsnumber
と呼ばれる.Number[erg]
は動詞の能格項の数を表す.Interset 2.041で対応する素性はergnumber
である.Number[dat]
は動詞の与格項の数を表す.Interset 2.041で対応する素性はdatnumber
である.
Number[abs]
ではなく,単にNumber
を用いたくなるかもしれないが,それには問題が2点存在する (少なくともバスク語において). まず,絶対格項は常に主語となるわけではない.他動詞では絶対格項が目的語となるため,主格-対格言語 (nominative-accusative languages) との並行性を見出す根拠は薄い.
次に,これがより重要であるのだが,バスク語のいつくかの定動詞では名詞の屈折 (inflection) に対応する形態素を備えている.よって,それらの形式は絶対格項について人称-数の一致を示すと同時に,名詞の屈折 (格,数など)も反映している.
例: dena (Number=Sing|Number[abs]=Sing
),
dituena (Number=Sing|Number[abs]=Plur|Number[erg]=Sing
),
dugunak (Number=Plur|Number[abs]=Sing|Number[erg]=Plur
),
direnak (Number=Plur|Number[abs]=Plur
).
よって,素性Number
に対しては名詞の屈折素性,Number[abs]
に関しては一致素性という区分を保持しておく.
また,素性間の衝突がないとはいえ,Person[abs]
およびPolite[abs]
についても定義しておく.ただし,これらの素性はPerson[erg]
, Polite[erg]
, Person[dat]
およびPolite[dat]
と同じような位置付けだと考えた方がいい.
Sing: 単数
例: [eu] dakarkiogu Number[abs]=Sing|Number[dat]=Sing
Plur: 複数
例: [eu] dakarkiogu Number[erg]=Plur
AbsErgDatPerson
: person agreement with absolutive/ergative/dative argument
Person[abs], Person[erg], Person[dat]
多くの印欧諸語において,定動詞は人称 (person),数 (number) に関して主語と一致 (agree) する.バスク語 (複数人称言語 (polypersonal language)) では,特定の動詞が3つまでの項 (arguments) との一致を標示する: 絶対格,能格 (ergative),与格 (dative). よって,dakarkiogu “we bring it to him/her” の_akar_は語幹 (stem; ekarri = “bring”) を表し,_d_は“it”を表す (絶対格項は他動詞の直接目的語). そして,_ki_は与格,_o_は“he”,_gu_は“we”を表す (能格項は他動詞主語).
Person[abs]
は動詞の絶対格項の人称を表す.is the person of the absolutive argument of the verb. Interset 2.041で対応する素性はabsperson
と呼ばれる.Person[erg]
は動詞の能格項の人称を表す.Interset 2.041で対応する素性はergperson
である.Person[dat]
は動詞の与格項の人称を表す.Interset 2.041で対応する素性はdatperson
である.
Person[abs]
ではなく,単にPerson
を用いたくなるかもしれないが,それには問題が2点存在する (少なくともバスク語において).まず,絶対格項は常に主語となるわけではない.他動詞では絶対格項が目的語となるため,主格-対格言語 (nominative-accusative languages) との並行性を見出す根拠は薄い.
また,Number[abs]
(Number
とNumber[abs]
の両方が一つの語に生起可能) の使用が不可避であるため,両方の素性が同じ一致レイヤーに属することを示すためにもPerson[abs]
を用い続ける.
1: 1人称
例: [eu] dakarkiogu Person[erg]=1
2: 2人称
例: [eu] dakarkiozu Person[erg]=2
3: 3人称
例: [eu] dakarkiogu Person[abs]=3|Person[dat]=3
AbsErgDatPolite
: politeness agreement with absolutive/ergative/dative argument
Polite[abs], Polite[erg], Polite[dat]
印欧諸語の多くで,定動詞 (finite verbs) は人称 (person) と数 (number) が主語と一致 (agree) する; 二人称主語は,レジスターの丁寧さ (politeness) にも影響を及ぼす. バスク語 (複数人称言語 (polypersonal language)) では,特定の動詞が最大3つの項 (arguments) との一致を標示する: 絶対格,能格 (ergative),与格 (dative). よって,dakarkiogu “we bring it to him/her” の_akar_は語幹 (stem; ekarri = “bring”) を表し,_d_は“it”を表す (絶対格項は他動詞の直接目的語). そして,_ki_は与格,_o_は“he”,_gu_は“we”を表す (能格項は他動詞主語).
Polite[abs]
は,動詞の絶対格項の丁寧さを表す.Interset 2.041で対応する素性はabspoliteness
と呼ばれる.Polite[erg]
は,動詞の能格項の丁寧さを表す,Interset 2.041で対応する素性はergpoliteness
と呼ばれる.Polite[dat]
は,動詞の与格項の丁寧さを表す.Interset 2.041で対応する素性はdatpoliteness
と呼ばれる.
Polite[abs]
の代わりに,単にPolite
を使いたくなるかもしれないが,これには問題が2つ存在する (少なくともバスク語で).
まず,絶対格項は常に主語となるわけではない.他動詞では絶対格項が目的語となるため,主格-対格言語 (nominative-accusative languages) との並行性を見出す根拠は薄い.次に,Number[abs]
(Number
とNumber[abs]
の両方が一つの語に生起可能) の使用が不可避であるため,両方の素性が同じ一致レイヤーに属すことを示すためにもPolite[abs]
を用い続ける.
Inf: インフォーマル
例: [eu] ezan, ezak Polite[erg]=Inf
Pol: 丁寧,フォーマル
例: [eu] ezazu Polite[erg]=Pol
(丁寧さに関して中立的な形式は_ezazue_)
AdpType
: adposition type
Prep: 前置詞
例: in, on, to, from
Post: 後置詞
例: ドイツ語 “der Strasse entlang” における “entlang” (along the street)
Circ: 両置詞
Examples: ドイツ語 “von … an” in “von dieser Stelle an” (from this place on)
Voc: 有声化する前置詞
スラブ諸語において,前置詞 (preposition) のいくつかは音節を形成 (non-syllabic) しない.発音を流暢にするため,前置詞の形式はコンテクストによって変わる.
チェコ語の例: ke, ku, se, ve, ze
(有声でないもの: k, k, s, v, z)
同様の現象はスロバキア語,ロシア語,おそらく他の言語にもみられる.
AdvType
: adverb type
副詞 (adverb) の意味的なサブクラスは,いくつかのタグセット (e.g. ブルガリア語,チェコ語,ヒンディー語,日本語) でタグ付けされる.それらのタグセットでカバーできるのであれば,他の多くの言語にも適用されるだろう.素性”pronrype”はいくつかの副詞にも適用されるが,それは”AdvType”とは独立している.
Man: 様態副詞 (“how”)
Loc: 場所副詞 (“where, where to, where from”)
Tim: 時間副詞 (“when, since when, till when”)
Deg: 量や程度の副詞 (“how much”)
程度の副詞と不定数量詞 (indefinite numerals) の境界は曖昧であることに注意されたい.これはIntersetにおいて未解決の問題である.
Cau: 原因の副詞 (“why”)
Mod: 法 (modal) の副詞
以下にあるチェコ語の例は法助動詞 (modal verbs) と類似している: 動詞不定形を項にとり,可能性,必然性,もしくは推奨性の意味を加える.ブルガリアの例 (フランス語の”à propos”の音訳) では使用の仕方が異なっているが,タグセット上では”modal”と読んでいる.
Examples: [bg] апропо, [cs] možno, nutno, radno, třeba
Sta: 状態副詞
以下のチェコ語の英訳では,これらが形容詞であることを示唆する一方,形態論的・統語的にみて副詞である (名詞と判断がつきにくいものもある).
- 例
- [cs] plno (full), zima (cold), chyba (wrong), škoda (pity), volno (available), nanic (no good)
そして,Intersetは”AdvType”に関して2つの値 (value) を設けており,それらは他のものと区別される.現時点では扱い方が分かっていないが,区別は設定されるのである.
Ex: 英語における存在のthere
普遍的な品詞セットからみて,このような”there”の品詞は何だろうか.
Adadj: フィンランド語の後置形容詞 (ad-adjective)
形容詞から派生し,他の形容詞を修飾するためだけに用いられる (http://archives.conlang.info/pei/juenchen/phaelbhaduen.html).
Animacy
: animacy
Values: | Anim | Hum | Inan | Nhum |
性 (Gender) (アフリカ諸語の名詞クラス) と同じく,有生性 (animacy) は 名詞 (nouns) についての特徴である.また,有生性は名詞との一致 (agreement) を標示する他の品詞 (代名詞 (pronouns), 形容詞 (adjectives), 限定詞 (determiners), 数詞 (numerals), 動詞 (verbs))における屈折素性 (inflectional feature) でもある. 言語によっては,性についてのみ区別するもの,有生性についてのみ区別するものもある.また,性と有生性の両方が文法に何らかの役割を果たす言語もある. (UD以外のタグセットでは2つの素性を性についての拡張システム (extended system) に包括する場合がある; ただし,UDでは別々のタグ付けを行う)
性と同じように有生性の値 (value) は名詞の意味特徴を表すが,あくまでも近似に過ぎない.これは当該カテゴリの典型的な成員を表すだけである.文法的には有生と扱われるが,意味的には無生物 (inanimate) である名詞も存在する.
以下の表は,ポーランド語の男性 (masculines) 決定詞_który_ “which” の曲用 (declension) について,有生性から3通りの区別 (人間-人間以外の生物-無生物) を与えるものである (上部と下部の行にある太字部分は,中間部の行とは区別される):
gender | sg-nom | sg-gen | sg-dat | sg-acc | sg-ins | sg-loc | pl-nom | pl-gen | pl-dat | pl-acc | pl-ins | pl-loc |
---|---|---|---|---|---|---|---|---|---|---|---|---|
animate human | który | którego | któremu | którego | którym | którym | którzy | których | którym | których | którymi | których |
animate non-human | który | którego | któremu | którego | którym | którym | które | których | którym | które | którymi | których |
inanimate | który | którego | któremu | który | którym | którym | które | których | którym | które | którymi | których |
チェコ語の対応するパラダイムでは,2つの値についてのみ区別される: 男性・有生と男性・無生物
gender | sg-nom | sg-gen | sg-dat | sg-acc | sg-ins | sg-loc | pl-nom | pl-gen | pl-dat | pl-acc | pl-ins | pl-loc |
---|---|---|---|---|---|---|---|---|---|---|---|---|
animate | který | kterého | kterému | kterého | kterým | kterém | kteří | kterých | kterým | které | kterými | kterých |
inanimate | který | kterého | kterému | který | kterým | kterém | které | kterých | kterým | které | kterými | kterých |
より一般的に言えば,言語には有生と無生物 (e.g. チェコ語の男性) を区別するもの,人間と人間以外 (e.g. RyukyuanのYuwan語) を区別するもの,そして人間と人間以外,有生と無生物の3通りの区別を行うもの (e.g. ポーランド語の男性) がある.
Anim
: 有生物
人間,動物,架空の人物,職名などは,通常は有生物 (animate) である.擬人化された (personified) 場合,ふつう非生物を表す名詞であっても有生の屈折を受ける.また,特定の言語における特定の語は意味的な理由がなくとも,文法上有生物としてふるまうものがある.
Inan
: 無生物
有生物でない名詞は無生物 (inanimate) である
Hum
: 人間
有生物のサブセットには,典型的な成員が人間 (human) であり,動物 (animal) でないようなものがある.ここでも例外として,意味的には整合しないが文法上人間のクラスに属するような名詞が存在する.
Nhum
: 非人間
人間と非人間 (non-human) についてのみ区別する言語において,この値 (non-human) には無生物 (inanimate) も含まれている.人間・生物,非人間・生物.非人間・無生物の3通りを区別する言語では,この値 (non-human) は非人間・生物を表す場合にのみ用いられる.そして,Inan
が無生物に対して用いられる.
Aspect
: aspect
Values: | Hab | Imp | Iter | Perf | Prog | Prosp |
典型的に,アスペクト (aspect) は 動詞 (verbs) についての特性である.動名詞 (gerund) や分詞 (participle) といった境界的な語をどのように分類するかによって,他の品詞 (名詞 (nouns), 形容詞 (adjectives), 副詞 (adverbs)) であってもアスペクトを担うことがある.
アスペクトは行為における時間軸上の幅を指定するものであり,当該行為が完了した (completed) かどうかなどを決定する. 時制 (tenses) について,実際には時制とアスペクトの組み合わせであるような言語 (e.g. 英語) もあれば,完全に独立はしていないものの,アスペクトと時制が分離しているような言語 (e.g. チェコ語) もある.
チェコ語や他のスラブ諸語において,アスペクトは語彙の特性である.不完了体 (imperfective) と完了体 (perfective) から成る動詞のペアが存在し,2つは形態論からみて関連はするものの,違いの規則性を見出すことが難しい.よって,動詞の2つの体は別個の見出し語 (lemma) として扱われる.
UDはボトムアップ的に記述を進めるため,現行の基準ではコーパスから確認された数点の値 (value) のみをカバーしている.他のアスペクトに関する膨大なリストについては,Wikipedia (http://en.wikipedia.org/wiki/Grammatical_aspect) を参照されたい.
Imp
: 不完了体
当該行為が一定の時間幅をとった/とる/とるだろう という情報を示し,その行為がいつ完了した/完了するだろうか という情報は表さない.
例
- [cs] péci “to bake” (Imp); pekl chleba “he baked / was baking a bread”
Perf
: 完了体
当該行為が完了している/ 完了するだろう という情報を示す.時間軸上の一点 (完了時点) を強調するので,このアスペクトは現在時制と相性が悪い.例えば,チェコ語では完了体動詞の現在形を形態的にはつくれるが,実際は未来の意味を表す.
例
- [cs] upéci “to bake” (Perf); upekl chleba “he baked / has baked a bread”
Prosp
: 前望アスペクト (prospective aspect)
一般的に,前望アスペクト (prospective aspect) は相対的な未来として記述可能である: 当該行為が,特定の時点に続いて起きる/起きた/起きるだろうと期待される; 特定の時点 (参照点) は過去,現在もしくは未来のいずれかである. 英語の文,When I got home yesterday, John called and said he would arrive soon_において,最後尾の節 _(he would arrive soon) は前望アスペクトを表す. とはいえ,英語は前望アスペクト専用の接辞を持たないので,これを標示するラベルは英語には不要である.他の言語では必要となる; バスク語の接尾辞_-ko_が例である.
前望アスペクトを標示する値は,UDv1においてはPro
だったが,UDv2においてはProsp
へと名称が変更されている.
例
- [eu] Liburua irakurriko behar du. lit. book-a read-Prosp must AUX “He must go to read a book.”
Prog
: 進行アスペクト (progressive aspect)
英語の進行時制 (I am eating, I have been doing …) は進行アスペクトを持つ.進行時制は分析的に構成される (助動詞+現在分詞) が,_-ing_分詞は進行の意味との結びつきが強いため,これはProg
として標示する方が適しているように思われる (過去分詞 (past participle) との区別が必要であるため,”時制”と”アスペクト”の素性両方を用いる).
英語以外の言語において,進行の意味が主動詞に付加する拘束形態素によって表される場合があり,このことはProg
の正当性を支持する.例に挙げるのは,進行を表す2つの異なった形態素_-yor_と_-mekte_を有するトルコ語である.
例
- [tr] eve gidiyor “she is going home (now)”
- [tr] eve gitmekte “she is going home (now)”
- [tr] eve gidiyordu “she was going home (when I saw her)”
- [tr] eve gimekteydi “she was going home (when I saw her)”
Hab
: 習慣アスペクト (habitual aspect)
英語の単純現在時制は,このアスペクトを持つ.
Iter
: 反復アスペクト (iterative / frequentative aspect)
反復アスペクトは繰り返される行為を示し,ハンガリー語などで観察される.
チェコ語にも反復アスペクトと呼ばれるものがあるが,どちらかといえば習慣の意味に近い.
それらは不完了体動詞のみから形成され,通常は独立したアスペクトとして分類されることがない; 単にAspect=Imp
として標示される.
注意点: この値はUDv2が初出である.ただし,UDv1ではこれに類似したものがハンガリー語に対して使用されていて,それを_frequentative_ (Freq
) と呼称していた.
例
- [hu] üt “hit”, ütöget “hit several times”
Case
: case
Values: | Core: | Abs | Acc | Erg | Nom | |||||||||||
Non-core: | Abe | Ben | Cau | Cmp | Cns | Com | Dat | Dis | Equ | Gen | Ins | Par | Tem | Tra | Voc | |
Local: | Abl | Add | Ade | All | Del | Ela | Ess | Ill | Ine | Lat | Loc | Per | Sub | Sup | Ter |
通常,Case
は名詞 (nouns)の屈折素性である.言語によっては,名詞との一致 (agree) を示す他の品詞 (代名詞 (pronouns) 形容詞 (adjectives), 限定詞 (determiners), 数量詞 (numerals), 動詞 (verbs)) にもCase
が用いられることがある.いくつかのタグセットでは,Case
の情報は側置詞 (adpositions) の結合価 (valency) にも記載される (項が特定の格をとるように側置詞が指定する).
UDのツリーバンクで前置詞の結合価に格情報を記載することは余剰的である.同一の格の素性が名詞側にも記載されるためである.
特に自由語順言語において,格は文中における名詞句の役割を決定するのに役立つ.例えば,主格 (nominative) と対格 (accusative) は動詞の主語と目的語を区別する.一方,語順が固定している言語においては,これらの文法的機能は名詞句の文中における位置から区別される.
ここでは,形態統語論的なレベルから形態として現れる格 (拘束形態素) を扱うことにする.より高次なレベルでは格は_役割_という広い意味で解され,名詞に側置詞を加えることによって表現される.接辞によって格を表現する言語もあれば,側置詞によって表現する言語も存在する (依存関係のラベルについてはu-dep/caseを参照).
例
- [cs] 主格 (nominative) matka “mother”, 属格 (genitive) matky, 与格 (dative) matce, 対格 (accusative) matku, 呼格 (vocative) matko, 所格 (locative) matce, 具格 (instrumental) matkou
- [de] 主格 der Mann “the man”, 属格 des Mannes, 与格 dem Mann, 対格 den Mann
- [en] 主格/直接 (direct) 格 he, she, 対格/斜格 (oblique) him, her.
下記にある個々の格についての記述は,格の典型的な意味を示唆する.ただし,ここで言及した意味が実際には生起しない場合も多いことに注意されたい.動詞,側置詞や他の語の結合価は,結合価スロット (意味役割) を満たすのに必要となる名詞の文法的格を決定づける.この説明は前置詞の意味の説明法とほぼ同一である: 英語の_in_の中心義が時空間上の位置を指すことには多くの人が同意するだろうが,場所の意味が弱い例も存在する:In God we trust. Say it in English.
いわゆるパニーニモデル (Paninian model) に基づくヒンディー語のコーパスでは,vibhakti_という素性を用いる.これは,本ページにて記述した格素性と複数の後置詞を混合したものである._vibhakti_の値 (value) は言語依存のものである
例えば,ベンガル語の属格 (Gen
) は接辞-ra_ (-র) を用いて標示する (i.e. vib=era).
ヒンディー語では,接辞は名詞と分離され,それは個別の語として表記される – 後置詞 kā/kī/ke (का/की/के)
後置詞句が属格名詞句と解釈できるとしても,その名詞は属格とは扱われない.その代わり,後置詞は名詞に対して3のうち1つの格形式をとるように要求する: 斜格 (Acc
)
Nom
: 主格 (nominative) / 直接格 (direct)
名詞の語基 (stem) であり,これは引用形式 (見出し語) として用いられることが一般的である.多くの言語において,主格は節の主語として使われる語形を指す.格が2つ,すなわち”direct”と”oblique”しかない言語では,直接格はNom
として標示される.
Acc
: 対格 (accusative) / 斜格 (oblique)
対格/斜格はおそらく形態格の中で2番目に広く使われる格である.多くの言語において,対格は動詞の直接目的語に用いられる語形を指す.”direct”と”oblique”の2つしか格を持たない言語では,斜格はAcc
と標示される.
Abs
: 絶対格 (absolutive)
いくつかの言語 (e.g. バスク語) では主語と目的語の区別に関して主格-対格を用いない.その代わり,絶対格 (absolutive)-能格 (ergative) の対立によって区別される.
絶対格は自動詞の主語と他動詞の直接目的語を標示する.
Erg
: 能格 (ergative)
いくつかの言語 (e.g. バスク語) では主語と目的語の区別に関して主格-対格を用いない. その代わり,絶対格 (absolutive)-能格 (ergative) の対立によって主語と目的語が区別される.
能格は他動詞の主語を標示する.
Dat
: 与格 (dative)
多くの言語で,与格は動詞の間接目的語の語形として用いられる.
例
- [de] Ich gebe meinem Bruder ein Geschenk. “I give my brother a present.” (meinem Bruder “my brother” is dative and ein Geschenk “a present” is accusative.)
Gen
: 属格 (genitive)
属格の典型的な意味とは,名詞句が何らかの意味で支配項 (governor) に帰属することである: 英語では前置詞_of_と訳されることが多い.また,英語は_‘s_を用いた”saxon genitive”を有する; ただし,その接辞はトークン化 (tokenization) の際名詞と分離するため,英語においては”saxon genitive”についての格素性を必要としない.
大きく重複するが,属格は所有性 (possessivity; Poss) と同一ではない. 所有性は語彙の特性であり (i.e. 見出し語および,そのパラダイム全体に適用される),属格は見出し語における語形のサブセットの特徴を指すに過ぎない.所有性の意味は明確に定義が与えられる一方で,属格は (他の格についても同様に) 所有とは無関係の概念を表す場もがある.例えば,[cs] bez prezidentovy dcery “without the president’s daughter” は前置詞 bez “without”,所有形容詞_prezidentovy_ “president’s”,および名詞_dcery_“daughter”を含んだ前置詞句である.所有形容詞は名詞_prezident_から派生したものであるが,それは名詞の形式を持つだけでなく,事実形容詞といえるのである (独立した見出し語とパラダイムを持つ).加えて,形容詞と名詞は属格形で示される (主格形は_prezidentova dcera_).この例において属格は所有の意味をもたない.前置詞の_bez_が属格の項を常に要求するため,属格が生起したのである.
例
- [cs] Praha je hlavní město České republiky. “Prague is the capital of the Czech Republic.”
バスク語において,Gen
は (場所の属格と異なって) 所有属格に用いられる: diktadorearen erregimena
“dictator’s regime”; diktadore “dictator”.
Voc
: 呼格 (vocative)
呼格とは,誰かを呼ぶときに使われる名詞の特殊な形式を指す.呼格は有生名詞 (animate nouns) に生起するのが大半である (有生性 (Animacy) の素性を参照) が,これは文法的な制約ではなく,無生物 (inanimate things) が呼格として用いられることもある.
例
- [cs] Co myslíš, Filipe? “What do you think, Filip?”
Loc
: 所格 (locative)
所格は,その名の通り時空間上の位置を表すことが多い.他の格と同様,場所以外の意味も存在し,それが生起するのは稀なことではない.所格の代わりとして,ウラル諸語は場所や方向を細かく区別するような格を備える.所格を持つ言語であっても,場所の役割は他の格によって表現されることもある (他の格が前置詞から要求される,といった理由で).
スラブ諸語において,所格は前置詞との組み合わせで唯一用いられる格である (ただし,この制約は所格を有する他の言語には該当しない).
例
- [cs] V červenci jsem byl ve Švédsku. “In July I was in Sweden.”
- [cs] Mluvili jsme tam o morfologii. “We talked there about morphology.” (Non-locational non-temporal example)
Ins
: 具格 (instrumental / instructive)
具格は,名詞が何かを行う道具として用いられることを示す ([cs] psát perem “to write using a pen” のように).他の意味も可能であり,例えばチェコ語の前置詞_s_ “with”は具格を要求し,それは他の言語では共格 (comitative) として表現されるような意味を含む.
チェコ語の具格は,受動構文における行為者-目的語に対しても用いられる (cf. 英語の前置詞_by_)
例
- [cs] Tento zákon byl schválen vládou. “This bill has been approved by the government.” (受身の例)
意味的に類似した格にはinstructiveと呼ばれるものがあり,フィンランド語で稀に用いられる (“with (the aid of)” を表現する).この格は不定詞に適用が可能であり,フィンランド語では名詞のようにふるまう.UDでは,具格とinstructiveに対して1つの包括的なラベルを割り当てている (具格はフィンランド語では定義されない).
例
- [fi] lähteä “to leave”; 2003 lähtien “since 2003” (2番目の不定詞がinstructive)
- [fi] yllättää “to surprise”; sekaantui yllättäen valtataisteluun lit. was-involved-in by-surprise.Ins power-struggle.Ill.
Par
: 分格 (partitive)
フィンランド語では,分格は不定の事物や終了していない行為を表す.
例
- [fi] kolme taloa “three houses”; (the -a suffix of talo)
- [fi] rakastan tätä taloa “I love this house”
- [fi] saanko lainata kirjaa? “can I borrow the book?” (the -a suffix of kirja)
- [fi]lasissa on maitoa “there is (some) milk in the glass”
対格と分格の比較: ammuin karhun “I shot a bear.Acc” (and I know that it is dead); ammuin karhua “I shot at a bear.Par” (but I may have missed).
分格の代わりに対格を使うことで,未来時制を代替する: luen kirjan “I will read the book.Acc”; luen kirjaa “I am reading the book.Par”.
Dis
: 分布格 (distributive)
分布格 (distributive case) は,何かが任意の時点において特定の集合の全成員に対して発生したことを伝達する.もしくは,頻度を表す場合もある.
例
- [hu] fejenként “per capita”
- [hu] esetenként “in some cases”
- [hu] hetenként “once per week, weekly”
- [hu] tízpercenként “every ten minutes”
Ess
: 様格 (essive / prolative)
様格は一時的な状態を表し,英語の”as a &hellip”に相当する; 様格に類似したものとして,バスク語ではprolativeと呼ばれるものがある.これもEss
とタグ付けされる.
例
- [fi] lapsi “child”; lapsena “as a child / when he/she was child”
- [et] laps “child”; lapsena “as a child”
- [eu] erreformista “reformer”; erreformistatzat “as a reformer”
Tra
: 変格 (translative / factive)
変格は状態変化を表す (“it becomes X”, “it changes to X”).”in language X” を表す句にも用いられ,Szegedmツリーバンクではこの格がfactiveと呼ばれる.
例
- [fi] pitkä “long”; kasvoi pitkäksi “grew long”
- [fi] englanti “English language”; englanniksi “in/into English”
- [fi] kello kuusi “six o’clock”; kello kuudeksi “by six o’clock”
- [et] kell kuus “six o’clock”; kella kuueks “by six o’clock”
- [hu] Oroszlány halott várossá válhat. lit. Oroszlány dead city.Tra could-become. “Oroszlány could become a dead city.”
Com
: 共格 Ucomitative / associative)
共格 (もしくは,associativeとも呼ばれる) は英語の”together with &hellip”に対応する;
例
- [et] koer “dog”; koeraga “with dog”
Abe
: 欠格 (abessive)
接格は英語の前置詞_without_に相当する.
例
- [fi] raha “money”; rahatta “without money”
Ine
: 内格 (inessive)
内格は何かの内部にある場所を表す.
例
- [hu] ház “house”; házban “in the house”
- [fi] talo “house”; talossa “in the house”
- [et] maja “house”; majas “in the house”
Ill
: 入格 (illative)
入格は何かへ入る方向を表す.
例
- [hu] ház “house”; házba “into the house”
- [fi] talo “house”; taloon “into the house”
- [et] maja “house”; majasse “into the house”
Ela
: 出格 (elative)
出格は何かから出る方向を表す.
例
- [hu] ház “house”; házból “from the house”
- [fi] talo “house”; talosta “from the house”
- [et] maja “house”; majast “from the house”
Add
: 追加格 (additive)
追加格は,エストニア語学者によって認定されるが,伝統文法では認識されていない格である.追加格はMultext-East Estonian タグセットやEesti keele puudepankに存在する.入格の意味を持つので,文法によっては追加格は入格の別形態とみなされている.この格の形式は単数形しかなく,全ての名詞に生起するわけではない.
例
- [et] riik “government”; riigisse “to the government” (singular illative); riiki “to the government” (singular additive)
Ade
: 接格 (adessive)
接格は位置を表す.方向に関して対応する格には向格 (どこかへ向かって) と奪格 (どこかから)がある.
例
- [hu] pénztár “cash desk”; pénztárnál “at the cash desk”
- [fi] pöytä “table”; pöydällä “on the table”
- [et] laud “table”; laual “on the table”
フィンランド語やエストニア語において接格は表面の位置を表すが,ハンガリー語にはこの意味はない.
All
: 向格 (allative)
向格は方向を表す (着点は接格).
例
- [hu] pénztár “cash desk”; pénztárhoz “to the cash desk”
- [fi] pöytä “table”; pöydälle “onto the table”
Abl
: 奪格 (ablative)
奪格の典型的意味: ある点からみた方向.
例
- [hu] a barátomtól jövök “I’m coming from my friend”
- [fi] pöydältä “from the table”; katolta “from the roof”; rannalta “from the beach”
Sup
: 上格 (superessive)
上格は主にハンガリー語で用いられ,頂点や表面上の位置を示す.
例
- [hu] asztal “table”; asztalon “on the table”
- [hu] könyvek “books”; könyveken “on books”
Sub
: 着格 (sublative)
着格はフィノ-ウゴル諸語で用いられ,動作の着点を表す.元々は物理的な位置 (e.g. “to climb a tree”) を表していたが,その拡張として比喩的な用法 (e.g. “to university”) もある.
例
- [hu] Belgrádtól 150 kilométerre délnyugatra lit. Belgrade.Abl 150 kilometer.Sub southwest.Sub “150 kilometers southwest of Belgrade”
- [hu] hajó “ship”; hajóra “onto the ship”
- [hu] bokorra “on the shrub”
Del
: 離格 (delative)
離格は主にハンガリー語で用いられ,何から動くことを表す (“moved off the table”のように). 他の意味も可能で,例えば”about something”などがある.
例
- [hu] asztal “table”; az asztalról “off the table”
- [hu]Budapestről jövök “I am coming from Budapest”
Lat
: 方向格 (lative / directional allative)
方向格は どこかへ/どこかに/どこかの中へ/どこかの上に 向かう動作を示す.類似したものとして,バスク語ではdirectional allative (スペイン語: adlativo direccional) と呼ばれるものがある.しかし,方向格は典型的には向格,入格および着格を合わせたものと考えられる.その一方,バスク語では方向格は向格から派生したものであり,両者の存在は独立している.
例
- [eu] behe “low”; beherantz “down”
Per
: 通格 (perlative)
通格は何かに沿う動作を示し,ワルピリ語において用いられる (Andrews 2007, p.162). Unimorphでは英語の前置詞“along”を彼らが呼ぶところのprolative/translativeの関連から論じている; UDでは両者を別々のものとして定義する.
例
- [wbp] yurutu “road”; yurutuwana “along the road” (Pirli kalujana yurutuwana yirrarni “They are putting stones along the road”)
Tem
: 時格 (temporal)
時格は時間を示すのに用いられる.
例
- [hu] hétkor “at seven (o’clock)”; éjfélkor “at midnight”; karácsonykor “at Christmas”
Ter
: 到格 (terminative / terminal allative)
到格は時空間上の終点を表す.これに類似したものとして,バスク語にはterminal allativeと呼ばれるもの (スペイン語: adlativo terminal) がある.
例
- [et] jõeni “down to the river”; kella kuueni “till six o’clock”
- [hu] a házig “up to the house”; hat óráig “till six o’clock”
- [eu] erdi “half”; erdiraino “up to the half”
Cau
: 原因格 (causative / motivative / purposive)
この格を持つ名詞は何かの原因となる.ハンガリー語では貨幣に用いられる (“to buy something for the money”) ことが多いようで,他にも,目標 (goal) を意味することがある.
例
- [hu] Egy világcég benzinkútjánál 7183 forintért tankoltam. lit. a world-wide.company petrol.station.Ade 7183 forint.Cau refueled “I refueled my car at the petrol station of a world-wide company for 7183 forints.”
- [hu] Elmentem a boltba tejért. lit. went the shop.Ill milk.Cau “I went to the shop to buy milk.”
- [eu] jokaera “behavior”; jokaeragatik “because of behavior”
Ben
: 受益者格 (benefactive / destinative)
受益者格は英語の前置詞_for_に相当する.
例
- [eu] mutil “boy”; mutilarentzat “for boys”
Cns
: considerative
considerativeは交換 (exchange) によって与えられる物を示し,この格はワルピリ語で用いられる (Andrews 2007, p.164).
例
- [wbp] miyi “food”; miyiwanawana “for food” (Japanangkarlu kaju karli yinyi miyiwanawana “Japanangka is giving me a boomerang in exchange for food”)
Cmp
: 比較格 (comparative)
比較格は“than X”を意味する.これは比較基準を標示し,比較の程度 (Degree) とは異なる.後者は比較される物の性質を標示するものである.比較格はドラヴィダ語や北東コーカサス諸語において現れる.
Equ
: 等格 (equative)
等格は “X-like”, “similar to X”, “same as X”を意味する.比較基準を標示し,これは比較される物の性質を標示する程度 (Degree) とは異なる.等格はトルコ語において現れる.
例
- [tr] ben “I”; bence “like me”
参考文献
- Avery D. Andrews: The major functions of the noun phrase. In: Timothy Shopen (ed.) (2007): Language Typology and Syntactic Description, Volume I: Clause Structure. Second Edition. Cambridge University Press. ISBN 978-0-521-58156-1.
Clusivity
: clusivity
Values: | Ex | In |
包括性 (clusivity) とは,1人称複数代名詞 (pronouns) についての特性を指す.また,包括性は動詞 (verbs) の屈折にも反映される (e.g. Plains Cree (Wolvengrey 2011 p. 66))
In
: 内包的 (inclusive)
聞き手を含む (i.e. we = I + you (+they)).
例
- [id] kita “we”
- [crk] kiwīcihānaw “we (I+you) help him”
Ex
: 排他的 (exclusive)
聞き手を排除する (i.e. we = I + they).
例
- [id] kami “we”
- [crk] niwīcihānān “we (I+they) help him”
参考文献
- Arok Elessar Wolvengrey. 2011. Semantic and pragmatic functions in Plains Cree syntax (PhD thesis). LOT, Utrecht, Netherlands. ISBN 978-94-6093-051-5.
ConjType
: conjunction type
ここまで,接続詞について2つのタイプ,すなわち等位接続詞 (coordinating conjunctions) と従属接続詞 (subordinating conjunctions) をPOSタグから区別してきた.しかし,接続詞にはまだ説明していない他の (下位?) タイプが存在する.
Comp: 比較接続詞 (comparing conjunction)
例: [de] wie (as), als (than)
Oper: 数学の演算子 (mathematical operator)
数学の演算子は記号か語によって表現される.
例: [cs] krát (times), plus, minus
Definite
: definiteness or state
Values: | Com | Cons | Def | Ind | Spec |
定性 (definiteness) とは,典型的に名詞,形容詞および冠詞に関する特徴を指す.その値は,既知で具体的なものか,一般的か,未知のものかによって区別される.定性は,定/不定冠詞 (articles)もしくは,名詞 (nouns), 形容詞 (adjectives)で標示される. アラビア語において,定性は”state”とも呼ばれる.
Ind
: 不定 (indefinite)
Spec
が区別される言語において,値Ind
は非特定的・不定として解釈される (i.e. “any (one) stick”).
例
- [en] a dog
- [sv] en hund “a dog”
Spec
: 特定的な不定 (specific indefinite)
特定的な不定 (e.g. “a certain stick”) はラコタ語などに生起する.特定的な不定が用いられる言語において,値Ind
は非特定的な不定として解釈される (i.e. “any (one) stick”).
Def
: 定 (definite)
例
- [en] the dog
- [sv] hunden “the dog”
Cons
: 連語形 (construct state / reduced definiteness)
連語形 (construct state) はアラビア語で用いられる.2つの名詞が所有関係 (genitive relation) にあるとき,先頭の名詞 (“nomen regens”) は”縮約定性 (reduced definiteness)”を有し,後続の名詞は属格となり,それは定か不定のどちらかである.縮約形 (reduced form) は定の形態素 (冠詞) および不定の形態素 (nunation) を持たない.
UD v1において,この値はRed
と呼ばれた.UD v2ではCons
とリネームされた.
例
- [ar] indefinite state: حلوَةٌ ḥulwatun “a sweet”; definite state: الحلوَةُ al-ḥulwatu “the sweet”; construct state: حلوَةُ ḥulwatu “sweet of”.
Com
: 複雑な定性 (complex)
このタイプの定性はアラビア語における適正でない併合 (improper annexation)に用いられる.上記の所有構文 (genitive construction) は主に2つの名詞から構成される (first reduced, second genitive).これは,アラビア語において適正な併合 (proper annexation) もしくは iḍāfaと呼ばれる. 先頭要素が形容詞もしくは形容詞的に用いられた分詞であり,かつ2番目の要素が定名詞である場合,この構文は “適正でない併合 (improper annexation)” もしくは “false iḍāfa” と呼ばれる.その結果.この構文は複合形容詞 (compound adjective) となり,限定付加詞 (attributive adjunct) として用いられる.そして,この構文は定性に関して被修飾名詞と一致 (agree) しなければならない.また,先頭要素 (形容詞もしくは分詞) が定冠詞をとる場合では,これが定名詞と同じ形式であるように見えるため,派生元が異なることを示すためにも_複雑な_定性の値が付与される.詳細はHajič et al. p.3 についても参照されたい.
例:
- [ar] مُخْتَلِفٌ muxtalifun “different/various” (能動分詞, Form VIII); نَوْعٌ ج أنْوَاعٌ nawˀun ja anwāˀun “kind”; مُخْتَلِفُ الأنْوَاعِ muxtalifu al-anwāˀi “of various kinds” (false iḍāfa); مَشَاكِلُ مُخْتَلِفَةُ الأنْوَاعِ mašākilu muxtalifatu al-anwāˀi “problems of various kinds”; اَلْمَشَاكِلُ الْمُخْتَلِفَةُ الأنْوَاعِ al-mašākilu al-muxtalifatu al-anwāˀi “the problems of various kinds”.
Degree
: degree of comparison
Values: | Abs | Cmp | Equ | Pos | Sup |
比較の程度 (degree of comparison) とは,典型的には形容詞 (adjectives) と副詞 (adverbs) の屈折素性を指す.
Pos
: positive, first degree
語基 (base) の形式をとり,何かの性質を述べるだけで他との比較を行わない.この程度 (degree) は伝統的には”positive”と呼ばれるものの,負の性質も比較することができる.
例
- [en] young man
- [cs] mladý muž
Equ
: 等価 (equative)
ある事物の性質について,同じ性質をもつ他の事物と比較したとき,それが同一であるか類似している場合がある (“as X as”).これについて標示を受けるのは形容詞であり,比較基準となる名詞を標示する等格 (Case) とは区別されることに注意したい.
例
- [et] pikkune (pikkus+ne) “as tall as”
Cmp
: 比較級 (comparative, second degree)
ある事物の性質について,同じ性質をもつ他の事物と比較される.
例
- [en] the man is younger than me
- [cs] ten muž je mladší než já
Sup
: 最上級 (superlative, third degree)
ある事物の性質について,それが属する集合における他の全ての成員と比較される.
例
- [en] this is the youngest man in our team
- [cs] toto je nejmladší muž v našem týmu
Abs
: 絶対最上級 (absolute superlative)
いくつかの言語では,事物の特定の性質が強すぎるが故に,他の事物がそれを超えないことを形態的に表すことができる.その性質は他の事物と比較ができない.
例
- [es] guapo “handsome”; guapísimo “indescribably handsome”
Echo
: is this an echo word or a reduplicative?
この素性はブール型であり,重複語 (reduplicative word) もしくはエコー (echo word) かどうかを判別する.これらの語はヒンディー語およびインドの他言語に存在する.Hyderabad Dependency Treebankでは固有の品詞タグとしてRDPとECHを備える.しかし,その語がRDPかECH (エコーする語と同一の語) であるかどうかとは独立してPOSタグを付与できるので,UDではこれらを別個の品詞としては扱わない.そして,おそらくこの素性と”hyphは”compound”と呼ぶようなものへ統合されるだろう.
Rdp: 重複 (reduplicative)
重複語は先行する語のコピーである.ヒンディー語では,重複によって分配 (“one rupee each”),分離 (“sit separately”),多様さ,もしくは単に強調の意味を加えることがある.
例: [hi] “कभी - कभी” = “kabhī - kabhī” = “sometimes”, “कभी” = “kabhī” = “sometimes”; “एक एक” = “eka eka” = “one each”, “एक” = “eka” = “one”
Ech: エコー (echo)
エコーは先行する語の韻を踏むが,その語とは同一の形式をとらず,エコー自体は意味を成さない.ヒンディー語では,エコーは先行語の意味を一般化し,”or something”, “etc.” といった意味としても用いられる.
例: [hi] “चाय वाय” = “čāya vāya” = “tea or something” (as in “Have some tea or something.”)
さらなる詳細については Rupert Snell and Simon Weightman: Teach Yourself Hindi, Section 16.4 and 16.5, pages 210 – 211. を参照されたい.
ErgDatGender
: gender agreement with ergative/dative argument
Gender[erg], Gender[dat]
多くの印欧語では,定動詞 (finite verb) は人称 (person) と数 (number) に関して主語と一致 (agree) する.バスク語 (a polypersonal language) では,特定の動詞が最大3つの項との一致を明示的に表す: 絶対 格 (absolute case),能格 (ergative case),与格 (dative). よって,dakarkiogu “we bring it to him/her” において,akar_は語幹 (_ekarri = “bring”) であり,d は “it” を表し (絶対格項は他動詞の直接目的語),_ki_は与格を表し,_o_は “he” を表す.そして,_gu_は “we” を示している (能格項は他動詞の主語).
インフォーマルな使用域 (register) では,男性 (masculine) と女性 (feminine) について独立した形式を持つ.しかし,他の場合では性 (gender) が区別されない.
Gender[erg]
は動詞の能格項の性を示す.Interset 2.041 で対応する素性はerggender
と呼ばれる.Gender[dat]
は動詞の与格項の性を示す.Interset 2.041 で対応する素性はdatgender
と呼ばれる.
Masc: 男性
例: [eu] ukan ezak “have it” Gender[erg]=Masc|Number[abs]=Sing|Number[erg]=Sing|Person[abs]=3|Person[erg]=2|Polite[erg]=Inf
(男性に呼びかける命令法 (imprerative))
Fem: 女性
例: [eu] ukan ezan “have it” Gender[erg]=Fem|Number[abs]=Sing|Number[erg]=Sing|Person[abs]=3|Person[erg]=2|Polite[erg]=Inf
(女性に呼びかける命令法)
Evident
: evidentiality
Values: | Fh | Nfh |
証拠性 (evidentiality) とは話者の情報源に対する形態標示を指し (Aikhenvald, 2004), 証拠性は時おり,法 (mood) やモダリティ (modality) のカテゴリから捉えられる.
世界の言語をみると証拠性に関して多様な値 (value) が観察されるが,現状ではトルコ語で必要となる直接的 (firsthand) 対 非直接的 (non-firsthand) の区別のみがカバーされている.トルコ語では通常の過去時制 (直接的,定の過去時制,直接目撃過去 (seen past tense)) を_miş_-pastと呼ばれるものから区別する(非直接的,不定の過去時制,伝聞過去 (heard past tense)).
さらにAikhenvaldは報告的証拠性 (reported evidentiality) も認定しており,これは特にエストニア語とラトビア語に生起する.この証拠性に対しては法 (Mood) が用いられる.
注意: Evident
はUD v2より用いられる普遍的素性である.UDv1ではその素性は言語固有の素性 (Evidentiality
という名称で) としてトルコ語に対して用いられた.
Fh
: 直接的 (firsthand)
例
- [tr] geldi “he/she/it came” (and I was there and saw them coming)
Nfh
: 非直接的 (non-firsthand)
例
- [tr] gelmiş “he/she/it has come” (I did not witness them coming but I know it because someone told me / because I see that they are there now)
参考文献
- Aikhenvald, Alexandra Y. 2004. Evidentiality. Oxford: Oxford University Press.
Foreign
: is this a foreign word?
Values: | Yes |
この素性はブール型 (i.e. 2値) であり,当該表現が外国語であるかどうかを判別する.借用語 (loan word) や外国語の名称ではなく,本当に外国語が母国語のテキスト (直接話法 (direct speech) の内部や書籍のタイトルなど) に現れることがある.この素性は (分析不可能なトークンにおいて) u-pos/Xの品詞タグに適用される.もしくは,そのトークンの品詞が判明していて,かつ元々の言語における品詞としてタグ付けしたい場合にも適用される.
注意: この素性はUDv2で新たに設定されたものである.元々は言語固有の素性としていくつかのツリーバンクで用いられていたが,ブール型ではなく3値をとるものも確認された.しかし,他の値は滅多に用いられないのでUDv2ではこのような定義を採用しない.
Yes
: it is foreign
Example: [en] He said I could “dra åt helvete!“
Gender
: gender
Values: | Com | Fem | Masc | Neut |
Gender
は名詞 (nouns) の語彙的素性であり,名詞との一致を標示する他の品詞 (代名詞 (pronouns),形容詞 (adjectives),限定詞 (determiners),数詞 (numerals),動詞 (verbs)) における屈折素性でもある.英語では,性 (gender) は人称代名詞 (he / she / it) の選択についてにのみ影響を与えるため,素性Gender
は英語のタグセットでエンコードしないのが通例である.
これに関連する素性として,有生性 (Animacy) も参照されたい.
アフリカの言語は名詞クラス (noun classes) に類似した素性をもつ: 平たい物体や細長い物体といったものでも文法範疇から区別されるかもしれない.
Masc
: 男性 (masculine gender)
男性の人物を指示する名詞は男性 (masculine) の性 (gender) をとる.他の名詞も,性別 (sex) について無関係だが文法的に男性をとることがある.
例
- [cs] hrad “castle”
Fem
: 女性 (feminine gender)
女性の人物を指示する名詞は女性 (feminine) の性 (gender) をとる.他の名詞も,性別 (sex) について無関係だが文法的に女性をとることがある.
例
- [de] Burg “castle”
Neut
: 中性 (neuter gender)
性 (gender) を男性/女性についてのみ区別する言語がある一方で,(文法的に) そのどちらでもない3番目の性を持つ言語もある.
例
- [en] castle
- [cs] dítě “child”
Com
: 汎性 (common gender)
いくつかの言語では,大抵の場合で男性/女性の区別を設けないが,中性 (neuter) かそうでないか (non-neuter) については区別するものがある (スウェーデン語における neutrum/utrum の区別).非中性的なものは汎性 (common gender) と呼ばれる.
汎性は結合した値Gender=Fem,Masc
として表現できるだろうが,Com
の独立性は保持される.結合した値は例外的に用いられるべきであって,文法内で体系的に起こるものに対しては適用すべきでない.上記のガイドラインを特定の言語向けに拡張するのであれば,当該言語において値Com
の使用が適切かどうかを決定すべきである.
値Com
について注意が必要なのは,Masc
とFem
を区別する言語において (コンテクストを参照しない限り) 語単体からは性が分からないような事例へ適用するようには意図されていない,ということである.
例えば,スペイン語では名詞を男性と女性に区別するため,全ての名詞はMasc
もしくはFem
として分類される.形容詞は性 (および数) について名詞と一致し,-o / -a_を交替させることで区別される.ただし,_grande もしくは feliz のように,両方の性に対して1つの形式しかもたないような名詞も存在し,これらはコンテクストを参照しない限りどちらか性であるかが判明しない.とはいえ,それらの形容詞は必ず男性か女性かのどちらかをとる (_una ciudad grande_では女性,_un puerto grande_では男性) ため,_grande_をGender=Com
とタグ付けするわけにはいかない.代替案としては,そもそも性の素性を仮定しない (_grande_が性に関して屈折しないと考える) か,コンテクスト上に生起する_grande_のインスタンスを男性または女性としてタグ付けすることが考えられる.
Hyph
: hyphenated compound or part of it
この素性はブール型であり,当該表現がハイフン付きの複合語 (hyphenated compound) かどうかを判別する.トークン化 (tokenization) のあり方によって,当該の複合語が単一のトークンである場合と複数のトークンに分離される場合がある; よって,そのようなトークンを識別するタグが必要になる.
Yes: ハイフン付き複合語の部分である
例: “anglo-“ in “anglo-saxon”; [cs] “česko-slovenský” (Czecho-Slovak; 2番目の要素は通常の形容詞なので形容詞のパラダイムに含まれるが,1番目の要素は特殊である.)
Mood
: mood
Values: | Adm | Cnd | Des | Imp | Ind | Jus | Nec | Opt | Pot | Prp | Qot | Sub |
法・ムード (mood) はモダリティ (modality) を表し,定動詞の語形の下位範疇を形成する.
Ind
: 直接法 (indicative)
直接法はデフォルトの法だと考えられる.直接法をとる動詞は,単に何かが起きる/起きた/起きるだろう ということを表すだけであり,話者の態度 (attitude) は一切加えられない.
例
- [cs] Studuješ na univerzitě. “You study at the university.”
- [de] Du studierst an der Universität. “You study at the university.”
- [fr] Tu le fais. “You do it.”
- [tr] eve gidiyor “she is going home”
- [tr] eve gitti “she went home”
Imp
: 命令法 (imperative)
話者は命令法を用いて聞き手に動詞が示す行為を行うよう命じる/依頼する.
例
- [cs] Studuj na univerzitě! “Study at the university!”
- [de] Studiere an der Universität! “Study at the university!”
- [tr] eve git “go home!”
- [tr] eve gidin “go home!” (plural)
- [tr] eve gitsin “[let him] go home!” (3rd person imperative)
- [sa] ब्रूहि राजः / brūhi rājaḥ “tell the king”
Cnd
: 条件法 (conditional)
条件法は特定の状況下で起きる行為を表すが,それは実際には 起こらない/起きない.いくつかの言語の文法では条件法を (法ではなく) 時制 (tense) に分類するが,チェコ語といった言語では条件法を時制 (2種の時制; 過去時制,現在時制) との組み合わせによって表現する.
例
- [cs] Kdybych byl chytrý, studoval bych na univerzitě. “If I were smart I would study at the university” (助動詞の_bych_だけが条件法に特有のものである; 能動的な分詞_byl_ は条件法を分析的に形成するのに必要であるが,過去時制の直接法を形成するためにも用いられるので_byl_は単に分詞としてタグ付けられる.)
- [tr] eve gittiyse “if she went home”
- [tr] eve gidiyorsa “if she is going home”
- [tr] eve giderse “if she goes home”
- [tr] eve gidecekdiyse “if she was going to go home”
Pot
: 可能法 (potential)
可能法は動詞の示す行為が起こりうることを表すが,それ実現するかどうかは分からない.このムードは法動詞_can, might, be able to_に対応する.可能法はフィンランド語などで用いられる.また,希求法 (optative) も参照されたい.
例
- [tr] eve gidebilir “she can go home”
- [tr] eve gidemeyebilir “she may not be able to go home”
Sub
: 接続法 (subjunctive / conjunctive)
接続法は特定の状況下で従属節 (subordinate clauses) に用いられ,それは特定の行為が想像上のもの,もしくは実現が不確かであることを表す.ドイツ語では,接続法は条件的意味を伝達するのに用いられる.
例
- [fr] Je veux que tu le fasses “I want you to do it” lit. I want that you it do.Sub
Jus
: 指令法 (jussive / injunctive)
指令法は特定の行為が起こる望みを表す; これは命令法 (imperative) と希求法 (optative) の両方に類似している.願望法 (desiderative) とは異なり,行為が起きることを望んでいるのは主語ではなく常に話者である.指令法はアラビア語などで用いられる.また,サンスクリット語の指令法 (injunctive) はMood=Jus
へ対応づけられる.
例
- [sa] मैवं वोचः / maivaṁ vocaḥ “Do not speak this way”
Prp
: 目的法 (purposive)
目的法は”in order to”を意味し,アマゾンの言語に現れる.
Qot
: 引用法 (quotative)
引用法はエストニア語などで用いられ,直接話法 (direct speech) を表す.
Opt
: 希求法 (optative)
希求法は “May you have a long life!” や “If only I were rich!” のように用いられ,感嘆の意を示す.トルコ語では提案も表し,サンスクリット語では可能性も表す (他言語における可能法 (potential mood) に相当).
例
- [tr] eve gidelim ‘let’s go home’
- [sa] अप्रधानः प्रधानः स्यात् / apradhānaḥ pradhānaḥ syāt “the unimportant person may be (become) important”
Des
: 願望法 (desiderative)
願望法は法動詞”want to”に対応する: ““He wants to come.”” 願望法はトルコ語などで用いられる.
Nec
: 必然法 (necessitative)
必然法は事象の必然性を表し,法動詞”must, shoud, have to”に対応する: “He must come.”
例
- [tr] eve gitmeli ‘she should go home’
- [tr] eve gitmeliydi ‘she should have gone home’
Adm
: 感嘆法 (admirative)
感嘆法は驚き,皮肉や疑いを表す.感嘆法はアルバニア語や他のバルカン諸語,およびカドー語 (Caddo; オクラホマのネイティブアメリカンが話す言語) などで用いられる.
NameType
: type of named entity
この素性は名称の付いた存在物を分類する (token-based, no nesting of entities etc.). この素性は主にcs-pos/PROPNタグに適用される; 複数の語から成る外国語の名称については,形容詞 (adjectives) もこの素性を持つ
Geo
: 地理的な名称
都市,国家,河川,山といったものの名称
例
- Praha “Prague”, Kostelec nad Černými lesy , Německo “Germany”
Prs
: 人名
この値は,名 (given name) か姓かどうか判断できないものの,人名だと判断できるような名称に対して用いられる.
Giv
: 名 (given name of person)
名 (ファミリーネームでない) を表す.これは,欧米人のファーストネームや中国語における (3つの) 音節の後ろから2つに相当する.
Sur
: 姓/ファミリーネーム
ファミリーネーム (姓) を表す.これは,欧米人のラストネームや中国語における (3つの) 音節の先頭に相当する.
Nat
: 国籍
特定の国家もしくは,特定の領地の住人を示す.
例
- Čech “Czech”, Němec “German”, Pražan “Praguer”
Com
: 会社,組織
Pro
: 製品
Oth
: その他
競技場,ゲリラ拠点,イベントなどの名称.
NounClass
: noun class
Values: | Bantu1 | Bantu2 | Bantu3 | Bantu4 | Bantu5 | Bantu6 | Bantu7 | Bantu8 | Bantu9 | Bantu10 |
Bantu11 | Bantu12 | Bantu13 | Bantu14 | Bantu15 | Bantu16 | Bantu17 | Bantu18 | Bantu19 | Bantu20 |
NounClass
は性 (Gender) 及び 有生性 (Animacy) に類似している.名詞 (nouns)の語彙カテゴリに含まれ,名詞との一致 (agree) を示す他の品詞 (代名詞 (pronouns), 形容詞 (adjectives), 限定詞 (determiners), 数詞 (numerals), 動詞 (verbs)) の屈折を表すからである.
性と名詞クラスの区別は明瞭ではなく,特定の語族で伝統的に採用された術語法からは区別の条件づけが部分的に与えられる.概して,可能な値 (value) が比較的少なく (大体2-4),その割り振りがヒトや動物の性別に対応するときは,性 (gender) とみなされる.カテゴリの数が多い (10-20) 語族においては,それは名詞クラスと呼ばれる.また,名詞クラス・性の両方を用いる語族は存在しない.
バントゥー諸語では,名詞クラスは数 (Number) もエンコードする; ゆえに,名詞クラスは名詞の語彙的な屈折素性である.バントゥー語に詳しい人ならば名詞クラスから数を推測できるとはいえ,当該の語にはNounClass
に加えてNumber
もタグ付けされる.ただし,このような語の見出し語 (lemma) は単数形であることが望ましい.
この素性の値の集合は語族 (language family) や語群 (language group) によって変わる.語群内では,言語間において意味の類似したクラスを設定可能である (しかし,同じ語群であっても特定のクラスが統合されたり,消失する場合もある). 素性NounClass
の値は,語群 (e,g, Bantu
) における識別子として作用し,クラスの数を与える (バントゥー諸語の研究者の間で標準化されたクラス数の体系が存在する; このような体系は名詞クラスを持つ他の語族でも構築が可能だろう).
Bantu1
: 単数の人物
これに対応する複数形のクラスはBantu2
である.¥
例
- [sw] mtoto “child”
スワヒリ語における名詞クラスのリスト
(https://en.wikipedia.org/wiki/Noun_classより)
クラス数 | 接頭辞 (Prefix) | 典型的な意味 |
---|---|---|
1 | m-, mw-, mu- | singular: persons |
2 | wa-, w- | plural: persons (クラス1の複数) |
3 | m-, mw-, mu- | singular: plants |
4 | mi-, my- | plural: plants (クラス3の複数) |
5 | ji-, j-, Ø- | singular: fruits |
6 | ma-, m- | plural: fruits (クラス5, 9, 11, まれに1の複数) |
7 | ki-, ch- | singular: things |
8 | vi-, vy- | plural: things (クラス7の複数) |
9 | n-, ny-, m-, Ø- | singular: animals, things |
10 | n-, ny-, m-, Ø- | plural: animals, things (クラス9と11の複数) |
11 | u-, w-, uw- | singular: no clear semantics |
15 | ku-, kw- | verbal nouns |
16 | pa- | locative meanings: close to something |
17 | ku- | indefinite locative or directive meaning |
18 | mu-, m- | locative meanings: inside something |
NounType
: noun type
POSタグのレベルで普通名詞 (common noun) と固有名詞 (proper noun) を区別してきたが,他の区別を標示するためのタグセットも存在する.
Class: 類別詞 (classifier)
中国語の類別詞は基数 (cardinal number) と名詞について区別する.ただし,この区別はNounType
の値のみに関係する.Intersetでは“com”と“prop”という値をもつが,Universal Treebanksにおいては,これらはすでにPOSタグから区別されたものとして考える.
NumForm
: numeral form
この素性は基数 (cardinal number) と序数 (ordinal number) を表し,数が数字 (digit) から表されたのか,語として表現されたのかを判別する.筆者の知る限り,この素性は10つ以上のタグセットにみられる.この素性は (ヨーロッパ) アラビア数字とローマ数字を区別するため,欧米言語を中心に用いられる傾向にある.では,他の書記体系ではどうだろうか.インドの書記体系やアラビア語の文字では,当該言語独自の数字とヨーロッパ・アラビア数字の両方が生起する(e.g. 2014 vs. デヴァナーガリーの२०१४).
Word: 語として表現された数
例: one, two, three
Digit: 数字を用いて表現された数
例: 1, 2, 3
Roman: ローマ数字
例: I, II, III
NumType
: numeral type
Values: | Card | Dist | Frac | Mult | Ord | Range | Sets |
いくつかの言語 (特にスラヴ語で) は,数 (numerals) の複雑な体系を備える.例えば,チェコ語の学校文法では”numeral”という数についての主要な品詞があり,これは数えることに関してほとんど全てのものを包含し,いくつものサブタイプが存在する.また,これには,数 (_kolik / how many, tolik / so many, několik / some, a few_といった語) を指示する疑問詞 (interrogative), 関係詞 (relative), 不定の指示語 (indefinite and demonstrative words) も含まれ,PronTypeにおいて,これらは空でない値を持つだろう (英語では,これらの語は数量詞 (quantifier) と呼ばれ,限定詞 (determiners) の下位グループに属する).
統語論の観点からいえば,形容詞のようにふるまうnumtypeもあれば,副詞のようにふるまうものもある.それぞれ,u-pos/ADJとu-pos/ADVのようにタグ付けされる.このように,素性NumType
はさまざまな品詞に適用される:
- u-pos/NUM: 基数 (cardinal numerals)
- u-pos/DET: 数量詞 (quantifiers)
- u-pos/ADJ: 限定形容詞 (definite adjectival; e.g. 序数 (ordinal numerals))
- u-pos/ADV: 副詞的な数詞 (e.g. 序数詞,倍数詞)で,限定的なものと代名詞的なものの両方をもつ
Card
: 基数 (ordinal number) か,それに対応する疑問詞 / 関係詞 / 不定詞 / 指示語
いくつかの印欧語では,thousand, million や_billion_に相当する語は数詞か名詞どちらに属すかが明瞭でない.
例
- [en] one, two, three
- [cs] jeden, dva, tři “one, two, three”; kolik “how many”; několik “some”; tolik “so many”; mnoho “many”; málo “few”
- [cs] čtvero, patero, desatero (four, five, tenの特定の形式; これらは形態的,統語的,そして文体的にみてもデフォルト形式の_čtyři, pět, deset_とは区別される; チェコ語の文法では,これらは “generic numerals” と呼ばれ, 他のあまり見られないタイプも包含する; 普遍的なタイプの中でこれに最も近いのは
Card
である.)
Ord
: 序数 (ordinal number) か,それに対応する疑問詞 / 関係詞 / 不定詞 / 指示語
これは,形容詞か (いくつかの言語では) 副詞である.
例
- [en] first, second, third;
- [cs] adjectival: první “first”; druhý “second”, třetí “third”; kolikátý lit. how manieth “which rank”; několikátý “some rank”; tolikátý “this/that rank”
- [cs] adverbial: poprvé “for the first time”; podruhé “for the second time”; potřetí “for the third time”; pokolikáté “for which time”, poněkolikáté “for x-th time”, potolikáté
Mult
: multiplicative numeral or corresponding interrogative / relative / indefinite / demonstrative word
これは,形容詞か副詞のサブタイプである.
例
- [sl] dvojen “double, twofold”; trojen “triple, threefold”; četveren “fourfold”
- [cs] dvojí “twofold”; trojí “threefold” (multiplicative adjectives)
- [cs] jednou “once”; dvakrát “twice”; třikrát “three times”; kolikrát “how many times”, několikrát “several times”; tolikrát “so many times” (multiplicative adverbs)
Frac
: 分数 (fraction)
基数のサブタイプに属し,コーパスによっては設定されることがある.これは分数もしくは単に分母を表し,さまざまな言語で形態的,統語的に名詞もしくは序数詞としてふるまう.
例
- [en] three-quarters
- [cs] půl / polovina “half”; třetina “one third”; čtvrt / čtvrtina “quarter”
Sets
: 集合の数・集合数詞 (number of sets of things; collective numeral)
これは数詞の独立したクラスであり,事物の集合を数えるために用いられる数詞か,絶対複数 (pluralia tantum) を示す名詞である.研究者によってはこのタイプを集合数詞 (collective numeral) と呼ぶことがある.
例
- [cs] dvoje / troje boty “two / three [pairs of] shoes”; 通常の基数詞とは区別される: dvě / tři boty “two / three shoes”
Dist
: 配分される数 (distributive numeral)
同じ量が特定のターゲット内の各成員に配分されることを表す.
例
- [hu] három-három in gyermekenként három-három ezer forinttal “three thousand forint per child”
Range
: 数値の範囲
基数のサブタイプと考えられ,コーパスによっては設定されることがある.
例
- [en] two-five “two to five” (トークン化の際,全体を1つのトークンとして扱う.)
NumValue
: numeric value
基数の低い数値 (<5) は,スラブ語において形態的・統語的に他と異なるふるまいをみせるため,タグセットによっては両者を区別する (今のところチェコ語やポーランド語で確認される.また,スラブ語ではないがアラビア語にも確認される).
チェコ語では,”one”は加算名詞の性 (gender),数 (number),格 (case) について一致 (agree) する.”two”は性,格,数について一致する.”three”と”four”は格について一致する.これらの数詞は形容詞に類似している.”five”, “six”…は異なるふるまいをみせる.加算対象となる句が属格 (genitive), 与格 (dative), 場所格 (locative) もしくは道具格 (instrumental) である場合,”five”, “six”…は名詞と格ついて一致する.ただし,句が主格 (nominative),対格 (accusative),もしくは呼格 (vocative) をとる場合,上の数詞は名詞が属格であることを要求する.このふるまいは属格名詞によって修飾される名詞のそれに近い (これが,Czech PDTにおいて数詞のノードのいくつかが名詞を修飾するものではなく,名詞を支配する名詞 (governing nouns) としてタグ付けされる理由である).
1: numeric value 1
2: numeric value 2
3: numeric value 3 or 4
Number
: number
Values: | Coll | Count | Dual | Grpa | Grpl | Inv | Pauc | Plur | Ptan | Sing | Tri |
Number
は通常,名詞 (nouns) の屈折素性である.言語によっては,他の品詞 (代名詞 (pronouns),
形容詞 (adjectives), 限定詞 (determiners), 数詞 (numerals), 動詞 (verbs))も数に関して名詞との一致 (agreement) を標示することがある.
Sing
: 単数 (singular number)
人物・動物・事物を1つ示す単数名詞.
例
- [en] car
Plur
: 複数 (plural number)
人物・動物・事物を複数示す複数名詞.
例
- [en] cars
Dual
: 双数 (dual number)
人物・動物・事物を2つ示す双数名詞
例
- [sl] singular glas “voice”, dual glasova “voices”, plural glasovi “voices”
- [ar] singular سَنَةٌ sanatun “year”, dual سَنَتَانِ sanatāni “years”, plural سِنُونَ sinūna “years”.
Tri
: 三数 (trial number)
三数代名詞 (trial pronoun denotes) は人物・動物・事物を3つ示す.三数代名詞 はオーストロネシア諸語のいくつかに現れる.
Pauc
: 少数 (paucal number)
少数名詞 (paucal noun) は“少数の”人物・動物・事物を表す.
Grpa
: 複数の少数 (greater paucal number)
複数少数名詞 (greater paucal noun) は “少数ではないが,多数でない” 人物・動物・事物を指す. オーストロネシア言語のスルスルンガ語 (Sursurunga) に生起する.
Grpl
: 大数 (greater plural number0
大数名詞 (greater plural noun) は “多数の,可能なもの全ての” 人物・動物・事物を指す. その正確な意味は言語によって多岐にわたる.
Inv
: 逆数 (inverse number)
逆数は特定の名詞の数がデフォルトでないことを表す. (名詞よっては単数がデフォルトであったり,複数がデフォルトであったりする.) 逆数はキオワ語 (Kiowa) に生起する.
Count
加算複数 (count plural)
加算複数はブルガリア語やマケドニア語で確認され,”加算形”,”加算複数”,”定量複数” のように,様々な呼び方がある (Sussex and Cubberley 2006, p. 324).
数詞 (numeral) に後続する場合,これは名詞の特殊な複数形となる.
(この形式はスラブ祖語の双数形に起源を持つが,Number=Dual
とは標示されない.
なぜなら,(1)双数はブルガリア語で消失した (2)その形式が2という数と意味的な関連性を持たなくなったからである.)
例
- [bg] tri stola “three chairs” vs. stolove “chairs”
Ptan
: 絶対複数 (plurale tantum)
名詞によっては,例えそれが1つの事物 (意味的に単数) しか表していなくても複数形でしか生起しないようなものがある;
いくつかのタグセットでは.この区別を標示する.
文法的には複数形のようにふるまうので,Plur
はバックオフの値をとる; しかし,性 (gender) も標示する言語については,単数形の不在が性について不明であること意味する場合がある.チェコ語において加算名詞が絶対複数を表す場合,このような特別なタイプの数詞が用いられる (NumType = Sets).
例
- [en] scissors, pants
- [cs] nůžky, kalhoty
Coll
: 集合名詞,質量名詞,絶対単数 (collective / mass / singulare tantum)
集合名詞,質量名詞,絶対単数は単数形の特別例である.これらは文法的単数が事物の集合 (i.e. 意味的に複数) を表す場合に適用される.理論的には複数形を形成できるだろうが,意味的に単数を表すのは難しい. ただし,複数形は”いくつかの種類の”,”いくつかのパッケージの”といった意味を表すことがある.
例
- [cs] lidstvo “mankind”
参考文献
- Sussex, Roland and Cubberley, Paul. 2006. The Slavic Languages. Cambridge University Press.
PartType
: particle type
いくつものタグセットで,不変化詞 (particle) のタイプが示されている.ここではIntersetにあるものを提示し,UDによる不変化詞の新たな定義に整合させる.
Mod: 法不変化詞 (modal particle)
Examples: [bg] май (possibly), нека (let), [cs] ať, kéž, nechť (let)
Emp: 強調不変化詞 (particle of emphasis)0
Examples: [bg] даже (even)
Res: 応答不変化詞 (particle of response)
Examples: yes, no
Inf: 不定詞マーカー (infinitive marker)
これらは従属接続詞 (subordinating conjunctions) だろうか.そうだとすれば,この素性は”conjtype”の値となるだろうか?
Examples: [en] to, [de] zu, [da] at, [sv] att
Vbp: ドイツ語における分離した動詞の接頭辞
他のゲルマン語には動詞不変化詞に類するものがあり,それらは側置詞 (adposition) や副詞に重複する.これらについては,側置詞/副詞のタグを付与した上で素性Vbp
を追加するべきだろうか?
Examples: [de] vor (in “stellen Sie sich vor”)
加えて,複数の言語には疑問不変化詞 (question particles; 疑問文にする i.e. 疑問マーカーとして音声化されるものの一種) や否定不変化詞 (英語の”not”, ドイツ語のGerman “nicht”など; 人によってはこれらを副詞と呼ぶ). Intersetにあるこれら2タイプを捉えるため,”prontype”の値として”int”および”neg”を多用してきたが,prontypeが他の品詞に属することから,この方法には不満が残らないわけではない.しかし,素性”PartType”を維持するとすれば,ここでもやはり値”int”と”neg”を追加しておきたい.
Person
: person
Values: | 0 | 1 | 2 | 3 | 4 |
人称 (person) は,典型的には人称・所有代名詞 (pronouns) / 限定詞 (determiners),および動詞 (verbs) の素性を指す.動詞においては,これは動詞主語の人称を標示する一致素性 (agreement feature) である (バスク語など,言語によっては目的語の人称も標示することがある).動詞に人称を標示することで代名詞を主語として加える必要がなくなるため,時おり省略されることがある (pro-drop)
0
: ゼロ人称 (zero person)
ゼロ人称は非人間的な陳述 (impersonal statement) であり,フィンランド語やプエブロのケラス語に現れる (この構文はフィンランド語に特徴的だが,特殊な形態を用いるわけではないので専用の素性を必要とはしない.しかし,ケラス語ではゼロ人称が独自の形態をもつ (Davis 1964: 75).
1
: 1人称 (first person)
単数の1人称 (singular) は話者/筆者のみを指示し,複数の1人称 (plural) は話者と1人以上の人物を含む.言語によっては (e.g. 台湾語),複数の1人称は包括的 (inclusive) なものと排他的 (exclusive) なものに区別される: 前者は発話の聞き手 (i.e. I + you) を含み,後者は聞き手を含まない (i.e. I + they).
例
- [en] I, we
- [cs] dělám “I do”
2
: 2人称 (second person)
単数の2人称は発話/テキストの聞き手 (読者) を指示し,複数の2人称は複数の聞き手を含み,加えて第三者を含むこともある.
例
- [en] you
- [cs] děláš “you do”
3
: 3人称 (third person)
3人称は,話者でも聞き手でもない1人かそれより多くの人物を指す.
例
- [en] he, she, it, they
- [cs] dělá “he/she/it does”
4
: 4人称 (fourth person)
4人称 (fourth person) は,他の3人称の項と形態的に独立したものとして理解される (e.g. ナバホ語)
参考文献
- Davis, Irvine. 1964. The language of Santa Ana Pueblo (anthropological papers, no. 69). Smithsonian Institution Bureau of American Ethnology, Bulletin 191: Anthropological Papers, Numbers 68-74, Washington, DC: United States Government Printing Office, 53–190.
Polarity
: polarity
Values: | Neg | Pos |
極性 (polarity) は,典型的には動詞 (verbs),形容詞 (adjectives) の素性であるが, 拘束形態素を用いて否定を表す言語においては副詞 (adverbs) や名詞(nouns) も極性の素性を持つ.機能語を用いて否定を表す言語において,PronType=Neg
の標示をうけるpro-form (下記参照) を持たない限り,Polarity
はその機能語を標示するのに用いられる.
正の極性 (肯定) が形態素によって明示的に符号化されるのは稀である.値 Polarity=Pos
は通常,見出し語 (lemma) に否定形を持つものの,否定形式として使っていないこと示すために用いられる.否定が可能であるが,否定形の使用が稀であるような語に対して,Polarity=Pos
を用いるかどうかは任意である.
例えば,チェコ語のあらゆる動詞と形容詞は接頭辞 (prefix) _ne-_を用いて否定が可能である.理論的には名詞も”当該名詞が指示するもの以外”という意味で否定が可能であるが,あまり見られない用法であるため,肯定形をとる名詞すべてにPolarity=Pos
タグを施す必要はない.言語固有のドキュメンテーションにおいては,どの状況下で正の極性がタグ付けされるかを定めておくべきである.
英語では,動詞は不変化詞 (particle) の_not_を用いて否定される.形容詞は接頭辞 (prefix) によっても否定されるが,チェコ語ではこのようなプロセスの生産的が低い (wise – unwise, probable – improbable).
Polarity=Neg
はPronType=Neg
とは異なることに注意されたい.代名詞や代名詞的な品詞では,動詞や形容詞のような2値の対立が存在しない (“肯定代名詞 (affirmative pronoun)” のようなものは存在しない).
素性Polarity
は素性間投詞 (interjections) について,yes と no の返答を区別する役割も持つ.
Pos
: 肯定 (positive, affirmative)
例
- [cs] přišel “he came”
- [cs] velký “big”
- [en] yes
Neg
: 否定
例
- [cs] nepřišel “he did not come”
- [cs] nevelký “not big”
- [en] not
- [en] no as in no, I don’t think so; but not as in we have no bananas
Polite
: politeness
Values: | Elev | Form | Humb | Infm |
丁寧さ (politenss) や尊敬 (respect) を表す手段は多岐にわたる; 1つの手段として,形態論的な方法がある.言語学の文献によると,丁寧さの次元は3つから4つあるとされる.素性Polite
は今のところ2つの次元についてカバーしている; UDの将来のバージョンでは,必要に応じて洗練された値 (value) の体系が構築されるだろう.現時点でカバーされる2つの軸 (axis) とは次のものである:
- 話者-指示対象 (聞き手が指示対象である場合も,これに含まれる)
- 話者-聞き手 (聞き手が指示対象ではないが,聞き手が誰かによって語形が変化する)
印欧語において代名詞が発話に含まれる際に代名詞もしくは動詞の人称 (person) および数 (number) が変更される現象は,話者-指示対象の軸に属する.尊敬代名詞 (honorific pronouns) は聞き手を指示するために用いられるからである.
チェコ語ではフォーマルな2人称が単複同形であり,インフォーマルな2人称複数とも同一である.そのため,フォーマルな言い方をする場合であっても代名詞と定の動詞 (分詞 (participle) はそうでない) は特別な形式を持たない (すなわち,フォーマルな単数形はインフォーマルな単数形と同一であるが,インフォーマルな複数形とは同一でない).
ドイツ語,スペイン語もしくはヒンディー語では,数と人称が変化する (インフォーマルな3人称はフォーマルな2人称として用いられる).さらに,フォーマルな使用域 (register) でのみ生起する特別な代名詞がある ([de] Sie; [es] usted, ustedes; [hi] आप āpa).
日本語では,動詞と他の語は丁寧さを表す形式とインフォーマルな形式を持つ.しかし,丁寧さを表す形式は聞き手を指示しない (2人称には存在しない).主題 (topic) が聞き手に関与しないとしても,これらの形式は聞き手が誰なのかを示すために用いられる.この種の丁寧さを表すことばは丁寧語 (teineigo) と呼ばれ,これは話者-聞き手の軸に属する.しかし,現行の取り組みでは両軸に対して同じ値を用いる.つまり,Polite=Form
が丁寧語にも用いられるということである.
Infm
: インフォーマルな使用域 (informal register)
使用法は多岐にわたる.ただし,当該言語が丁寧さのレベルを区別するとすれば,インフォーマルな使用域とは家族や近しい友人とのコミュニケーションを意味する.
例:
- [cs] ty jdeš / vy jdete (you go.Sing/Plur)
- [de] du gehst / ihr geht (you go.Sing/Plur)
- [es] tú vas / vosotros vais (you go.Sing/Plur)
- [ja] 行かない ikanai (will not go)
Form
: フォーマルな使用域 (formal register)
この使用法は多岐にわたる.当該言語が丁寧さに関して区別するのであれば,フォーマルな使用域とは,知らない人および話者よりも社会的地位が高い人とのコミュニケーションを意味する.
例:
- [cs] vy jdete (you go.Sing/Plur)
- [de] Sie gehen (you go.Sing/Plur)
- [es] usted va / ustedes van (you go.Sing/Plur)
- [ja] 行きません ikimasen (will not go)
Elev
: 指示対象の格上げ (referent elevating)
この使用域は話者-指示対象の軸に属し,フォーマルな使用域のサブタイプに属するものとして捉えられる.例としては日本語の尊敬語 (sonkeigo) があり,これは指示対象の地位を上げるような尊敬形 (honorific forms) の集合を指す.
- [ja] なさる nasaru, なさいます nasaimasu (to do; 客や目上の人について話す場合)
Humb
: 話者の謙遜 (speaker humbling)
この使用域は話者-指示対象の軸に属し,フォーマルな使用域のサブタイプに属するものとして捉えられる.例としては日本語の謙譲語 (kenjōgo) があり,これは話者の地位を下げることによって相対的に指示対象の地位を上げるような尊敬形 (honorific forms) の集合を指す.
- [ja] いたす itasu, いたします itashimasu (to do; 話者や話者の属するグループの成員による行為を指す場合)
参考文献
- Brown, Penelope and Stephen C. Levinson. 1987. Politeness: Some Universals in Language Usage. Studies in Interactional Sociolinguistics, Cambridge, UK: Cambridge University Press.
- Comrie, Bernard. 1976. Linguistic politeness axes: Speaker-addressee, speaker-referent, speaker-bystander. Pragmatics Microfiche 1.7(A3). Department of Linguistics, University of Cambridge.
- Wenger, James R. 1982. Some Universals of Honorific Language with Special Reference to Japanese. Ph.D. thesis, University of Arizona, Tucson, AZ.
Poss
: possessive
Values: | Yes |
この素性はブール型であり,代名詞か限定詞もしくは形容詞かを判別する.また,この素性は当該の語が所有格 (possessive) かどうかを判別する.
多くのタグセットでは複数ある代名詞のタイプの1つとして”possessive”を備えるが,Poss
は他の代名詞のタイプから独立していため,PronTypeとの区別は意図的である.複数の代名詞のタイプは所有格を任意的にとり,それは形容詞についても同様である.
Yes
: 所有格である
値No
は存在しない.当該の語が所有格でなければ,素性Poss
はそもそもFEAT
カラムに記載されないからである (空の値はNo
の意味をもつ)
例
- [en] my, your, his, mine, yours, whose
- [cs] possessive determiners: můj, tvůj, jeho, její, náš, váš, svůj, čí, jejichž
- [cs] possessive adjectives: otcův “father’s”, matčin “mother’s”
PossGender
: possessor’s gender
所有形容詞・代名詞 (possessive adjectives and pronouns) は2つの異なる性 (gender) を持つことがある: 所有物 (被修飾名詞との性の一致 (agreement)) と所有者 (語彙的な素性であり,固有の性をもつ).素性PossGender
は所有者の性を表す.今のところ一部しかコーパスでは観察されないが,議論を簡潔にするため,この素性の可能な値はGender
のものと同一だと考えたい.
以下に示すチェコ語の例では,男性 (masculiune) のPossGender
が接尾辞 -ův, -ova, -ovo, を含意し,女性 (feminine) のPossGender
は
-in, -ina, -ino のいずれかを使用していることを含意する.
Masc: 男性の所有者 (masculine possessor)
Examples: [cs] otcův syn (father’s son; PossGender=Masc|Gender=Masc); otcova dcera (father’s daughter; PossGender=Masc|Gender=Fem); otcovo dítě (father’s child; PossGender=Masc|Gender=Neut).
Fem: 女性の所有者 (feminine possessor)
Examples: [cs] matčin syn (mother’s son; PossGender=Fem|Gender=Masc); matčina dcera (mother’s daughter; PossGender=Fem|Gender=Fem); matčino dítě (mother’s child; PossGender=Fem|Gender=Neut).
PossNumber
: possessor’s number
所有形 (possessives) は2つの異なる数 (number) を持つ: 所有物 (被修飾名詞との数の一致 (agreement)) と所有者.素性PossNumber
は所有者の数を捉えることができる.今のところコーパスで観察されるのは一部に過ぎないが,議論を簡潔にするため,この素性の値はNumber
の値と同一だと考えたい.
Sing: 単数の所有者 (singular possessor)
Examples: [en] my, his, her, its; [cs] můj pes (my dog; PossNumber=Sing|Number=Sing); mí psi (my dogs; PossNumber=Sing|Number=Plur).
Plur: 複数の所有者 (plural possessor)
Examples: [en] our, their; [cs] náš pes (our dog; PossNumber=Plur|Number=Sing); naši psi (our dogs; PossNumber=Plur|Number=Plur).
PossPerson
: possessor’s person
素性PossPerson
は所有者の人称 (person) を表し,ハンガリー語の名詞などで標示される.これらの名詞形は英語の 所有代名詞+名詞 に翻訳されるだろう.
現行のIntersetには一貫しない部分があることに注意されたい: この素性を導入したのならば他言語の所有代名詞にも用いるべきだが,代名詞における所有者の人称は伝統的に”Person”から捉えられてきた; また,PossPerson
を所有代名詞に用いると他の部分について不整合を招くことになるだろう.いくつかの言語では,所有代名詞は所有格の人称代名詞と同一だからである.
1: 1人称の所有者
例: [hu] kutya = dog; kutyám = my dog; kutyánk = our dog.
2: 2人称の所有者 (second person possessor)
例: [hu] kutya = dog; kutyád = your.Sing dog; kutyátok = your.Plur dog.
3: 3人称の所有者 (third person possessor)
例: [hu] kutya = dog; kutyája = his/her/its dog; kutyájuk = their dog.
PossedNumber
: possessed object’s number
PossedNumber
PossedNumberは所有物の数 (number) を指す.ハンガリー語では,所有は所有者か所有物への標示によって表される.また,稀であるが名詞は3つの異なる数を持つことがある: それ自身の文法的数,所有者の数,所有物の数.以下の例はMultext-East Hungarian lexiconによるものである:
- könnyedén (SSS)
- könny = a tear (単数)
- könnyed = your tear (単数の所有者)
- könnyedé = (possession) of your tear (単数の所有)
- könnyedén = (on the possession) of your tear (superessive case)
- ellenfeleié (PSS)
- ellenfél = an opponent (単数)
- ellenfele = his/her/its opponent (単数の所有者)
- ellenfelei = his/her/its opponents (複数の所有物,単数の所有者)
- ellenfeleié = (possession) of his/her/its opponents (単数の所有)
- életeké (SPS)
- él = point (単数)
- élek = points (複数)
- élén = his/her/its point (単数の所有者)
- élünk = our point (複数の所有者)
- életeké = (possession) of our point (単数の所有)
- tárgyalópartnereinkét (PPS)
- tárgyalópartner = negotiator (単数)
- tárgyalópartnerei = his/her/its negotiators (複数,単数の所有者)
- tárgyalópartnereinkét = (possession) of our negotiators (複数,複数の所有者,単数の所有,対格 (accusative case))
複数の所有が標示される語は非常に稀である.以下の例はMultext-Eastのものであり,Columbusは複数の所有が標示されているが,その所有者は明示されていない.
- Kolumbuszéinál
- Kolumbusz = Columbus (singular)
- Kolumbuszéi = (possessions) of Columbus (複数の所有)
- Kolumbuszéinál = (at the possessions) of Columbus (接格 (adessive case))
Sing: 単数の所有
Plur: 複数の所有
Prefix
: Word functions as a prefix in a compund construction
この素性はブール型である.複合語内において,当該表現が自立しない接頭語 (prefix word) であるかどうかを決定する.
これらの語はinter-
(inter disciplinary), post-
(post traumatic), un-
(un avoidable), di-
(di transitive) といった英語の接頭辞に対応するが,他の言語では独立したトークン (ハイフンなしで) として実現される場合がある.
Yes: 複合語における接頭辞である
PrepCase
: case form sensitive to prepositions
言語によっては,人称代名詞が前置詞の目的語になるかどうかで異なる形式を持つことがある.例えば,チェコ語の前置詞を伴わない on (he) は jemu/DAT (与格), jeho/ACC (対格), jím/INS (具格) という形式をとる一方,前置詞を伴う場合は němu/DAT, něho/ACC, ním/INS という形式をとる. 同様に,ポルトガル語における前置詞を伴う斜格 (oblique) 代名詞は,動詞の直接目的語として機能する斜格代名詞とは異なる形式をとる: eu/NOM (I), me/ACC (give me that), mim/PREP-ACC (come to me).
デフォルトの空の値は当該の語形が前置詞が伴うかどうかに関して中立的であることを示す.
Npr: 前置詞を伴わない場合の格 (non-prepositional case)
この語形は前置詞に後続して用いられない.
例: [cs] jemu = him (与格).
Pre: 前置詞を伴う場合の格 (prepositional case)
この語形は前置詞に後続するとき必ず用いられる.
例: [cs] k němu = to him (与格).
PronType
: pronominal type
Values: | Art | Dem | Emp | Exc | Ind | Int | Neg | Prs | Rcp | Rel | Tot |
この素性は典型的に代名詞 (pronouns), 代名詞的形容詞 (pronominal adjectives) (限定詞 (determiners)), 代名詞的数詞 (numerals) (数量詞 (quantifiers)) および代名詞的副詞 (adverbs) に対して適用される.
Prs
: 人称代名詞,所有代名詞,限定詞
通常の人称代名詞が所有代名詞と区別されることについては,Possを参照されたい.Prs
は再帰代名詞/所有代名詞 (reflexive personal/possessive pronouns) を含むことに注意されたい (e.g. [cs] _se / svůj;_素性Reflexを参照).
例
- [en] I, you, he, she, it, we, they, my, your, his, her, its, our, their, mine, yours, hers, ours, theirs
- [cs] já, ty, on, ona, ono, my, vy, oni, ony, se, můj, tvůj, jeho, její, náš, váš, jejich, svůj
Rcp
: 相互代名詞 (reciprocal pronoun)
この値は特に相互的である代名詞に対して用いられる.互恵的意味が再帰代名詞によって表される場合でも,当該の語は依然として再帰代名詞としてラベル付けされる (PronType=Prs|Reflex=Yes
). コンテクスト上で互恵的意味が現れる場合は,相互代名詞としては標示されない.
相互的とは,複数を表す主語がある場合に各成員が述語 (predicate) の指す行為を行うことを意味する.そのような意味を表すため,相互代名詞が目的語の位置に用いられる.
例
- [de] einander “each other”
- [da] hinanden “each other”
Art
: 冠詞 (article)
冠詞は限定詞の特殊な事例であり,定性 (definiteness) の素性を持つ (他言語では,この素性は名詞に対して直接標示される).
例
- [en] a, an, the
- [de] ein, eine, der, die, das
- [es] un, una, el, la
Int
: 疑問 (interrogative) 代名詞,限定詞,数詞,副詞
所有疑問代名詞 (whose) は素性Possから区別される場合がある.
例:
- [cs/en] kdo / who, co / what, který / which, čí / whose, kolik / how many, how much, kolikátý / how-maniest (基数の数量詞), kolikrát / how many times, kde / where, kam / where to, kdy / when, jak / how, proč / why
Rel
: 関係 (relative) 代名詞,限定詞,数詞,副詞
多くの言語において,このクラスは疑問詞 (interrogatives) と大いに重複する.とはいえ,関係詞のみに属する代名詞も存在し,言語 (ブルガリア語,ヒンディー語) によっては2つのクラスが独立している場合もある.
例:
- [cs] jenž, což “which”, “that” (疑問代名詞ではなく関係代名詞); jehož “whose” (所有関係代名詞)
Exc
: 感嘆の限定詞 (exclamative determiner)
感嘆の限定詞は,それが修飾している名詞に対する話者の驚きを表す (e.g. what in “What a surprise!”). 多くの言語で感嘆の限定詞は疑問限定詞 (interrogative determiners) から選ばれるので,これらを区別しないタグセットも存在する.
Examples:
- [it] che
- [cs] jaký as in “Jaké překvapení!”
- [en] what as in “What a surprise!”
Dem
: demonstrative pronoun, determiner, numeral or adverb
これらは疑問詞との共通点が多い.タグセットによっては,距離について独立した素性を設定する場合もある (here / there; [es] aquí / ahí / allí).
例
- [cs/en] tento / this, tamten / that, takový / such, týž / same, tolik / so much, tolikátý / so-maniest (基数), tolikrát / so many times, tady / here, tam / there, teď / now, tehdy / then, tak / so
Emp
: 強調の限定詞 (emphatic determiner)
強調の限定詞は,それが依存している名詞を強調する.これらは再帰代名詞や指示代名詞/限定詞に類似している.
例
- [ro] însuși
- [cs] sám
- [en] himself (“He himself did it.”内の)
Tot
: 集合 (collective) 代名詞,限定詞,副詞
例
- [cs/en] každý / every, everybody, everyone, each, všechno / everything, all, všude / everywhere, vždy / always
Neg
: 否定 (neganitve) 代名詞,限定詞,副詞
否定代名詞は否定不変化詞 (particles) や極性 (polarity) に関して屈折する語 (動詞,形容詞など) とは区別される. これらの語にはPronType=Neg
を持ちいず,かわりにPolarity=Neg
を用いる.この詳細についてはPolarityを参照されたい.
例:
- [cs/en] nikdo / nobody, nic / nothing, nijaký / no, ničí / no one’s (否定の所有限定詞 (possessive negative determiner)), žádný / no, none, nikde / nowhere, nikdy / never, nijak / no way (lit. “no-how”)
Ind
: 不定の代名詞,限定詞,数詞,副詞
タグセットによっては“some”と“any”などを区別し,下位分類を設けることがある.そのような区別は普遍的素性 (universal features) に含まれないが,特定の言語向けに拡張したものには追加されるかもしれない.
例
- [cs/en] někdo / somebody, něco / something, některý / some, něčí / someone’s (不定の所有代名詞), několik / a few, several (不定の数詞/数量詞), několikátý / “a fewth”, “severalth” (不定の基数詞), několikrát / a few times, several times, někde / somewhere, někdy / sometimes, nějak / somehow
- [cs/en] kdokoli / anybody, cokoli / anything, kterýkoli / any, číkoli / anyone’s (不定の所有代名詞), kdekoli / anywhere, kdykoli / any time, jakkoli / anyhow
- [cs/en] málokdo / few people, leckdo / quite a few people, kdosi / somebody…
PunctSide
: which side of paired punctuation is this?
この素性は対を成す記号の始点 (initial) と終点 (final) を区別する (スペイン語における括弧,引用符,クエスチョンマーク,エクスクラメーション).これらを “左” “右” と呼ぶと,アラビア語のような右から左に書く言語のことを指すのかどうかで混乱が生じるので,やはり “initial” “final” と表記するのが良いだろう.
Ini: 始点 (initial; 英語のテキストにおける左括弧)
Fin: 終点 (final; 英語のテキストにおける右括弧)
PunctType
: punctuation type
多くのタグセットでは記号 (punctuation) について1つのタグだけを備える一方,他 (Penn Treebank や Swedish Mamba tagset を含む) では記号をより細かに分類している.
Peri: 文末ピリオド; Pennタグセットでは,クエスチョンマークとエクスクラメーションも含む
Qest: クエスチョンマーク
Excl: エクスクラメーションマーク
Quot: 引用符 (言語によって様々)
Brck: 括弧
Comm: カンマ
Colo: コロン; Pennタグセットでは,他の記号は総じて “:” のタグで表される.
Semi: セミコロン
Dash: ダッシュ,ハイフン
Symb: シンボル
Reflex
: reflexive
Values: | Yes |
素性Reflex
はブール型であり,典型的には代名詞 (pronouns) や限定詞 (determiners) に適用される.この素性は当該の語が再帰的 (reflexive) であるかどうかを判別する (i.e. 節主語を指示するかどうか).
多くのタグセットは代名詞のタイプとして”reflexive”を備えるが,その素性はPronType とは意図的に区別される.この素性が代名詞と限定詞で用いられる場合,Person の素性に関して区別するかどうかに関わらず (区別する言語としない言語がある),それはPronType=Prs
に結合されるだろう.
いくつかの言語には再帰動詞 (reflexive verbs) が存在するが,それは実際には再帰代名詞と融合した動詞 (fused verbs) である (その例にはスペイン語の_despertarse_やロシア語の_проснуться_があり,両者は“to wake up”を意味する).よって,これらの事例は,融合したトークンが2つの統語的な語に分離される.そのうち1つは再帰代名詞である.
Yes
: 再帰的である
この素性にはNo
の値が存在しない.当該の語が再帰的でなければ,素性Reflex
はそもそもFEAT
カラムに記載されないからである.(すなわち,空の値がNo
を意味する.)
例
- [cs] 再帰人称代名詞: se, si; 再帰所有代名詞: svůj
Style
: style or sublanguage to which this word form belongs
この素性は語彙的素性 (見出し語には古風なものや口語的なものがある) であるか,形態的素性 (屈折パタンが方言や文体によって規則的に変化する) である.この素性は多くの言語に用いられるが,タグ付けで実際に用いる言語はわずかである (ブルガリア語,チェコ語,デンマーク語,フィンランド語,ハンガリー語にみられる).
Arch: 古風な文体,廃れた文体
Rare: あまり見ない文体
Form: フォーマルな文体,文語体
Poet: 詩
Norm: 通常の文体
Coll: 口語体
Vrnc: 世俗的
Slng: スラング
Expr: 表現的な文体,感情的な文体
Derg: 逸脱した文体
Vulg: 粗野な文体
Subcat
: subcategorization
この素性は動詞の語彙的素性である.タグセットで動詞の自他を区別するものがあるが,多くの言語では動詞の下位範疇はこれよりもはるかに複雑である.
Intr: 自動詞 (intransitive verb)
主語以外に項をとらない動詞.
例: [en] to go
Tran: 他動詞 (transitive verb)
(主語に加え) 項として直接目的語 (対格) をとる動詞.他動詞は受動化が可能であり,その場合は直接目的語が主語になる.
例: [en] to do something, to be done by somebody
Tense
: tense
Values: | Fut | Imp | Past | Pqp | Pres |
時制 (tense) は典型的には動詞 (verbs) の素性であるが,他の品詞 (名詞 (nouns), 形容詞 (adjectives), 副詞 (adverbs)) も,分詞 (participles) といった境界線上にある語が動詞か別の品詞のどちらに属するかによって,時制を持つ場合がある.
時制は当該行為が行われた/行う/行われる時間を指定する.時間は特定の参照点 (reference point) から決定され,発話時点を指す場合もあれば,コンテクストに依存する場合もある.言語によっては (e.g. 英語),時制のいくつかは時制とアスペスト (aspect) との組み合わせから表現される.他の言語 (e.g. チェコ語) ではアスペクトと時制が完全には独立しないものの,それらが分離することもある.
ここで行うのは,単一の語に適用される素性の定義についてである.時制が迂言的に表され (2以上の動詞,すなわち助動詞 (auxiliary verb) の直接法 (indicative) + 主動詞の分詞 から),かつ特定の時制に特有な語が存在しない場合,この素性は時制を明示的に表さないだろう.例えば,[en] I had been there は過去完了 (大過去) の時制をもち,これは助動詞の単純過去_to have_と主動詞_to be_の過去分詞から構成される.そのとき,助動詞は VerbForm=Fin|Mood=Ind|Tense=Past
とタグ付けされ,分詞は VerbForm=Part|Tense=Past
とタグ付けされる; 両者はどちらもTense=Pqp
を持たない一方,ポルトガル語は大過去を一語によって形成することができ,_estivera_といったものは VerbForm=Fin|Mood=Ind|Tense=Pqp
としてタグ付けされるだろう.
Past
: 過去時制/過去形/アオリスト
過去時制は行為が参照点よりも前に発生したことを示す.典型的に参照点は発話時点であり,過去事象は話者がそれについて話す以前に起きたものである.しかし,Tense=Past
は過去分詞と他の分詞を区別するのにも用いられ,また,過去の副動詞 (past converb) を他から区別するためにも使われる; これらの事例で参照点自体は,発話時点と比較して過去かもしれないし,未来かもしれない.
例えば,チェコ語の文_spatřivše vojáky, velmi se ulekli_ “having seen the soldiers, they got very scared” 内にある副動詞 spatřivše “having seen” は,それが「恐れを抱く」という事象よりも前に起こったことを示す.
当該事象の発生が発話時点に先行するとはいえ,この情報は副動詞自体にはエンコードされていない.それは,“getting scared”という事象が過去時制で表されることから生ずるのである.
定動詞のうち,英語の単純過去形がTense=Past
の例に該当する.これは,ドイツ語ではPräteritumに相当し,トルコ語ではnon-narrative pastに相当する.また,ブルガリア語では,アスペクトに関して中立的である過去時制 (アオリスト) に相当し,未完了動詞・完了動詞のどちらでも自由に用いることができる (未完了の欄も参照されたい).
例
- [en] he went home
- [en] he has gone home
Pres
: 現在/非過去時制
現在時制は行為が特定の参照点において進行中であること (もしくは状態) を示す; また,現在時制は習慣的に発生する事象を表すこともできる.典型的に,参照点は発話時点である; しかし,Tense=Pres
は他の分詞 (participle) から現在分詞を区別するのに用いられ,現在の副動詞 (converbs) から他を区別するためにも用いられる.これらの事例では,参照点が発話時点と比べて,過去あるいは未来であることがある.例えば,英語の現在分詞は,過去進行時制 (past progressive tense) を形成するのに用いられるだろう: he was watching TV when I arrived.
同様に,いくつかのスラブ語 (e.g. チェコ語) では未来時制 (future tense) を持つが,現在形が未来の意味を表すような動詞のサブセットも存在する.
例
- [en] he goes home
- [en] he was going home
Fut
: 未来時制 (future tense)
未来時制は参照点よりも後に起こる行為を指す: 典型的な参照点は発話時点である.
例
- [es] irá a la casa “he/she/it will go home”
Imp
: 未完了 (imperfect)
未完了は過去時制の特殊事例であり,ブルガリア語やクロアチア語などで用いられる.注意したいのは,未完了時制は常に 過去時制+未完了アスペクト と同じだと限らないことである.例えば,ブルガリア語において,動詞にはその意味に内在する語彙的アスペクトが含まれるが.これは文法的アスペクトと常に合致するわけではない.主節において,未完了動詞は未完了時制を持ち,完了動詞が完了時制を持つとはいえ,埋め込み節内では両者の規則が破られることもある.
例
- [bg] тя оставаше, където той и да отидеше / tja ostavaše, kădeto toj i da otideše “it remained where he left it”
Pqp
: 大過去 (pluperfect)
大過去とは,過去に起きた特定の行為よりも前に起こった行為を指す.英語において大過去 (過去完了) が分析的に形成される場合には,この値が適用されない.この値はポルトガル語などに適用される.
例
- [pt] afirmou que os sequestradores já ligaram “he said that the kidnappers had already called”
Typo
: is this a misspelled word?
Values: | Yes |
この素性はスペルの誤りや文法のエラーなどを示すが,正例については何も言及しない.
Yes: タイポ (typo) である
例
- [en] Barak Obama
VerbForm
: form of verb or deverbative
Values: | Conv | Fin | Gdv | Ger | Inf | Part | Sup | Vnoun |
名前からして,この素性は動詞 (verbs) だけに適用されるように思えるが,実際はそうでない.当該形式が動詞か他の品詞 (名詞 (nouns), 形容詞 (adjectives),副詞 (adverbs)) のどちらに属するかが不明瞭であるような言語も存在するからである.
例えば,分詞 (participles) は動詞か形容詞のいずれに分類されるが,これは言語やコンテクストに左右される.どちらの場合であっても,VerbForm=Part
は他の動詞形や形容詞形から区別するのに用いられるだろう.
Fin
: 定動詞 (finite verb)
簡単な規則: Moodの値が空でないとき,それは定動詞である. しかし,タグセットによっては動詞形と法を1つの素性として表現する場合もあるので注意されたい.
例
- [en] I do, he does
Inf
: 不定詞 (infinitive)
多くの言語で,不定詞は動詞の引用形である.英語とは異なり,不定詞は定動詞と語形が異なる場合が多い.不定詞は助動詞 (auxiliaries) と組み合わせることで時制 (e.g. 未来時制 [cs] budu sedět vletadle “I will sit in a plane”) を迂言的に表すことがあり,それは法助動詞 (modal verbs) などの項として生起する.言語によっては不定詞が名詞のようにふるまうことがあり,名詞として使用される (英語の動名詞のように).
例
- [de] ich muss gehen “I must go”
Sup
: スピーヌム (supine)
スピーヌムは珍しい動詞形である.スピーヌムはスラブ語 (スロベニア語) のいくつかでは現存しており,移動動詞の項として不定詞の代わりに用いられる (old [cs] jdu spat lit. I-go sleep).
“スピーヌム”と呼ばれる動詞形はスウェーデン語にも存在する.これは分詞の特殊な形式をとり,動詞の合成的な過去形を形成する.スピーヌムは助動詞_ha_ (to have) の後に用いられるが,vara (to be) には後続しない:
- 単純過去: I ate (the) dinner = Jag åt maten (using preterite)
- 合成過去 (Composite past): I have eaten (the) dinner = Jag har ätit maten (スピーヌムを用いて)
- 中性の過去分詞 (Past participle common): (The) dinner is eaten = Maten är äten (過去分詞を用いて)
- 汎性の過去分詞 (Past participle neuter): (The) apple is eaten = Äpplet är ätet
- 複数の過去分詞 (Past participle plural): (The) apples are eaten = Äpplena är ätna
Part
: 分詞 (participle) 動詞的形容詞 (verbal adjective)
分詞 (participle) は動詞と形容詞の性質をもつ不定詞である.その用法は言語間で異なり,複雑時制 (complex tense) や受身 (passives) といった迂言的な動詞形で用いられる; また,純粋な形容詞としても用いられる.
他の素性は,過去/現在分詞の区別 (英語),現在/受動分詞 (チェコ語),未完了/完了分詞 (ヒンディー語) の区別に貢献する.
例
- [en] he could have been prepared if he had forseen it; I will be driving home.
Conv
: 副動詞 (converb), 同時形 (transgressive), 副詞的分詞 (adverbial participle), 動詞的副詞 (verbal adverb)
副動詞は副詞的分詞や同時形 (transgreessive) とも呼ばれ,これは動詞と副詞の性質をもつ不定動詞である.副動詞はスラブ語やインド・アーリヤ諸語に生起する.
この値はUDv1ではTrans
と呼ばれたが,UDv2ではConv
と呼称されている.
例
- [cs] zírali na mne, pevně svírajíce své zbraně “they stared at me while gripping their guns firmly”; udělavši večeři, zavolala rodinu ke stolu “having prepared the dinner, she called her family to the table”
Gdv
: 動詞状形容詞 (gerundive)
動詞状形容詞はラテン語や古代ギリシア語で用いられ,動名詞 (gerund) と混同しないように注意したい.
Ger
: 動名詞 (gerund)
動名詞は動詞と名詞の性質を備えた不定動詞である.英語において動名詞の形式は現在分詞と同一であるため,本タグセットでは両者を区別しない.
VerbForm=Ger
の使用は推奨できない.スペイン語などでは_動名詞 (gerund)_という用語が混乱を生むので,別の値を用いることを推奨する: スペイン語 (および他のロマンス諸語) では,これは現在分詞を指すのでTense=Pres|VerbForm=Part
としてラベル付けすべきである; スラブ語では副動詞 (副詞的分詞) を指すので,VerbForm=Conv
としてラベル付けすべきである; また,UDv1では動詞名詞 (verbal nouns) に対して用いることが推奨されたので,UDv2ではVerbForm=Vnoun
を用いる.
ただし,UDv2でも素性VerbForm=Ger
は利用可能であリ,他の選択肢がなければ許容される.この素性は将来のバージョンで削除されるだろうが,ともかく包括的な調査が必要である.
例
- [en] I look forward to seeing you; he turns a blind eye to my being late
Vnoun
: 動詞的名詞 (verbal noun, masdar)
動詞的名詞は不定詞 (infinitives) とは区別される.研究者によっては,これは”masdars”と呼ばれることがある (e.g. Haspelmath, 1995)
例
- [cs] dělání “doing”
参考文献
- Haspelmath, Martin. 1995. The converb as a cross-linguistically valid category. Converbs in Cross-Linguistic Perspective: Structure and Meaning of Adverbial Verb Forms – Adverbial Participles, Gerunds –, edited by Martin Haspelmath and Ekkehard König, Berlin: Mouton de Gruyter, Empirical Approaches to Language Typology, 1–56.
VerbType
: verb type
POSのレベルで既に助動詞とそれ以外を区別してきたが,タグセットによっては他の区別をさらに設定する.
Aux: 助動詞 (auxiliary verb)
周辺的な動詞形 (時制,受動など) をつくるのに用いられる.多くの言語では助動詞とそれ以外の用法とで曖昧性が存在するので,同じ動詞形がコンテクストによって異なるタグや素性が付与されることもある.
Cop: コピュラ動詞
形容詞,名詞もしくは分詞から名詞述語 (nominal predicates) をつくるのに用いられる.言語によっては,コピュラを省略したり,他の手段を用いて名詞述語をつくることがある.コピュラを有する言語においては,それは”to be”や”to become”に相当する意味を持つことが多い.
例: It is purple. He just became father.
Mod: 法動詞
法動詞 (modal verb) は,いくつかの言語の文法において伝統的に設定されてきた動詞グループである.法動詞は他の動詞不定形 (不定詞を標示する接続詞を伴う言語と,そうでない言語がある) を項にとり,その動詞に可能性や必然性といった意味を加える. 他にも不定詞を項にとる動詞が存在するが,それらは法動詞とは考えられない (e.g. 句動詞 “to begin to do something”).ある言語内で法動詞は閉じたクラスを成すため,種類を数え上げることが可能である.
いくつかの言語 (e.g. トルコ語) では,動詞を法動詞と結合させる代わりに,主動詞の特殊な形式を用いる.
ドイツ語の例:: dürfen (may), können (can), mögen (want/like to), müssen (must), sollen (shall), wollen (want to), wissen (know to)
チェコ語の例: muset (must), mít (shall, have to), moci (can), smět (may, be allowed to), umět (know to), chtít (want to)
Light: 軽動詞・補助動詞
軽動詞もしくは補助動詞は動詞-名詞構文 (verbo-nominal constructions) に用いられ,主たる意味が補部名詞から与えられる.英語の例 to take a nap, では, take が軽動詞である.軽動詞は当該の言語において普通の動詞としても機能することが多い (cf. to take two dollars). 軽動詞構文が多用されるような言語 (e.g. ヒンディー語,日本語) だったり,軽動詞としてしか用いられない動詞が存在する場合には,軽動詞専用の素性の値を設定するのが良いだろう.
日本語の例: suru (する)
Voice
: voice
Values: | Act | Antip | Cau | Dir | Inv | Mid | Pass | Rcp |
ヴォイス・態 (voice) は,典型的には動詞 (verbs) の素性である.動名詞 (gerunds) や分詞 (participles) といった境界線上にあるような語形が動詞として分類されるか否かによって,この素性は他の品詞にも生起する (名詞 (nouns), 形容詞 (adjectives), 副詞 (adverbs)).
印欧語話者にとって,ヴォイスとは主に能動態-受動態の区別を意味する.他言語では,動詞の仄めかす意味がヴォイスとしてカテゴリ化される.
Act
: 能動態 (active voice)
動詞の主語が動作主 (agent) であり,目的語は被動作主 (patient) である.
例
- [cs] Napadli jsme nepřítele. “We attacked the enemy” (能動分詞_napadli_は過去形や条件法 (conditional mood) を形成するのに用いられる; この例では過去形として用いられる.)
Mid
: 中動態 (middle voice)
古代ギリシア語やサンスクリット語で必要となる,能動態と受動態の中間的なヴォイス.
Pass
: 受動態 (passive voice)
動詞の主語は被動作主 (patient) である.動作主 (agent) は明示されないか動詞の目的語として生起する.
Examples
- [cs] Jsme napadeni nepřítelem. “We are attacked by the enemy” (全ての時制において,受動分詞_napadeni_は受動態を形成するのに用いられる).
Antip
: 逆受動態 (antipassive voice)
能格-絶対格言語 (ergative-absolutive languages) において,能格主語が絶対格に降格 (demote) する.
Dir
: 順行態 (direct voice)
順行-逆行のヴォイス体系を採用する北アメリカ言語で用いられる.順行態とは,際立ちの階層 (salience hierarchy) の高い項が主語であることを指す.階層の例: 人間 1人称 – 2人称 – 3人称 – 非人間有生物 – 無生物.
Inv
: 逆行態 (inverse voice)
順行-逆行のヴォイス体系を採用する北アメリカ言語で用いられる.逆行態とは,際立ちの低い項が目的語として機能することを示すヴォイス標示体系である.
Rcp
: 相互態 (reciprocal voice)
例
- [tr] karıştı, tutuştular
Cau
: 使役態 (causative voice)
METU Sabanci treebankのドキュメンテーションでは,使役形 (causative) がヴォイスの一種として分類される (p.26).これは動詞の素性であるが,名詞の原因格 (causative case) も同時に持つような言語も存在する.
例
- [tr] karıştırıyor “is confusing”