Leech, G.(1997) Introducing Corpus Annotation 2.3 (p.24-29)
2.3 Tagsets
報告者:M1 村木恭子・清水 真衣
Tagsets = 文法タグ付けをするためのtagのリストのこと
☆ tag
が抱える問題点
・ タグはword- categories (語の分類)を示すが、どのword-categories が言語学的に適当であるかは定かではない。
→ 見る人の視点によって、word-categories
(語の分類)が微妙に変わる可能性がある。
・ 自動タグ付けは、大量のデータを処理するため、速さと正確さが求められる。
しかし、言語学的に正しい規則に基づいたタグ付けを行うことは、自動で行うことは不可能である。
ex) present subjunctive (仮定法現在)… come
what way
imperative form (命令形)… come
here! に異なるタグをつけたとしても…
plural indicative form (直説法現在形) … They
come every spring. と区別することはできない。
→ subjunctives
(仮定法)とimperative(命令)の区別が難しい。
○ 解決法1
indicative(直説法),imperative
(命令),subjunctive(仮定法) = finite base form
(原型の定型動詞)
※ non-finite
base form(原型の不定形動詞)と区別した。 ex) Would you like to come?
注)base form (定型動詞)とは、inflectional ending(屈折語尾)やvowel
mutation(母音変異)がない動詞をさす。
○ さらに進んだ解決法2
infinitive(不定形)とfinite(定型)の区別をつけず、lexical
verb(語彙動詞)の原型に同じタグをつける。
→ Brown Corpus, LOB Corpusなどはこの方法をとっている。
☆ タグ付けを行う際には、言語学的な適切さと、コンピュータでの処理能力が影響してくる。
☆ 自動タグ付けプログラムは、語の周辺状況によって判断を行うため、複雑な文の中では正確にタグづけされないことも考えられる。
→ それぞれの研究目的に合わせて、何処かで妥協(調整)が必要である。
2.3.1 Tags and labels タグとラベル
label = 品詞を表すもの(記号)
ex) 前置詞を表すラベル … Preposition , Prep , IN ( Brown
and LOB Corpus)
単数固有名詞を表すラベル → ( 名詞, 固有, 単数形) … Noun:prop:sing, N-p-sg,
NP1 (C7 tagset)
☆ tag とは、labelの中で実際にタグ付けに使用されたもの。
○ タグとしてラベルを決める際に注意しておきたいこと
1. Conciseness (簡潔さ) : 短いラベルの方が便利。
2. Perspicuity (明快さ): 見てすぐに内容が判断できる様なラベルの方が、使い勝手が良く、便利。簡単に覚えられるものの方が良い。
ex) 前置詞を表すラベルは、IN よりPrepositionの方がわかり易い。さらに、Prepの方が短いので、使いやすい。
3. Analyzability (分析可能性): 下位の論理構造に分解可能なラベルの方が良い。
→ どの要素から構成されているのかがわかる様にしておく必要がある。
ex) BNC tagsets で使われている NP1は、Noun, Proper,
Singular (Plural = 2) と分解することが可能である。
・ * ( wildcard) を使った分析も可能である。
4. Disambiguity (明確さ)が保たれる限り、他のラベルに自動的に変換することも可能である。
→ 目的に合わせて、ラベルを使用することが可能である。
☆ コンピュータ(自動タグ付けソフト)を使う上で、1・3・4の基準は大切。人間が見る(使用)する上で、2の基準が大切である。
2.3.2. Logical tagsets 論理タグセット
論理タグセット:タグで表される言語カテゴリー間の関係が,階層的樹形図(句構造を表すのではなく,特徴や性質を示すもの)として表されて
いること。
C7タグセットの例
N = noun 名詞
V = verb 動詞
J = adjective 形容詞
R = adverb 副詞
P = pronoun 代名詞
D = determiner 限定詞
A = article 冠詞
C = conjunction 接続詞
M = numeral 数詞
I = preposition 前置詞
さらに次のような属性を伴う。
P = proper 固有
N = common for nouns 普通名詞
P = personal 人称
N = indefinite for pronouns 不定代名詞
☆ これらの記号の意味は文脈に依存している。
NP:Nの後に続くP=proper「固有」
PP:別のPの後に続くP=personal「人称」
Q
= wh語
1,2=
単数,複数
・ 図2.2.:階層的,論理的タグセットとするC7タグセットの一部の概略的説明(C7タグセットの全体はAppendixV)
・ 各行の右側=タグラベル(NN2など),簡略化されたタグの定義,( 例 )
2.3.3. The size and composition of tagsets タグセットのサイズと構成
タグセットのサイズは特定のプロジェクトが重視する内容に応じて増減する。
○ タグセットのcore:主な品詞はサブクラスを伴う傾向がある
○ 注意すべきもの:コーパスで記録する必要がなく,コーパス分析者がテキスト内のあらゆる語に意味のあるタグをつけようとしない限りは
無視されがちな比較的重要でない要素
・ 書きことばコーパス
WIC(word initial capital)のカテゴリー:認識しやすく,またそれ自身が意味的にも統語的にも重要となる(伝統的形態統語論では重要な
役割を果たさない)
ex) 月の名詞(January),曜日の名詞(Tuesday),固有名詞(French,
Frenchman)に由来する形容詞と普通名詞
・ はなしことばコーパス
談話標識(well)や言い淀み標識(erm, er)のタイプ:間投詞(oh, ah)と一様に扱うよりも区別する方が有益
・ 1語のみで構成される品詞を表すタグ
英語の例:存在のthere,否定のnot,不定詞のto(独自の統語上の作用から)
・ その他:
1.公式(P23, G: \WINDOWSなど)
2.他の言語(Timeo Danaos et dona ferentes)
3.句読点(, . ! …)など
→ 他のタグが存在しがちな文脈で定義する重要な識別的価値を持つため,文法タグ付与をするのに語としてよく用いられる
・ 英語のタグセット:様々な構成要素からなるために,30から200の構成素の中で変動する傾向がある
○ 表2.1:詳細な特徴で分類することによって,タグ数は増加する。
・ スペイン語のタグセットの1例(Section4.1):タグ数475 (英語に比べて,スペイン語は動詞の語形変化の種類が多い)
→ 言語における語形変化の種類が豊富であれば,タグセットはそれに比例して規模を大きくする傾向がある
☆ タグセットの構成を決める場合の,言語学的(外面的)根拠とコンピューター的(内面的)根拠の不一致
・ 「外面的」→ タグセットの言語的特性
・ 「内面的」→ タグセットのコンピューター的な扱いやすさ
・ 大部分のタグセット:「外面的」と相反する「内面的」基準の記号を示す。
・ 扱いやすいタグ:特定の(正字法の)語に明確に割り当てられるもの,そして隣り合った語を明確にする高い価値を持つもの
→ C7タグセットの例:AT=the definite article 定冠詞
AT1= the indefinite article
不定冠詞