言語情報システム論
Leech, G.(1997) Introducing Corpus Annotation2.1(pp.19-20)
Last Update. 2004/04/23 (14:40)
2.
Grammatical Tagging
報告者:DICOM M1 石田知美
Grammatical annotation
(文法注釈)の言語的性質
○
grammatical word tagging
(文法タグ) と
syntactic annotation
(統語注釈) からなる。
☆テキストの文法的特性を表す。
☆現段階では、両方を別の作業として考える。(文法タグは、統語注釈の前にくる。)
・
grammatical word tagging
(文法タグ):自然言語の形態素解析の一環で語形変化解析を行った単語の品詞決定処理をすること。品詞タグ。
*小池2003
・
syntactic annotation
(統語注釈):文の樹形図、句構造、品詞などの統語情報を注釈としてつけること。
*小池2003
2.1 A Tagging System
○
Grammatical annotation
(文法注釈)を付与するうえでの言語的問題点
1. テキストを1つ1つのトークン(語)にどのように分けるのか。
2. タグ・セット(トークンに付与する語のカテゴリーのセット)をどのように選ぶのか。
3. どのタグがどのトークンにつくかをどのように選ぶのか。
→ タグ・システムの言語的特性に帰する。
○
Grammatical annotation
(文法注釈)を付与するうえでの非言語的問題点
(a) 作業は、手作業でなされるのか、それとも自動でなされるのか(あるいは、よくあるように、自動付与の後、手作業で編纂するのか)。
(b) 自動付与にするとした場合、そのタグのソフトウェアーの技術と容量はいかなるものにするのか。
(c) 作業に利用可能な人間とハードウェアー・リソースはいかなるものにするのか。
(d) 最終段階のタグは、どの程度の速度、正確性および一貫性を持たせる必要があるか。
→ これらの技術的問題点を無視しては、最適な結果は得られない。
○ コーパス・タグ・プロジェクト
☆ 注釈者は、タグ・システムの大まかなアウトラインから始める。(仮のガイドライン)
☆ プロジェクトが進むにしたがって、修正と改善がなされることとなる。
☆ 注釈者やコーパス使用者が言語的問題点を解決するために、タグ・マニュアルを使用するとよい。 例)LOBコーパス、SUSANNEコーパス
*小池生夫(編)(2003)「応用言語学事典」研究社
2.2 A Tagging Systemへ