Syntactic Annotation: Treebanks

言語情報システム論

Last Update: 5 May 2004

3.2 Treebanks and Skeleton Parsing

報告者：　国際言語文化研究科 M1
Jesse Sokolovsky

1980年代後半・1990年代前半に始まった統語注釈プロジェクト

Probabilistic parser に対する training corpus （約100万～300万語）が必要とされた
しかし、その様なコーパスを作るのに当時の自動解析の技術は不十分だった。そのため、人間が容易に、素早く入力できる統語注釈のシステムが必要とされた
そこで、知的能力の負担を減らすように最小限度の複雑さを持つ skeleton parsing scheme が作られた。それは phrase-structure model に基づいたもの、簡略化された。

Lancaster/IBM Treebank:　Phrase-structure model に基づいた skeleton parsing scheme が利用されたコーパス（約300万語）

　　―→Box 3.1 (p. 37), Box 3.2 (p.38) 参照

Parsing scheme

1） Annotation で使われている記号： non-terminals, terminals, other symbols

2）記号の定義　　例： N ＝ Noun Phrase

どのようにして Noun Phrase （名詞句）を識別するか
名詞句と非名詞句のトークンはどのようにして区別するか

現実的な問題

総合的な文法は注釈者にとっては扱いにくい
改訂しにくい
実際には例外や対応できない文が出てくる。その対応として必要となるルールが増える。大量のデータを分析してもこのことは解消されない

Parsing scheme の文書（documentation）を編集する理由

1） Accuracy　→　「唯一」の文法は存在しないが、特定のプロジェクトにおいて「正しい」とされる文法を決定する必要はある。　　　　　　を用い、treebank のデータが正しく解析されたか確認できる

2） Consistency　→　一貫性を持たせる

Ambiguity（多義性）について

最後の "burning fossil fuels" を動名詞句と分析するか名詞句と分析するか

用語

syntactic annotation 　統語注釈
annotator(s) 　注釈者
parse 　文や語句の品詞および文法的関係を説明する、解析する
treebank ＝ parsed corpus
treebanker ＝ treebank を作る人

3.3 Different Varieties of Syntactic Annotation

Leech, G, & Eyes, E. (1997). Syntactic annotation: Treebanks. In R. Garside, G. Leech, & T. McEnery (Eds.), Corpus annotation: Linguistic information from computer text corpora (pp. 34-52). London: Longman.