Syntactic Annotation: Treebanks

言語情報システム論

Last Update: 6 May 2004

3.3 Different Varieties of Syntactic annotation

報告者：　DICOM M1　楊洋＆郜楓

3.3.1 The Penn Treebank: Phase 1

最も大きく、最もよく知られた treebank
作られたのは University of Pennsylvania の Mitchell Marcus チームである
Phrase-structure model の採用
Lancaster/IBM Treebank と同様に曖昧さが残る。部分的にしか解析されていない文も含む。§ 3.3.5 で見る Helsinki English Constraint Grammar も同様である

Annotation （構文注釈）が限られすぎているという議論
人間でも解析できない文があるのに、 syntactic annotations は無理やり解析しようとすることがある
文脈・言語の知識のある人間の判断によってさえ注釈できない文が12%～15%ある

Lancaster/IBM Treebank (Box 3.1) と似ている (Box 3.4)

便利さ　→　全世界で一般的に利用可能（米 Linguistic Data Consortium）
量　→　330万語（1997年2月現在）
　　　　cf) テキストタイプがやや限られる Brown Corpus は100万語

3.3.2 The Penn Treebank: Phase 2

Phase 2 は Phase 1 よりも複雑な情報を付与しようとする段階

⒜ Function lables for constiuents/categorial lables （構成素・統語範疇のラベル）

⒝ Null constituents, or traces （ゼロ構成素）

⒞ Indices of co-reference （同一指示の指標）

⒟ Unusual types of coordination （特殊な並立関係）

⒠ Discontinuous constituents （非連続構成要素）

⒡ Semantic roles （統語的役割）

⒢ Types of adverbial （副詞類の種類）

⒣ Syntactic ambiguities （構文的な曖昧性）

3.3.3 Nijmegen Treebanks

Penn Treebank より早く Catholic University of Nijmegen （蘭、欧州のコーパス活動の中心大学）で行われていた。　→　Jan Aarts が80年代にセットアップした

Affix Grammar は英語の記述文法の１つである。この Nijmegen Affix Grmmar は Quirk, et al. のような文法書を参考に作られたはじめての Affix Grammar である

特徴：注釈者が自動解析とネット上で接触し、手動で注釈したり、自動解析の誤りを訂正する　←　自動と手動との役割分担の１つの方法

Linguistic DataBase と結びついて TOSCA Treebank のために様々な特徴を探し、定量分析し、修正すべきところをなおす

TOSCA Treebank は Lancaster/IBM Treebank、Penn Treebank と類似点がある
Box 3.5 は phrase-structure tree の分岐点一つ一つに符号をつけている点で Penn Treebank (Box 3.4) に似ている
１つの接点（node）に対して４つの情報が付与されている
- syntactic function （統語機能）
- category label （品詞区分）
- attribute labels （属性区分）
- word form （語形）

3.3.4 The SUSANNE Corpus

12.8万語の小規模なコーパスだが、各文に多くの情報を付与している。小規模ながら、細部まで行き届いた解析がなされている。手作業による分析結果である
Geoffrey Sampson が Lancaster で80年代の半ばにコーパス作りを始めた
SUSANNE Corpus の例 (Box 3.6)
- location reference （位置情報、行番号？）
- wordtag （品詞タグ）
- word form （語形）
- lemma （基本形）
- phrase-structure parse （統語解析）

- - -

3.3.5 The Helsinki Constraint Grammar

* pp. 144-145

従来の treebank のアウトプット方式にほとんど適応できない
- 注釈付きコーパスの形式：（従来）データ処理の産出物を重視　→　（Helsinki）データ処理の技術を重視
- 文法分析方式：（従来）ＰＳ文法モデル　→　（Helsinki）従属文法モデル　（Figure 3.1, Figure 3.2 参照）
The Helsinki Constraint Grammar Parsing は英語だけでなく、豊富な語形変化を擁する屈折語や膠着語にも適用することができる

English Constraint Grammar parser

Helsinki Corpus は文法タグのない形で公開されたため、用途が主に語形に基づく研究に限られている。近年、文法タグ付きの版の開発が行われている。その中の Early Modern English の部分について English Constraint Grammar parser と呼ばれる構文解析プログラムを利用した研究がされている * p. 152
English Constraint Grammar parser は完全な統語解析を提供しないが、従属節点が独立して支配節点となる一方、従属の方向が示され、より高い支配節点を推論することができる。
English Constraint Grammar parser のアウトプット形式
各単語を見ることができるように、注釈が見出し語（lemma）から始まり、構文ラベル（syntactic lables、@によって示される）で終わる。ほとんどのトークンには単一の分析結果が与えられるが、解析にあたって曖昧なところは全ての可能性が示される　（Box 3.7 ll. 14-17 参照）
解析情報の精密さは Penn Treebank や SUSANNE Corpus と同じ程度である
全自動でのエラー修正も可能

3.3.6 Comparative Summary

以上で紹介された treebanks の他に子供のことばを扱う Polytechnic of Whales (POW) Corpus のようなコーパスも存在する
以上で取り上げられた各種の treebanks に扱われている内容が Table 3.1 に示されている
Spoken language features が現時点ではどの treebanks でも取り扱われていない。理由としては、話しことばを文字化することが非常に困難であることが挙げられる。話しことばを扱うプロジェクトが各地で進行している（Lancaster, Nijmegen, Sussex など）
Table 3.1 の７項目の重要さに順序は付けられない。また、どの項目が将来の研究において最も重要であるかも判らない。どの項目に専念すべきかは、予算や時間など実際的な要因によって決まる

* ＝齊藤俊雄･中村純作･赤野一郎編 (1998) 『英語コーパス言語学――基礎と実践』研究社出版.

Leech, G, & Eyes, E. (1997). Syntactic annotation: Treebanks. In R. Garside, G. Leech, & T. McEnery (Eds.), Corpus annotation: Linguistic information from computer text corpora (pp. 34-52). London: Longman.