言語情報システム論
Last Update: 6 May 2004
3.3 Different Varieties of Syntactic annotation
報告者: DICOM M1 楊 洋 & 郜 楓
Penn Treebank 概説
-
最も大きく、最もよく知られた treebank
-
作られたのは University of Pennsylvania の Mitchell Marcus チームである
-
Phrase-structure model の採用
-
Lancaster/IBM Treebank と同様に曖昧さが残る。部分的にしか解析されていない文も含む。§ 3.3.5 で見る Helsinki English Constraint Grammar も同様である
Hindle & Rooth (1993)
-
Annotation (構文注釈)が限られすぎているという議論
-
人間でも解析できない文があるのに、 syntactic annotations は無理やり解析しようとすることがある
-
文脈・言語の知識のある人間の判断によってさえ注釈できない文が12%~15%ある
Phase 1
-
Lancaster/IBM Treebank (Box 3.1) と似ている (Box 3.4)
-
便利さ → 全世界で一般的に利用可能(米 Linguistic Data Consortium)
-
量 → 330万語(1997年2月現在)
cf) テキストタイプがやや限られる Brown Corpus は100万語
3.3.2 The Penn Treebank: Phase 2
Phase 2 は Phase 1 よりも複雑な情報を付与しようとする段階
アメリカでは研究者たちが Penn Treebank を利用し、自分の parser を作る作業を行っている。 Parser が完全に解析するためには、より詳細な情報が必要である。 Phase 2 では、以下のような構文のより深層的・「論理的」レベルの情報が追加されている
⒜ Function lables for constiuents/categorial lables (構成素・統語範疇のラベル)
⒝ Null constituents, or traces (ゼロ構成素)
⒞ Indices of co-reference (同一指示の指標)
⒟ Unusual types of coordination (特殊な並立関係)
⒠ Discontinuous constituents (非連続構成要素)
⒢ Types of adverbial (副詞類の種類)
⒣ Syntactic ambiguities (構文的な曖昧性)
3.3.3 Nijmegen Treebanks
Penn Treebank より早く Catholic University of Nijmegen (蘭、欧州のコーパス活動の中心大学)で行われていた。 → Jan Aarts が80年代にセットアップした
Affix Grammar Model を使い、2つの大規模英語コーパスを編纂した
Affix Grammar は英語の記述文法の1つである。この Nijmegen Affix Grmmar は Quirk, et al. のような文法書を参考に作られたはじめての Affix Grammar である
① Nijmegen Corpus (13万語)
特徴:注釈者が自動解析とネット上で接触し、手動で注釈したり、自動解析の誤りを訂正する ← 自動と手動との役割分担の1つの方法
② TOSCA Corpus (100万語)
Linguistic DataBase と結びついて TOSCA Treebank のために様々な特徴を探し、定量分析し、修正すべきところをなおす
TOSCA Treebank の例 (Box 3.5)
-
TOSCA Treebank は Lancaster/IBM Treebank、Penn Treebank と類似点がある
-
Box 3.5 は phrase-structure tree の分岐点一つ一つに符号をつけている点で Penn Treebank (Box 3.4) に似ている
-
1つの接点(node)に対して4つの情報が付与されている
-
syntactic function (統語機能)
-
category label (品詞区分)
-
attribute labels (属性区分)
-
word form (語形)
SUSANNE Corpus の概要
-
12.8万語の小規模なコーパスだが、各文に多くの情報を付与している。小規模ながら、細部まで行き届いた解析がなされている。手作業による分析結果である
-
Geoffrey Sampson が Lancaster で80年代の半ばにコーパス作りを始めた
-
SUSANNE Corpus の例 (Box 3.6)
Box 3.6 では異なる種類の情報を違うコラムに示す垂直の設計が現れている
-
location reference (位置情報、行番号?)
-
wordtag (品詞タグ)
-
word form (語形)
-
lemma (基本形)
-
phrase-structure parse (統語解析)
- - -
3.3.5 The Helsinki Constraint Grammar
Helsinki Corpus とは
The Helsinki Corpus of English Text は通時的な言語資料を集成した diachronic part と方言資料を集成した dialectal part とからなる。約160万語の規模。1984年に編纂開始、1991年に完成・公開。 * pp. 144-145
Helsinki Corpus parsing の特徴
-
従来の treebank のアウトプット方式にほとんど適応できない
-
注釈付きコーパスの形式:(従来)データ処理の産出物を重視 → (Helsinki)データ処理の技術を重視
-
文法分析方式:(従来)PS文法モデル → (Helsinki)従属文法モデル (Figure 3.1, Figure 3.2 参照)
-
The Helsinki Constraint Grammar Parsing は英語だけでなく、豊富な語形変化を擁する屈折語や膠着語にも適用することができる
English Constraint Grammar parser
-
Helsinki Corpus は文法タグのない形で公開されたため、用途が主に語形に基づく研究に限られている。近年、文法タグ付きの版の開発が行われている。その中の Early Modern English の部分について English Constraint Grammar parser と呼ばれる構文解析プログラムを利用した研究がされている * p. 152
-
English Constraint Grammar parser は完全な統語解析を提供しないが、従属節点が独立して支配節点となる一方、従属の方向が示され、より高い支配節点を推論することができる。
-
English Constraint Grammar parser のアウトプット形式
各単語を見ることができるように、注釈が見出し語(lemma)から始まり、構文ラベル(syntactic lables、@によって示される)で終わる。ほとんどのトークンには単一の分析結果が与えられるが、解析にあたって曖昧なところは全ての可能性が示される (Box 3.7 ll. 14-17 参照)
-
解析情報の精密さは Penn Treebank や SUSANNE Corpus と同じ程度である
-
全自動でのエラー修正も可能
3.3.6 Comparative Summary
-
以上で紹介された treebanks の他に子供のことばを扱う Polytechnic of Whales (POW) Corpus のようなコーパスも存在する
-
以上で取り上げられた各種の treebanks に扱われている内容が Table 3.1 に示されている
-
Spoken language features が現時点ではどの treebanks でも取り扱われていない。理由としては、話しことばを文字化することが非常に困難であることが挙げられる。話しことばを扱うプロジェクトが各地で進行している(Lancaster, Nijmegen, Sussex など)
-
Table 3.1 の7項目の重要さに順序は付けられない。また、どの項目が将来の研究において最も重要であるかも判らない。どの項目に専念すべきかは、予算や時間など実際的な要因によって決まる
* = 齊藤俊雄・中村純作・赤野一郎 編 (1998) 『英語コーパス言語学――基礎と実践』 研究社出版.
Leech, G, & Eyes, E. (1997). Syntactic annotation: Treebanks. In R. Garside, G. Leech, & T. McEnery (Eds.), Corpus annotation: Linguistic information from computer text corpora (pp. 34-52). London: Longman.