言語情報システム論
Last Update: 5 May 2004
3.2 Treebanks and Skeleton Parsing
報告者: 国際言語文化研究科 M1
Jesse Sokolovsky
1980年代後半・1990年代前半に始まった統語注釈プロジェクト
-
Probabilistic parser に対する training corpus (約100万~300万語)が必要とされた
-
しかし、その様なコーパスを作るのに当時の自動解析の技術は不十分だった。そのため、人間が容易に、素早く入力できる統語注釈のシステムが必要とされた
-
そこで、知的能力の負担を減らすように最小限度の複雑さを持つ skeleton parsing scheme が作られた。それは phrase-structure model に基づいたもの、簡略化された。
-
Lancaster/IBM Treebank: Phrase-structure model に基づいた skeleton parsing scheme が利用されたコーパス(約300万語)
―→Box 3.1 (p. 37), Box 3.2 (p.38) 参照
Parsing scheme
タグの場合は tagging scheme、統語注釈の場合は parsing scheme が必要となる。これらは以下の要素からなる。
1) Annotation で使われている記号: non-terminals, terminals, other symbols
2) 記号の定義 例: N = Noun Phrase
3) この記号をどのようにテキストに適用するかをできるだけはっきりと説明する
-
どのようにして Noun Phrase (名詞句)を識別するか
-
名詞句と非名詞句のトークンはどのようにして区別するか
現実的な問題
総合的に細かく定義されている方法はよいと思われがちだが、実際には次のような問題がある
-
総合的な文法は注釈者にとっては扱いにくい
-
改訂しにくい
-
実際には例外や対応できない文が出てくる。その対応として必要となるルールが増える。大量のデータを分析してもこのことは解消されない
解決方法
固定化されたルールの代わりに guideline(s) を挙げ、判例法(case law、法律用語)と同じように柔軟性のある仕組みを作る。Parsing の問題が起きた場合、その解決法が先例となり、全てが annotators' manual に記録される。
プロジェクト終了後の guideline(s) をまとめ、その treebank の利用者が参照できるようにする (例: Box 3.3)
Reference/benchmark treebank: Parsing scheme の詳細を説明する別の方法
解析された文の文法の例として挙げ、キーワードや記号などで検索できるようにする
Parsing scheme の文書(documentation)を編集する理由
annotators' manual
reference/benchmark treebank
1) Accuracy → 「唯一」の文法は存在しないが、特定のプロジェクトにおいて「正しい」とされる文法を決定する必要はある。 を用い、treebank のデータが正しく解析されたか確認できる
2) Consistency → 一貫性を持たせる
Ambiguity(多義性)について
全ての文が分析できるとは限らないので、考慮するべきだという考え方もある
例: The main global-warming gas [...] is carbon dioxide, given off by burning fossil fuels. (p. 40)
最後の "burning fossil fuels" を動名詞句と分析するか名詞句と分析するか
用語
-
syntactic annotation 統語注釈
-
annotator(s) 注釈者
-
parse 文や語句の品詞および文法的関係を説明する、解析する
-
treebank = parsed corpus
-
treebanker = treebank を作る人
Leech, G, & Eyes, E. (1997). Syntactic annotation: Treebanks. In R. Garside, G. Leech, & T. McEnery (Eds.), Corpus annotation: Linguistic information from computer text corpora (pp. 34-52). London: Longman.