言語情報システム論
Last Update: 6 May 2004
3. Syntactic Annotation: Treebanks
報告者: DICOM M1 土居 峻
Syntactic annotation (統語注釈付与)とは…
統語構造を示す目印をテキストに挿入して統語情報をコーパスに付与すること
本章では直接的で簡単な phrase-structure analysis (句構造分析)をコーパス全体に施すことを考える
3.1 Why Annotate? The Use of Parsed Corpora
何のために統語注釈を付与するのか
① developing parsers (構文解析ツールの構築)
② extracting lexical information (語彙情報の抽出)
① developing parsers (構文解析ツールの構築)
構文解析(parsing)とは…
-
文の構造を統語論的観点から(自動的に)解析すること
-
parser はその為のソフトウェア
1970年代・1980年代に作られた parser
"laboratory sentences" による評価
現在
統語注釈済みのコーパスによって強化・評価されている
-
real language を含む training corpus による強化
-
given corpus (= testbed) に対する解析によって評価
"laboratory sentences" でなく real text data による評価がされるようになってでなく70%~80%の正確さで自動解析できるようになった
最近はありふれた文構造のことばだけでなく、少し違った文構造をも解析できる probabilistic parsers の開発に重点がおかれる
適切な training corpus を使えば、特殊言語・専門言語の構文解析のできる probabilistic parser も作れる
② extracting lexical information (語彙情報の抽出)
注釈済みのコーパスを使うことによってコンピュータ用 lexicon を構築・補充していく事ができる
-
new rare lexemes (新たな語彙項目)
-
morphological variants (異形態)
-
syntactic subcategorization frames ()
-
relative frequency of words, lemmas, collocation, etc. (使われる頻度)
-
distribution in different kinds of text (使われる環境)
-
raw corpus または文法タグ付きのコーパスでは manual methods (手作業)によってのみこれらの情報を抽出できる
-
統語注釈済みのコーパスでは全自動で抽出できる
§3.2 以降は統語解析の手法と parser の種類について説明する
Leech, G, & Eyes, E. (1997). Syntactic annotation: Treebanks. In R. Garside, G. Leech, & T. McEnery (Eds.), Corpus annotation: Linguistic information from computer text corpora (pp. 34-52). London: Longman.