SakaueTatsuya.NET > lectures / seminars > 2004年度時間割 > 言語情報システム論 >

Leech, G. (1997) Introducing Corpus Annotation 1.2 - 1.3 (pp.8-15)

報告者：DICOM D2　村尾　玲美

Last Update:2004/04/16

1.2 Why Annotate a Corpus?

1.2.1 Extracting information

生のコーパスは、それ自体では文法などの情報は得られない。
コーパスに情報を付与していくことで、lexicography(辞書学)やspeech synthesizer(音声合成装置)などに応用することができる。
- 例1）生のデータでは、leftが形容詞、副詞、名詞、動詞の過去形、過去分詞形のどれで使われているのか区別ができない。　→　辞書学への応用ができない。
- 例2）生のコーパスでは、leadが/led/と発音する名詞なのか、/li:d/と発音する動詞なのか区別ができない。　→　音声合成装置への応用の可能性ができない。

1.2.2 Re-usability

☆ コーパス全体に注釈をつけなくても、必要な情報だけ抜き出してくれるプログラムを書いた方が早くていいのではないか。注釈はいらないのではないか。

ある語彙の品詞を知るためには、周辺語彙の品詞をも知っている必要がある。結局のところ注釈をつける必要がある。
生のコーパスよりも情報付与されたコーパスの方が資源としての価値が高く、多くのユーザーが利用できる。同じコーパスにその都度注釈をつけるのは、時間とお金の無駄である。

1.2.3 Multi-functionality

注釈付けの様々な目的と利用法、その多機能生
lexicography(辞書学), speech synthesis(音声合成), machine-aided translation(機械翻訳), information retrieval(情報検索)
文法タグを基に、その後の利用者が目的に応じて統語的タグや意味論的タグを付与できる。

1.3 Some Standards for Corpus Annotation

注釈付けのためのガイドライン（利用者にとって使い勝手の良いものにするために。）

recoverable: 生のコーパスに簡単に戻せる
extricable: タグだけ抜き出せる。タグ情報をだけを別に記録しておける。
documentation: 説明書にアクセスしやすい
caveat emptor: 注釈付けスキーマは“絶対的真理”ではない。
　利用者はゼロから注釈付けしなくてもよいという点で実用的
consensual: 注釈付けの枠組みは、辞書の分類などの一般に共通した構造を利用した方がよい。
standard: 注釈の目的が違うため、どの注釈方法も基準にはなりえない。

☆ 現在注釈付けの方法は均一化されつつある。EUのEAGLES

使い慣れた方法を使う方が効率的
同じ基準で注釈付与がされていれば、研究者同士で資源の共有ができる
同じコンピュータソフトが使える

続いて、1.4 A Glance at the History of Corpus Annotation - 1.5 What Levels of Annotation Exist or Can Exist?へ

SakaueTatsuya.NET > lectures / seminars > 2004年度時間割 > 言語情報システム論 > Leech, G. (1997)
© MURAO, Remi