SakaueTatsuya.NET > lectures / seminars > 2004年度時間割 > 言語情報システム論 >

Leech, G. (1997) Introducing Corpus Annotation 1.2 - 1.3 (pp.8-15)

報告者:DICOM D2 村尾 玲美

Last Update:2004/04/16


1.2 Why Annotate a Corpus?

1.2.1 Extracting information

1.2.2 Re-usability

☆ コーパス全体に注釈をつけなくても、必要な情報だけ抜き出してくれるプログラムを書いた方が早くていいのではないか。注釈はいらないのではないか。

  1. ある語彙の品詞を知るためには、周辺語彙の品詞をも知っている必要がある。結局のところ注釈をつける必要がある。
  2. 生のコーパスよりも情報付与されたコーパスの方が資源としての価値が高く、多くのユーザーが利用できる。同じコーパスにその都度注釈をつけるのは、時間とお金の無駄である。

1.2.3 Multi-functionality

  1. 注釈付けの様々な目的と利用法、その多機能生
    lexicography(辞書学), speech synthesis(音声合成), machine-aided translation(機械翻訳), information retrieval(情報検索)
  2. 文法タグを基に、その後の利用者が目的に応じて統語的タグや意味論的タグを付与できる。

1.3 Some Standards for Corpus Annotation

注釈付けのためのガイドライン(利用者にとって使い勝手の良いものにするために。)

  1. recoverable: 生のコーパスに簡単に戻せる
  2. extricable: タグだけ抜き出せる。タグ情報をだけを別に記録しておける。
  3. documentation: 説明書にアクセスしやすい
      • a) 注釈記号のリスト、定義、適用規則
      • b) 誰がどこでどのように注釈をつけたか
      • c) 注釈付けの質に関する情報:チェック範囲、精度、一貫性
  4. caveat emptor: 注釈付けスキーマは“絶対的真理”ではない。
     利用者はゼロから注釈付けしなくてもよいという点で実用的
  5. consensual: 注釈付けの枠組みは、辞書の分類などの一般に共通した構造を利用した方がよい。
  6. standard: 注釈の目的が違うため、どの注釈方法も基準にはなりえない。

☆ 現在注釈付けの方法は均一化されつつある。EUのEAGLES


続いて、1.4 A Glance at the History of Corpus Annotation - 1.5 What Levels of Annotation Exist or Can Exist?へ


SakaueTatsuya.NET > lectures / seminars > 2004年度時間割 > 言語情報システム論 > Leech, G. (1997)
© MURAO, Remi