SakaueTatsuya.NET > lectures / seminars > 2004年度時間割 > 言語情報システム論 >

Leech, G. (1997) Introducing Corpus Annotation 1.4 - 1.5 (pp.8-15)

報告者:DICOM M2 森田 知佳
補佐:DICOM D2 森田 光宏

Last Update:2004/04/16


1.4 A Glance at the History of Corpus Annotation (コーパスにみられる注釈の歴史の概観)

1.4.1 Beginnings of grammatical word tagging (文法タグの始まり)

**Grammatical word tagging---名詞、動詞などの品詞や単数・複数などをあらわすタグ

Brown Corpus *
編纂者・編纂場所
FrancisとKučeraら(ブラウン大学)
データ量
100万語
データソース
1961年にアメリカで発行された書籍、新聞、雑誌など
解析方法
文法規則にもとづく自動品詞解析プログラムTAGGITと手作業の併用
特徴
最初の注釈付与がなされたコーパス。語単位のタグ付け

LOB Corpus *
編纂者・編纂場所
Leech(ランカスター大学)、Johansson(オスロ大学)、Hofland(ベルゲン)
データ量
100万語
データソース
1961年にイギリスで発行された書籍、新聞、雑誌など
解析方法
確率論にもとづく自動タグ付与プログラムCLAWS I
特徴
ブラウンコーパスにならって、作成された。アメリカ英語とイギリス英語の比較を可能にした

文法規則にもとづくタグ付け(TAGGIT)

  • Brown Corpus に対して、82種類の品詞を77%の精度で付与することが可能
  • Hunston (2002): 冠詞"a"の後に来るのは、名詞であり、動詞は来ないという文法規則に従って品詞情報を付与する方法
確率論にもとづくタグ付け(CRAWS I)
  • すでにタグを付与しているコーパスをTraining Corpusとして用いることで、どの語がどの品詞で用いられる確率が高いかを計算し、品詞タグを付与する (CRAWS I の場合、Brown CorpusをTraining Corpusとして用いている)
  • Hunston (2002): "deal"という語は、動詞としてより、名詞として使われることが多いので、名詞タグを付与する
共通点
  • どちらのプログラムもタグを付与する語の左右1語、もしくは2語程度の範囲の情報しか用いることができない
  • どちらのプログラムも英語しか処理できない → 中国語、日本語、フランス語、ドイツ語、ポーランド語、スペイン語などの言語にも対応できる情報付加プログラムの開発が進められている(ex. Xerox Parc tagger)

 

1.4.2 Beginnings of prosodic annotation (韻律注釈の始まり)

**Prosodic annotation---強勢、イントネーション、ポーズ、その他の韻律的特徴の注釈

London Lund Corpus(LLC) *
編纂者・編纂場所
Greenbaum(ロンドン大学)とStartvik(ルンド大学) 
データ量
50万語
データソース
1959年にロンドン大学のQuirkが始め、Greenbaumが1983年に引き継 いだ英語語法調査(Survey of English Usage)のうち、 音声言語を文字化した部分
解析方法
手作業
特徴
電子化コーパスのなかでは、最初に韻律付与がなされた。音韻、文法、語彙、談話分析、言語音声英語と文字英語の 比較研究に適している

Lancaster/IBM Spoken English Corpus(SEC) *
編纂者・編纂場所
ランカスター大学とIBM
データ量
5万語余
データソース
ニュース、講義、詩の朗読、会話など。1980年代半ばの容認発音に近い話者のものが多い
解析方法
手作業による韻律表記、正書法表記とCLAWS による文法タグの自動付与
特徴
ひとつのコーパスのなかに文法タグ、統語注釈、韻律注釈、正書法とデジタル録音された韻律注釈が付与されている。 音声研究に活用されている

 

1.4.3 Beginnings of syntactic annotation (統語注釈の始まり)

**syntactic annotation---文の樹形図、句構造、品詞などの統語情報の注釈

手作業で統語タグ付けされたコーパス

Gothenburg Corpus
編纂者・編纂場所
グーテンベルグ(スウェーデン)
データ量
12万8000語
データソース
Brown Corpusの一部

Lancaster Parsed Corpus *
編纂者・編纂場所
ランカスター大学
データ量
14万4000語
データソース
LOB Corpusの一部

SUZANNE Corpus
編纂者・編纂場所
Geoffrey Sampson(サセックス大学)
データ量
12万8000語
データソース
1961年に最初に編纂されたBrown Corpusに含まれる4つのジャンルの一つ
特徴
統語機能や深層構造のような詳しい情報を含む

句構造をもとにした統語解析

Penn Treebank
編纂者・編纂場所
Mitchell Marcus とチーム(ペンシルヴェニア大学)
データ量
330万語(Phase1の場合)
データソース
Wall Street Journal ・Brown Corpusなど
解析方法
自動品詞付与→手作業で修正→構文解析プログラム→手作業による確定作業

その他の自動統語解析

 

1.4.4 Other levels (その他のレベル)

 


1.5 What Levels of Annotation Exist or Can Exist? (どのレベルの注釈が存在するまたは存在しうるか)

〈コーパスの注釈のレベル〉(p.12 Box 1.2)

1.5.1 Orthographic annotation (正書法に関する注釈)

正書法タグを付ける必要があるのか?
言語学的な機能を区別するために、正書法のタグを付ける。

〈あいまいな表記〉

1.5.2 Additional types of annotation (その他の注釈のタイプ)

  1. 言語学的な構造または機能に関する注釈
  2. 見出し語に関する情報
  3. 学習者コーパス

*がついたコーパスのサンプルについては以下のページを参照してください

http://helmer.aksis.uib.no/icame/newcd.htm

参考文献


SakaueTatsuya.NET > lectures / seminars > 2004年度時間割 > 言語情報システム論 > Leech, G. (1997)
© MORITA, Tomoka & MORITA, Mitsuhiro