報告者:DICOM M2 森田 知佳
補佐:DICOM
D2 森田 光宏
Last Update:2004/04/16
**Grammatical word tagging---名詞、動詞などの品詞や単数・複数などをあらわすタグ
Brown Corpus *編纂者・編纂場所 |
FrancisとKučeraら(ブラウン大学) |
データ量 |
100万語 |
データソース |
1961年にアメリカで発行された書籍、新聞、雑誌など |
解析方法 |
文法規則にもとづく自動品詞解析プログラムTAGGITと手作業の併用 |
特徴 |
最初の注釈付与がなされたコーパス。語単位のタグ付け |
編纂者・編纂場所 |
Leech(ランカスター大学)、Johansson(オスロ大学)、Hofland(ベルゲン) |
データ量 |
100万語 |
データソース |
1961年にイギリスで発行された書籍、新聞、雑誌など |
解析方法 |
確率論にもとづく自動タグ付与プログラムCLAWS I |
特徴 |
ブラウンコーパスにならって、作成された。アメリカ英語とイギリス英語の比較を可能にした |
文法規則にもとづくタグ付け(TAGGIT)
|
確率論にもとづくタグ付け(CRAWS I)
|
共通点
|
**Prosodic annotation---強勢、イントネーション、ポーズ、その他の韻律的特徴の注釈
London Lund Corpus(LLC) *編纂者・編纂場所 |
Greenbaum(ロンドン大学)とStartvik(ルンド大学) |
データ量 |
50万語 |
データソース |
1959年にロンドン大学のQuirkが始め、Greenbaumが1983年に引き継 いだ英語語法調査(Survey
of English Usage)のうち、 音声言語を文字化した部分 |
解析方法 |
手作業 |
特徴 |
電子化コーパスのなかでは、最初に韻律付与がなされた。音韻、文法、語彙、談話分析、言語音声英語と文字英語の 比較研究に適している |
Lancaster/IBM Spoken English Corpus(SEC) *
編纂者・編纂場所 |
ランカスター大学とIBM |
データ量 |
5万語余 |
データソース |
ニュース、講義、詩の朗読、会話など。1980年代半ばの容認発音に近い話者のものが多い |
解析方法 |
手作業による韻律表記、正書法表記とCLAWS による文法タグの自動付与 |
特徴 |
ひとつのコーパスのなかに文法タグ、統語注釈、韻律注釈、正書法とデジタル録音された韻律注釈が付与されている。
音声研究に活用されている |
**syntactic annotation---文の樹形図、句構造、品詞などの統語情報の注釈
手作業で統語タグ付けされたコーパス
Gothenburg Corpus編纂者・編纂場所 |
グーテンベルグ(スウェーデン) |
データ量 |
12万8000語 |
データソース |
Brown Corpusの一部 |
編纂者・編纂場所 |
ランカスター大学 |
データ量 |
14万4000語 |
データソース |
LOB Corpusの一部 |
編纂者・編纂場所 |
Geoffrey Sampson(サセックス大学) |
データ量 |
12万8000語 |
データソース |
1961年に最初に編纂されたBrown Corpusに含まれる4つのジャンルの一つ |
特徴 |
統語機能や深層構造のような詳しい情報を含む |
句構造をもとにした統語解析
Penn Treebank編纂者・編纂場所 |
Mitchell Marcus とチーム(ペンシルヴェニア大学) |
データ量 |
330万語(Phase1の場合) |
データソース |
Wall Street Journal ・Brown Corpusなど |
解析方法 |
自動品詞付与→手作業で修正→構文解析プログラム→手作業による確定作業 |
〈コーパスの注釈のレベル〉(p.12 Box 1.2)
正書法タグを付ける必要があるのか?
言語学的な機能を区別するために、正書法のタグを付ける。
〈あいまいな表記〉
*がついたコーパスのサンプルについては以下のページを参照してください http://helmer.aksis.uib.no/icame/newcd.htm |
SakaueTatsuya.NET >
lectures / seminars
> 2004年度時間割
> 言語情報システム論
> Leech, G. (1997)
© MORITA,
Tomoka & MORITA, Mitsuhiro