報告者:DICOM M2 阪上 辰也
Last Update:2004/04/16
1.1 What is a Corpus and What is Corpus Annotaion?
【押さえるべきこと】
-
Corpusとは何か
-
Annotationとは何をすることなのか
Corpusとは何か
- それまで(伝統的に)の定義はどうであったか
- コーパス=言語研究の基礎として利用され得る「自然に出てきた」言語データの総体
- 話し言葉・書き言葉で構成されている
- しばしば、特定の言語・変種を表記しようと設計されるもの
- 過去35年間の定義はどうか
- コーパス=「電子化された」言語資料体(様々な目的でコンピュータにより処理される)
- コンピュータの高機能化、コーパスの量・変種・アクセスのしやすさは増している
- コーパスを処理したり、コーパスに含まれる情報へのアクセスをしたりする処理ソフトの開発も進んでいる
- 言語研究における普遍的(誰でもアクセスできる)資料になっている
- 以後、コーパスは、「電子化された」言語資料という定義で記すものとする
コーパス言語学元年
コーパスの価値は何で決まるか
- size(量)
- diversity(多様性):使用域やテキストタイプ
- the care:実際どう書かれているのか、イタリックや改行などの情報を盛り込む必要もあり
- annotation(情報付与)
corpus annotationとは何なのか
- コーパスに、解釈的(interpretative)・言語的(linguistic)な情報を加えること
- 典型的なものは、grammatical tagging(参考:その他のtagging)
- 例:taken_VVN(=「takenは過去分詞形である」)
annotationの定義に関する議論点
- その1 annotationを解釈的と呼ぶこと
- annotationは、人間によるテキスト理解の産物
- 純粋に客観的なものではない(機械的な手法も必要)
- 例:his future bride → futureは名詞か形容詞か?
- 細部にわたりコード化されるべき
- こういった問題が議論されなくてはいけない
- その2:annotation(情報付与)とrepresentation(表記)の区別
- 書き言葉の場合(簡単)
- representation:アルファベット、記号(カンマ、ピリオド)がコンピュター上でコード化され置き換えられたもの
- annotation:メタ言語(言語について言及する言語)的、テキストの言語的情報を提供するもの
- 話し言葉の場合(難しい)
- 話し言葉を書き言葉・電子化された形にする時、transcriber(書き起こす人)は表記する過程で、談話を理解しなければいけない
- 強勢やイントネーションという韻律的な情報付与は、ある程度、書き起こす人間の判断や専門的知識に依存することになる
- prosodic
labellingは、発話データの一部を表記していることは間違いないし,ある程度解釈していることも間違いない
- 音声データを書き起こしたものに対しては、いくらかの記述的・解釈的立場を取る必要がある(そのままでは信頼できない)
References
- Garside,R., G. Leech, and A. McEnery (eds.) (1997) Corpus Annotation:
Linguistic Information from Computer Text Corpora. London; Longman.
<amazon>
- Hunston, S. (2002) Corpora in Applied Linguistics. Cambridge:
Cambridge University Press. <amazon>
- コーパス関連リンク集(阪上自作)
SakaueTatsuya.NET >
lectures / seminars
> 2004年度時間割
> 言語情報システム論
> Leech, G. (1997)
© SAKAUE,
Tatsuya <m0303-spamkiller-10m@mbox.nagoya-u.ac.jp>