Leech, G.(1997) Introducing Corpus Annotation (p.30-32)
2.4 Encoding of tags
報告者:M2 劉琳
トークン分析などの問題から、タグの設定あるいはタグとトークンの関連付けなどにも様々な問題が生じた。
○ 基準
(1) 1つの基準モデルとして、Brown Corpusのタグセットはいくつかのコーパスによって模範されてきた。
(2) TEI (Text Encoding Initiative) という新たな基準が取り上げられた。
・ TEI とは 国際的な共同研究活動のために、テキスト資料などを電
子化された形で表すための共通ガイドラインを定めるという構想である。
TEI プロジェクトの目標は、電子テキストではテキストの「どんな」特徴を
コーディングするのと、データの取りこぼしなく、プラットフォームに依存せず交換するためには「ど のように」コーディングを表したらよいかと
いう点である。
☆ 最近の動きについては、TEIを文法的タグ付け、言語学的意味づけにいかに応用できるかに力が入れている。
☆ プロジェクトを始めるにあたっては、標準汎用マーク付け言語(SGML
= ISO 8879)がガイドラインに最もふさわしい表現手段として
選ばれた。
☆ BNCはTEIをタグ付けに応用したコーパスである。THE BNC BASIC TAGSET (Box2.3) このようなタグ付けは、個人使用者にとって
は、分かりにくい点もあるけど、国際的な共同研究においては、国際共通基準を持たしたことから大きな意義を持っている。
そして、上記(2.2)のように3種類の特殊トークンのタグ付けも容易になる。
例
◎ Multiword
in lieu of について、Ditto tagで表示されることはなく、<w prp>in lieu
of ひとつのまとまりとして、1つのタグをつける
◎ Mergers
they're passing they と'reのの間に二つのタグを与えることによって、それぞれの品詞情報を与える。そして、二つのタグの間にスペースを入れないことで、
1つのまとまりを示すこともできている。
◎ Phantom word
<w AJ0><w
PRP>post-</w PRP><w
AJ0>cold</w AJ0> <w NN1>war</w NN1></w AJ0>
↑全体の始まり ↑スペースなし ↑ス
ペースあり ↑ 全体の終わり
↑
○ 参考リンク
(日本語によるTEI紹介)
http://www2s.biglobe.ne.jp/~Taiju/markup.htm
2.5 Tagging Schemes: assigning tags
to words
○ タグ付けの要素
・ タグは単なる記号リストではない。単語の意味づけ(機能付け)の重要な役目を持っている。
・ タグ付けには一番な要素は、単語に一番相応しいタグを決定すること。文脈から、関連情報を見つけ、正しい選択ができる。
→ 一方、ある単語に1つ以上のタグに対応している場合もある。その時、多数のタグから一個を選んだ理由の説明が必要になってくる。
タグ付けマニュアルはそ のための産物である。テキストの広さ、正確性を求めるにつれ、マニュアルの詳しさの追求にも終点がない。
○ 'grey areas'
ex) gold watch 名詞が形容詞の役割を果
たしている。
固有名詞VS普通名詞 Times square
・ その時1つの解決方法として、上記の例を1つのmultiword として扱い、1つのタグを与える。
タグ付けには、絶対的な真実はないけれとも、恣意的的な判断で
も相対的な定義を与えることは必要である。
2.6 Conclusion
・ 文法タグの付与は見かけより複雑であり、手ごたえや重要性がある。
戻る